这些概念考量的是一组变量之间的关系, 不妨设定两个随机变量
X~P(X)
与
Y~P(Y)
.
联合概率分布 joint probability distribution
joint probability 指的是多个变量联合发生的概率分布.
P(X=x,Y=y)
, 也可以简记做
P(x,y)
边缘概率分布 marginal probability distribution
我们已知两个有限的离散型随机变量
X
与
Y
以及它们的联合概率分布, 那么我们就是把
P(X,Y)
写成一个表格形式, 每一行代表一个
x∈X
, 每一列代表一个
y∈Y
, 那么我们可以把每一行的
P(x,y)
加和, 写到右边的边缘处(margin), 这就是对应行
X=x
的概率, 即
∀x∈X,P(X=x)=∑yP(X=x,Y=y)
, 我们就把这种子集上的概率分布依记账形式记做 边缘概率分布 (marginal probability distribution).
同理, 对于连续型随机变量, 只要把求和变成积分即可
p(x)=∫p(x,y)dy
条件概率和链式法则 conditional probability & chain rule
顾名思义, 条件概率指的是某个事件在给定其他条件时发生的概率, 这个非常符合人的认知:我们通常就是在已知一定的信息(条件)情况下, 去估计某个事件可能发生的概率. 概率论中,用 |
表示条件, 条件概率可以通过下式计算得到
P(Y=y|X=x)=P(Y=y,X=x)P(X=x)
, 即
在 x 发生的条件下 y 发生的概率
等于
x,y 同时发生的联合概率
除以
x自身的概率
. 注意, 必须满足
P(x)>0
, 否则对于永远不会发生的事情讨论条件概率无意义.
基于条件概率, 任意多维随机变量的联合分布都可以写成其中任意一个随机变量的条件概率相乘的形式
P(x(1),...,x(n))=P(x(1))∏i=2nP(x(i)|x(1),...,x(i−1))
,
具体而言, 对于一个三元分布 :
P(a,b,c)=P(a|b,c)p(b,c)=P(a|b,c)P(b|c)P(c)
, 这样通常很难直接得到的
P(a,b,c)
就分解为以下三个简单的情形乘积的形式:
-
P(c):c
发生的概率, 通常已知.
-
P(b|c):c
发生的条件下, 观察到
b
的概率, 通常从数据中挖出.
-
p(a|b,c):b,c
同时发生的条件下, 观察到
a
的概率, 通常从数据中挖出.
独立性和条件独立性 independent & conditionally independent
由上面的 joint probability, 满足下面的条件
∀x∈X,y∈Y,p(X=x,Y=y)=p(X=x)p(Y=y)
, 就表明连个随机变量之间是没有相互影响的, 因此, 他们是 相互独立的(independent). 简记为
X⊥Y
, 其实也真的很像垂直正交的关系.
如果
X,Y
在给定条件
Z=z
时满足 independent, 即
∀x∈X,y∈Y,z∈Z,p(X=x,Y=y|Z=z)=p(X=x|Z=z)p(Y=y|Z=z)
, 我们就说 随机变量
X
和
Y
在给定随机变量
Z
时是条件独立的(conditionally independent), 简记为
X⊥Y|Z
, 几何上可以看做给定基底
Z
时,
X,Y
是正交的.