机器学习基础专题:随机变量

术语

样本空间(sample space): Ω \Omega Ω,包含了所有可能出现的结果的集合。比如在掷一次骰子的样本空间可以用{1,2,3,4,5,6}表示。

事件集(event space): F F F,a collection of subsets of Ω \Omega Ω,用来表示出现的结果。事件集未必是样本空间中的单一元素,也可以是复杂元素。比如在掷一次骰子的样本空间中,可以用{1,3,5}表示结果为奇数的事件。

概率函数(probability function): P P P,该函数完成了从事件到该事件发生概率的映射。

概率法则

贝叶斯

A的先验概率(prior probability of A): P(A)

A的后验概率(posterior probability of an event A given B): P(A|B)
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac {P(B|A)P(A)} {P(B)} P(AB)=P(B)P(BA)P(A)

独立事件

事件 A 1 , A 2 ,   . . .   , A n A_1, A_2,\ ...\ , A_n A1,A2, ... ,An相互独立,当且仅当该事件集合的所有子集满足条件 P ( A i 1 , A i 2 ,   . . .   , A i k ) = ∏ j = 1 k P ( A i j ) P(A_{i1}, A_{i2},\ ...\ , A_{ik}) = \prod_{j=1}^k P(A_{ij}) P(Ai1,Ai2, ... ,Aik)=j=1kP(Aij)

最大后验概率

Maximum-a-posteriori (MAP)。

假设 x , y x,y x,y都是离散的。
y ^ = f ( x ) = a r g m a x y p ( y ∣ x ) = a r g m a x y p ( x ∣ y ) p ( y ) = a r g m a x y p ( x , y ) \hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y p(x|y)p(y) \\\\ = argmax_y p(x,y) y^=f(x)=argmaxyp(yx)=argmaxyp(xy)p(y)=argmaxyp(x,y)
假设 x x x是连续的, y y y是离散的。
y ^ = f ( x ) = a r g m a x y p ( y ∣ x ) = a r g m a x y f ( x ∣ y ) p ( y ) \hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y f(x|y)p(y) y^=f(x)=argmaxyp(yx)=argmaxyf(xy)p(y)
缺点

  1. 随机变量相互独立的假设通常不成立
  2. 训练集中未出现某个值的样本导致概率为0,可以通过smoothing解决

信息熵

对于每一个事件,我们从它的发生能够获取到的信息是 l o g ( 1 P ( A ) ) log(\frac 1 {P(A)}) log(P(A)1)。这一个公式其实是符合我们的直觉。如果一个事件不常发生,那么当它发生的时候,透露的信息应该会比常见事件透露的信息更多。

信息熵的定义如下,
H ( X ) = − ∑ i = 1 m p ( x i ) l o g 2 p ( x i ) H(X) = -\sum_{i=1}^m p(x_i) log_2 p(x_i) H(X)=i=1mp(xi)log2p(xi)

随机变量

一般来说,我们使用大写字母表示随机变量本身,用对应的小写字母代表该变量的取值。

可以从CDF分辨一个随机变量是离散变量、连续变量、抑或是两者都不是。

在这里插入图片描述

离散变量

满足条件 P ( X ∈ X ) = 1 P(X \in \mathcal X) = 1 P(XX)=1 for some countable set X ⊂ R \mathcal X \sub R XR

离散变量可以被其概率质量函数充分说明。

概率质量函数

probability mass function (pmf)。定义 p ( x ) = P ( X = x )   ∀   x ∈ X p(x) = P(X=x) \ \forall \ x \in X p(x)=P(X=x)  xX

性质:

  1. p ( x ) ≥ 0 p(x) \ge 0 p(x)0
  2. ∑ x ∈ X p ( x ) = 1 \sum_{x \in X} p(x) = 1 xXp(x)=1

我们常用记号 X ∼ p ( x ) X \sim p(x) Xp(x)来表示X的pmf是p(x)。

累积分布函数

cumulative density function (cdf)。定义 F ( x ) = P ( X ≤ x ) F(x) = P(X \le x) F(x)=P(Xx)

性质

  1. F ( x ) ≥ 0 F(x) \ge 0 F(x)0,且单调非递减

  2. l i m x − > ∞ F ( x ) = 1 lim_{x->\infty} F(x) = 1 limx>F(x)=1 l i m x − > − ∞ F ( x ) = 0 lim_{x->-\infty} F(x) = 0 limx>F(x)=0

  3. F ( x ) F(x) F(x) 是右连续的,即 l i m x − > a + F ( x ) = F ( a ) lim_{x->a^+} F(x) = F(a) limx>a+F(x)=F(a)

  4. P ( X = a ) = F ( a )   −   l i m x − > a − F ( a ) P(X=a) = F(a) \ - \ lim_{x->a^-} F(a) P(X=a)=F(a)  limx>aF(a)

经典的离散变量

Bernoulli

p ( x ) = p x + ( 1 − p ) ( 1 − x ) ;   x ∈ { 0 , 1 } p(x) = px + (1-p)(1-x); \ x \in \{0,1\} p(x)=px+(1p)(1x); x{ 0,1}

应用场景为投篮投进的概率。

Geometric

p ( x ) = p ( 1 − p ) x p(x) = p(1-p)^x p(x)=p(1p)x

应用场景为抛硬币直到看到一次正面朝上的概率。

Binomial

p ( x ) = C ( n , k ) ∗ p k ( 1 − p ) n − k p(x) = C(n, k)*p^k(1-p)^{n-k} p(x)=C(n,k)pk(1p)nk

应用场景为连续抛n次硬币看到k次正面朝上的概率。

Poisson

p ( x ) = λ x x ! e − λ ; λ > 0 p(x) = \frac {\lambda^x} {x!} e^{-\lambda}; \lambda > 0 p(x)=x!λxeλ;λ>0

应用场景为在给定时间段内事件的数量。

Categorical

可以自己根据场景定义pmf。

连续变量

概率密度函数

probability density function (pdf)。定义 f ( x ) = d F ( x ) d x f(x) = \frac {dF(x)} {dx} f(x)=dxdF(x)

性质

  1. f ( x ) ≥ 0 f(x) \ge 0 f(x)0
  2. ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x) dx = 1 f(x)dx=1,同理 P ( X ≤ a ) = ∫ − ∞ a f ( x ) d x P(X \le a) = \int_{-\infty}^{a} f(x) dx P(Xa)=af(x)dx
  3. P ( X ∈ A ) = ∫ x ∈ A f ( x ) d x P(X \in A) = \int_{x \in A} f(x) dx P(XA)=xAf(x)dx

我们常用记号 X ∼ f ( x ) X \sim f(x) Xf(x)来表示 X X X的pdf是 f ( x ) f(x) f(x)

累积分布函数

与离散变量的CDF部分相同。

经典的连续变量

Gaussian

X ∼ N ( μ , σ 2 ) X \sim \mathcal N(\mu, \sigma^2) XN(μ,σ2)
f ( x ) = 1 2 π σ 2 ∗ e − ( x − μ ) 2 2 σ 2 f(x) = \frac {1} {\sqrt{2\pi \sigma^2}} * e^{-\frac {(x-\mu)^2} { 2\sigma^{2}}} f(x)=2πσ2 1e2σ2(xμ)2

Logistic

X ∼ l o g i s t i c ( μ = 0 , s = 0 ) X \sim logistic(\mu=0, s=0) Xlogistic(μ=0,s=0)
f ( x ) = e − x ( 1 + e − x ) 2 f(x) = \frac {e^{-x}} {(1+e^{-x})^2} f(x)=(1+ex)2ex

Uniform

X ∼ U [ a , b ] X \sim U[a,b] XU[a,b]
f ( x ) = 1 b − a ;   f o r   a ≤   x ≤ b f(x) = \frac 1 {b-a}; \ for \ a \le \ x \le b f(x)=ba1; for a xb

Exponential

X ∼ E x p ( λ ) ; λ > 0 X \sim Exp(\lambda); \lambda > 0 XExp(λ);λ>0
f ( x ) = λ e − λ x ;   x ≥ 0 f(x) = \lambda e^{-\lambda x}; \ x \ge 0 f(x)=λeλx; x0

Laplace

X ∼ L a p ( μ , b ) ;   b > 0 X \sim Lap(\mu, b); \ b > 0 XLap(μ,b); b>0
f ( x ) = 1 2 b e − ∣ x − μ ∣ b f(x) = \frac 1 {\sqrt{2b}} e^{-\frac{|x - \mu|} {b}} f(x)=2b 1ebxμ

期望&方差&矩

期望

假设 X ∼ p ( x ) X \sim p(x) Xp(x),则 E [ X ] = ∑ x ∈ X x p ( x ) E[X] = \sum_{x \in X} xp(x) E[X]=xXxp(x)。容易得到 E [ g ( X ) ] = ∑ x ∈ X g ( x ) p ( x ) E[g(X)] = \sum_{x \in X} g(x)p(x) E[g(X)]=xXg(x)p(x)

假设 X ∼ f ( x ) X \sim f(x) Xf(x),则 E [ X ] = ∫ − ∞ ∞ x f ( x ) E[X] = \int_{-\infty}^{\infty} xf(x) E[X]=xf(x)。容易得到 E [ g ( X ) ] = ∫ − ∞ ∞ g ( x ) f ( x ) d x E[g(X)] = \int_{-\infty}^{\infty} g(x)f(x) dx E[g(X)]=g(x)f(x)dx

需要注意的是,期望是有可能发散的。比如 g ( x ) = x − 2 ;   x ≥ 1 g(x) = x^{-2}; \ x \ge 1 g(x)=x2; x1的期望就是正无穷。

性质

  1. 线性, E [ a ∗ g ( X ) + b ∗ h ( X ) + c ] = a ∗ E [ g ( X ) ] + b ∗ E [ h ( X ) ] + c E[a*g(X) + b*h(X) + c] = a*E[g(X)] + b*E[h(X)] + c E[ag(X)+bh(X)+c]=aE[g(X)]+bE[h(X)]+c
  2. 可转换性,如果 Y = g ( X ) Y = g(X) Y=g(X),那么 E [ Y ] = E [ g ( X ) ] E[Y] = E[g(X)] E[Y]=E[g(X)]

方差

方差 v a r ( X ) var(X) var(X),有时候也用 D ( X ) D(X) D(X)表示。

D [ X ] = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2 D[X] = E[(X - E[X])^2] = E[X^2] - (E[X])^2 D[X]=E[(XE[X])2]=E[X2](E[X])2。数学推导见下,
D [ X ] = ∑ i = 1 n ( x i − μ ) 2 p i = ∑ i = 1 n x i 2 p i − 2 μ ∑ i = 1 n x i p i + μ 2 ∑ i = 1 n p i = ∑ i = 1 n x i 2 p i − 2 μ 2 + μ 2 ∑ i = 1 n p i = ∑ i = 1 n x i 2 p i − μ 2 = E [ X 2 ] − ( E [ X ] ) 2 D[X] = \sum_{i=1}^n (x_i - \mu)^2 p_i \\\\ = \sum_{i=1}^n x_i^2 p_i - 2\mu \sum_{i=1}^n x_i p_i + \mu^2 \sum_{i=1}^n p_i \\\\ = \sum_{i=1}^n x_i^2 p_i - 2 \mu^2 + \mu^2 \sum_{i=1}^n p_i \\\\ = \sum_{i=1}^n x_i^2 p_i - \mu^2 \\\\ = E[X^2] - (E[X])^2 D[X]=i=1n(xiμ)2pi=i=1nxi2pi2μi=1nxipi+μ2i=1npi=i=1nxi2pi2μ2+μ2i=1npi=i=1nxi2piμ2=E[X2](E[X])2
性质

  1. D [ a x + b ] = a 2 ∗ D ( x ) D[ax+b] = a^2*D(x) D[ax+b]=a2D(x)

英文是moment,有时候被称为动差。

i i i阶矩被定义为 E [ X i ] E[X^i] E[Xi],可以发现一阶矩正好就是期望。0阶矩被定义为1。

概率的界限

Markov

假设 X X X是一个非负随机变量(RV),那么对于任何非负的实数a有 P ( X ≥ a E [ X ] ) ≤ 1 a P(X \ge aE[X]) \le \frac 1 a P(XaE[X])a1

Chebyshev

假设 X X X是一个随机变量(RV),那么对于任何实数 a > 1 a>1 a>1,有 P ( ∣ X − E [ X ] ∣ ≥ a σ ) ≤ 1 a 2 P(|X-E[X]| \ge a\sigma) \le \frac 1 {a^2} P(XE[X]aσ)a21.

联合概率

假设iid, p ( x , y ) = P ( X = x , Y = y ) p(x, y) = P(X=x, Y=y) p(x,y)=P(X=x,Y=y) ( X , Y ) ∼ p ( x , y ) (X,Y) \sim p(x,y) (X,Y)p(x,y)

联合概率质量函数

边缘分布(marginals)可以表示成 p ( x ) = ∑ y ∈ Y p ( x , y ) p(x) = \sum_{y \in \mathcal Y} p(x, y) p(x)=yYp(x,y)

X X X, Y Y Y相互独立<=> p ( x , y ) = p ( x ) p ( y )   ∀   x ∈ X , y ∈ Y p(x, y) = p(x)p(y) \ \forall \ x \in \mathcal X, y \in \mathcal Y p(x,y)=p(x)p(y)  xX,yY

联合累积分布函数

F ( x , y ) = P ( X ≤ x , Y ≤ y )   ∀   x ∈ R , y ∈ R F(x,y) = P(X \le x, Y \le y) \ \forall \ x \in R, y \in R F(x,y)=P(Xx,Yy)  xR,yR

容易得到 P ( a < X ≤ x , b < Y ≤ y ) = F ( b , d ) − F ( a , d ) − F ( b , c ) + F ( a , c ) P(a < X \le x, b < Y \le y) = F(b,d) - F(a,d) - F(b,c) + F(a,c) P(a<Xx,b<Yy)=F(b,d)F(a,d)F(b,c)+F(a,c)

性质

  1. 在x和y方向均不递减
  2. l i m x − > + ∞ F ( x , y ) = F ( y ) lim_{x->+\infty} F(x,y) = F(y) limx>+F(x,y)=F(y)

联合概率密度函数

f ( x , y ) = ∂ 2 F ( x , y ) ∂ x ∂ y f(x,y) = \frac {\partial^2 F(x,y)} {\partial x \partial y} f(x,y)=xy2F(x,y)

计算 X X X的边缘联合概率质量函数(marginal pdf): f ( X ) = ∫ − ∞ ∞ f ( x , y ) d y f(X) = \int_{-\infty}^{\infty} f(x,y) dy f(X)=f(x,y)dy

联合高斯

Jointly Gaussian。定义 ρ \rho ρ为关联系数(correlation coefficient)。

变量间的相互关系

协方差

covariance。用于衡量两个随机变量的联合变化程度。

c o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ] cov(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y]

如果两个变量相互独立,那么协方差是0。但是反之并不成立!如果两个变量的协方差是0,我们只能说这两个变量不相关,但是不能得出相互独立的结论。

在这里插入图片描述

上面这张图就是协方差为0但变量不相互独立的例子。

我们仔细观察可以发现,方差是协方差的一种特殊情况,是变量与自身的协方差。

v a r ( X + Y ) = v a r ( X ) + v a r ( Y ) + 2 c o v ( X , Y ) var(X+Y) = var(X) + var(Y) + 2cov(X,Y) var(X+Y)=var(X)+var(Y)+2cov(X,Y)

我们可以用方差的公式证明这一推论。
v a r ( X + Y ) = E [ ( X + Y ) 2 ] − ( E [ X + Y ] ) 2 = E [ X 2 ] + E [ Y 2 ] + 2 E [ X Y ] − ( E [ X + Y ] ) 2 = ( E [ X 2 ] − E [ X ] 2 + E [ X ] 2 ) + ( E [ Y 2 ] − E [ Y ] 2 + E [ Y ] 2 ) + 2 E [ X Y ] − ( E [ X + Y ] ) 2 = v a r ( X ) + E [ X ] 2 + v a r ( Y ) + E [ Y ] 2 + 2 E [ X Y ] − ( E [ X + Y ] ) 2 = v a r ( X ) + v a r ( Y ) + E [ X ] 2 + E [ Y ] 2 + 2 E [ X Y ] − ( E [ X ] + E [ Y ] ) 2 = v a r ( X ) + v a r ( Y ) + 2 E [ X Y ] + E [ X ] 2 + E [ Y ] 2 − ( E [ X ] + E [ Y ] ) 2 = v a r ( X ) + v a r ( Y ) + 2 E [ X Y ] − 2 E [ X ] [ Y ] = v a r ( X ) + v a r ( Y ) + 2 c o v ( X , Y ) var(X+Y) = E[(X+Y)^2] - (E[X+Y])^2 \\\\ = E[X^2] + E[Y^2] + 2E[XY] - (E[X+Y])^2 \\\\ = (E[X^2] - E[X]^2 + E[X]^2) + (E[Y^2] - E[Y]^2+ E[Y]^2) + 2E[XY] - (E[X+Y])^2 \\\\ = var(X) + E[X]^2 + var(Y) + E[Y]^2 + 2E[XY] - (E[X+Y])^2 \\\\ = var(X) + var(Y) + E[X]^2 + E[Y]^2 + 2E[XY] - (E[X]+E[Y])^2 \\\\ = var(X) + var(Y) + 2E[XY] + E[X]^2 + E[Y]^2 - (E[X]+E[Y])^2 \\\\ = var(X) + var(Y) + 2E[XY] - 2E[X][Y] \\\\ = var(X) + var(Y) + 2cov(X,Y) var(X+Y)=E[(X+Y)2](E[X+Y])2=E[X2]+E[Y2]+2E[XY](E[X+Y])2=(E[X2]E[X]2+E[X]2)+(E[Y2]E[Y]2+E[Y]2)+2E[XY](E[X+Y])2=var(X)+E[X]2+var(Y)+E[Y]2+2E[XY](E[X+Y])2=var(X)+var(Y)+E[X]2+E[Y]2+2E[XY](E[X]+E[Y])2=var(X)+var(Y)+2E[XY]+E[X]2+E[Y]2(E[X]+E[Y])2=var(X)+var(Y)+2E[XY]2E[X][Y]=var(X)+var(Y)+2cov(X,Y)
性质

  1. 对称性
  2. c o v ( a X , b Y ) = a b   c o v ( X , Y ) cov(aX, bY) = ab \ cov(X,Y) cov(aX,bY)=ab cov(X,Y)

相关

correlation。显示两个随机变量之间线性关系的强度和方向。如果变量之间有很强的关系但不是线性关系,correlation也很可能是0。

E [ X Y ] = ∑ x ∈ X ∑ y ∈ Y x y p ( x , y ) E[XY] = \sum_{x \in X} \sum_{y \in Y} xyp(x,y) E[XY]=xXyYxyp(x,y)

在这里插入图片描述

上面图示分别对应correlation值接近0,1,-1.

相关系数

Correlation Coefficient。一般指的都是皮尔森系数。
ρ = c o v ( X , Y ) v a r ( X ) v a r ( Y ) \rho = \frac {cov(X, Y)} {\sqrt{var(X)var(Y)}} ρ=var(X)var(Y) cov(X,Y)
性质

  1. 对称性

协方差矩阵

一个向量由多个随机变量组成(默认是列向量),用 v v v或者 x x x表示。

随机向量$ v $的协方差矩阵是所有RV对之间的协方差的矩阵。实际上,我们可以将其视为对单个RV的方差的扩展。

在这里插入图片描述

我们可以从定义出发进行推导得到一个推论,注意下面多处包含的是向量的外积:
Σ v = E [ ( v − μ v ) ( v − μ v ) T ] = E [ v v T − v μ v T − μ v v T + μ v μ v T ] = E [ v v T ] − E [ v μ v T ] − E [ μ v v T ] + E [ μ v μ v T ] = E [ v v T ] − E [ v ] μ v T − μ v E [ v T ] + μ v μ v T = E [ v v T ] − μ v μ v T − μ v μ v T + μ v μ v T = E [ v v T ] − μ v μ v T \Sigma_{v} = E[(v-\mu_v)(v-\mu_v)^T] \\\\ = E[vv^T - v\mu_v^T - \mu_vv^T + \mu_v\mu_v^T] \\\\ = E[vv^T] - E[v\mu_v^T] - E[\mu_v v^T] + E[\mu_v \mu_v^T] \\\\ = E[vv^T] - E[v]\mu_v^T - \mu_v E[v^T] + \mu_v\mu_v^T \\\\ = E[vv^T] - \mu_v \mu_v^T - \mu_v \mu_v^T + \mu_v\mu_v^T \\\\ = E[vv^T] - \mu_v \mu_v^T Σv=E[(vμv)(vμv)T]=E[vvTvμvTμvvT+μvμvT]=E[vvT]E[vμvT]E[μvvT]+E[μvμvT]=E[vvT]E[v]μvTμvE[vT]+μvμvT=E[vvT]μvμvTμvμvT+μvμvT=E[vvT]μvμvT
性质

  1. 对称性
  2. 半正定性

Reference

  • Probability and Information Theory in Machine Learning, ECE 601, Fall 2020, Matthew Malloy

猜你喜欢

转载自blog.csdn.net/qq_40136685/article/details/108925869