Pattern Recognition and Machine Learning 第二章概率分布

标签：机器学习

概率分布

这章主要介绍一些常用的分布模型。
对于变量x的N次观测形成独立同分布的向量 $\vec x=(x_1,...,x_N)$ ，以此对x做一个密度估计，求出 $p(x)$ .

密 度 估 计 ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ 参 数 方 法 ⎧ ⎩ ⎨ ⎪ ⎪ 给 出 分 布 形 式 ， 通 过 最 大 似 然 、 最 大 后 验 等 调 整 参 数 大 小 （ 多 为 指 数 族 分 布 ） 离 散 变 量 ： 二 项 式 、 多 项 式 分 布 连 续 变 量 ： G a u s s 分 布 非 参 数 方 法 ： 直 方 图 、 最 近 邻 、 核 函 数 等

$密度估计\begin{cases} 参数方法 \begin{cases} 给出分布形式，通过最大似然、最大后验等调整参数大小\\ （多为指数族分布）\\ ~~~~离散变量：二项式、多项式分布\\ ~~~~连续变量：Gauss分布 \end{cases}\\ 非参数方法：直方图、最近邻、核函数等 \end{cases}$

参数方法

由最基本的概率模型可以给出函数表达式，而其中的参数则由样本数据训练出来。

二项式分布

自变量只能取0或1

伯努利分布 $B e r n (x | μ) = μ x (1 - μ) 1 - x$ $Bern(x|\mu)=\mu^x(1-\mu)^{1-x}$ 在设定参数 $\mu$ 后，x的概率密度如上。解决了投掷一次硬币的问题。由经典概率论中求最大似然的方法可知 $μ M L = 1 N \sum x n$ $\mu_{ML}={1\over N}\sum x_n$ 因此这个求和就是该分布下的充分统计量1。
二项分布 $B i n (m | N, μ) = C m N μ m (1 - μ) N - m$ $Bin(m|N,\mu)=C_N^m\mu^m(1-\mu)^{N-m}$ 是伯努利分布的扩展，相当于做了N次投掷操作，且每次的值是独立同分布的。令 $m={1\over N}\sum x_n$ ，可以通过样本空间来推出上面公式，并由期望的加法操作得到m的期望 $E[m]=N\mu$ 。
但在小数据时，这些由经典概率论得到的参数容易过拟合。例如只投了三次硬币且恰好都为正，那么之后每次投正的概率是1。然而这和常理不符。因此需要贝叶斯的方法来重新解决这个问题。
Beta分布2 $B e t a (μ | a, b) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a - 1 (1 - μ) b - 1$ $Beta(\mu|a,b)={\Gamma(a+b)\over \Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}$ 这里先给定似然是正比于 $\mu^x(1-\mu)^{1-x}$ 的，再有先验是正比于 $\mu^{a-1}(1-\mu)^{b-1}$ 的，那么由于共轭性，后验正比于 $\mu^{m+a-1}(1-\mu)^{l+b-1}$ ，而前面的归一化参数则可以通过积分确定。其中 $l=N-m$ 。
由于一开始可以初始化参数a，b，可以减少过拟合的发生。数据集越大，参数方差越小，参数也越来越确定。前一个实验的后验会作为后一个实验的先验，逐步提高准确性。并且这种顺序方法只依赖于数据的独立性，不必存储数据，只需要流水线地处理数据修正参数即可。
在平均意义上，频率学同样可以解释参数的方差为什么越来越小 $v a r θ [θ] = E D [v a r θ [θ | D]] + v a r θ [E θ [θ | D]] \geq E D [v a r θ [θ | D]]$ $var_\theta[\theta]=E_D[var_\theta[\theta|D]]+var_\theta[E_\theta[\theta|D]]\geq E_D[var_\theta[\theta|D]]$ 即前验参数方差大于后验参数方差的均值。

多项式分布

变量取值可以有K个但每次只能取一个，则可以用K维向量来表示，取第k个结果则将对应第k维标1，其余标0。满足 $\vec x=(0,...,1,...,0)^T且\sum x_k=1$ ，可得先验

p (x ⃗ | μ ⃗) = Π μ x k k

$p(\vec x|\vec\mu)=\Pi\mu_k^{x_k}$

且∑μk=1 $且\sum \mu_k=1$ ，这里不要求

μk $\mu_k$ 必须取0或1，而是0到1之间任意的实数。退化到二元即K=2，

μ⃗ =(μ,1−μ)且p(x|μ⃗ )=μx(1−μ)1−x $\vec \mu=(\mu,1-\mu)且p(x|\vec \mu)=\mu^x(1-\mu)^{1-x}$

同样可以得到似然

p (D | μ ⃗) = Π μ m k k

$p(D|\vec\mu)=\Pi\mu_k^{m_k}$ 其中

mk $m_k$ 是每个向量

x⃗ $\vec x$ 第k维的求和。因此第k维的参数

μk=mkN $\mu_k={m_k\over N}$ 。

扩展到多次实验，则假设

似 然 \propto Π μ m k k 且 先 验 \propto Π μ α k - 1 k \Rightarrow 后 验 \propto Π μ m k + α k - 1 k

$似然\propto\Pi\mu_k^{m_k}且~先验\propto\Pi\mu_k^{\alpha_k-1}\Rightarrow后验\propto \Pi\mu_k^{m_k+\alpha_k-1}$

给定超参数 $\vec\alpha$ 由归一化得到先验

D i r (μ ⃗ | α ⃗) = Γ ( \sum α i ) Γ ( α 1 ) . . . Γ ( α k ) Π μ α k - 1 k

$Dir(\vec\mu|\vec\alpha)={\Gamma(\sum\alpha_i)\over \Gamma(\alpha_1)...\Gamma(\alpha_k)}\Pi\mu_k^{\alpha_k-1}$

给定参数 $\vec\mu$ 得到似然

M u l t (m ⃗ | μ ⃗, N) = C N m 1, m 2, . . ., m k Π μ m k k

$Mult(\vec m|\vec\mu,N)=C^N_{m_1,m_2,...,m_k}\Pi\mu_k^{m_k}$

则后验为

p (μ ⃗ | D, α ⃗) = D i r (μ ⃗ | α ⃗ + m ⃗)

$p(\vec\mu|D,\vec\alpha)=Dir(\vec\mu|\vec\alpha+\vec m)$

连续变量高斯分布

单变量
单变量x的高斯分布，即正态分布为
$ (x | μ, σ 2) = 1 ( 2 π σ 2 ) 1 2 e x p {- 1 2 σ 2 (x - μ) 2}$ $\mathcal{N}(x|\mu,\sigma^2)={1\over (2\pi\sigma^2)^{1\over 2}}exp\{-{1\over 2\sigma^2}(x-\mu)^2\}$

中心极限定理 设从均值为 $\mu$ 、方差为 $\sigma^2$ （有限）的任意一个总体中抽取样本量为n的样本；当n充分大时，样本均值的抽样分布近似服从 $\mu$ 、方差为 $\sigma^2 \over n$ 的正态分布。
因此正态分布具有广泛的应用。
多变量
D维多变量 $\vec x$ 的高斯分布为
$ (x ⃗ | μ ⃗, Σ) = 1 ( 2 π ) D 2 1 | Σ | 1 2 e x p {- 1 2 (x ⃗ - μ ⃗) T Σ - 1 (x ⃗ - μ ⃗)}$ $\mathcal{N}(\vec x|\vec\mu,\Sigma)={1\over (2\pi)^{D\over 2}}{1\over |\Sigma|^{1\over 2}}exp\{-{1\over 2}(\vec x-\vec\mu)^T\Sigma^{-1}(\vec x-\vec\mu)\}$ 其中 $\Sigma$ 为协方差矩阵3，它的每个元素是各个向量元素之间的协方差。要证明积分和为1，需要用到许多矩阵的性质，尤其是特征向量这方面的内容。通过对 $\Sigma$ 列出特征方程解出特征向量，定义了一个新的旋转、平移的坐标系 $y ⃗ = U (x ⃗ - μ ⃗)$ $\vec y = U(\vec x − \vec μ)$ 其中U是特征向量为各行的正交矩阵。在这个坐标系中联合概率分布可以分解成独立分布的乘积，归结到了一元高斯分布
$p (y ⃗) = p (x ⃗) |  | = Π D j = 1 1 ( 2 π λ j ) 1 2 e x p {- y 2 j 2 λ j}$ $p(\vec y)=p(\vec x)|\mathcal{J}|=\Pi_{j=1}^D{1\over (2\pi\lambda_j)^{1\over 2}}exp\{-{y_j^2\over 2\lambda_j}\}$ 其中 $\mathcal{J}$ 是从x到y坐标系的Jacobian矩阵，可以看作是多元函数的导数 $J i j = \partial x i \partial y j = U j i$ $J_{ij}={\partial x_i\over \partial y_j}=U_{ji }$ 恰好是U的转置。对于微元dx,dy有 $dx=|\mathcal{J}_{x\rightarrow y}|dy$ ， $\lambda$ 则是当初列特征方程解出的特征值，且为了之后可以正确归一化，这里要求特征值均大于0，使得 $\Sigma$ 正定。求一阶、二阶矩时，主要利用了换元和奇函数的对称性，求得 $E[\vec x]=\vec\mu,E[\vec x\vec x^T]=\vec\mu\vec\mu^T+\Sigma$ ，得 $cov[\vec x]=\Sigma$ .

局限性

计算 $\Sigma$ 和 $\mu$ 会产生的独立变量数量正比于 $D^2$ ，计算量比较大。特殊的对角 $\Sigma$ 和单值 $\Sigma$ 可以让独立变量数量降到D，但又限制了分布的形式。
高斯分布是单峰模型，难以拟合多峰分布。后面解决的方式是引入潜变量。特别地,通过引入离散型潜在变量，相当多的多峰分布可以使用混合高斯分布来描述；引入连续型潜在变量可以产生出一种模型，其自由参数与维度D无关，模型数据集的相关性不变。

条件高斯模型

已知多元变量 $\vec x,\vec y$ 的联合分布是高斯分布，在其中一者是高斯分布的条件下，另一者也是高斯分布。将其中的y作为观测变量，求x的分布即得到条件分布。求法并不是直接积分，而是得到高斯分布指数的形式

e x p {- 1 2 x ⃗ T Σ - 1 x ⃗ + x ⃗ T Σ - 1 μ ⃗ + c o n s t}

$exp\{-{1\over 2}\vec x^T\Sigma^{-1}\vec x+\vec x^T\Sigma^{-1}\vec\mu+const\}$ 类似于 待定系数法，将x用x+y代替展开，可以直接对比得到

μx|y $\mu_{x|y}$ 与

Σx|y $\Sigma_{x|y}$ 。

引入了精度矩阵 $\Lambda=\Sigma^{-1}$ 方便结果的表示。

书上直接把多元变量 $\vec x$ 分为前M个变元 $\vec x_a$ 与后N-M个变元 $\vec x_b$ ，并将后者作为观测变量可得

μ a | b Σ a | b = μ a - Λ - 1 a a Λ a b (x b - μ b) = Λ - 1 a a

$\begin{align*} \mu_{a|b}&=\mu_a-\Lambda_{aa}^{-1}\Lambda_{ab}(x_b-\mu_b)\\ \Sigma_{a|b}&=\Lambda_{aa}^{-1} \end{align*}$ 利用 舒尔补(Schur complement)解出

μ a | b Σ a | b = μ a + Σ a b Σ - 1 b b (x b - μ b) = Σ a a - Σ a b Σ - 1 b b Σ b a

$\begin{align*} \mu_{a|b}&=\mu_a+\Sigma_{ab}\Sigma_{bb}^{-1}(x_b-\mu_b)\\ \Sigma_{a|b}&=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba} \end{align*}$ 可见

μa|b $\mu_{a|b}$ 与

xb $x_b$ 有关，

Σa|b $\Sigma_{a|b}$ 与

xb $x_b$ 无关，条件分布

p(xa|xb) $p(x_a | x_b)$ 是

xb $x_b$ 的线性函数，并且结果用精度矩阵表示更简单。

其中， $\Lambda_{aa}^{-1}=(\Sigma/\Sigma_{bb})=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}$ ，即 $\Sigma$ 关于 $\Sigma_{bb}$ 的舒尔补，记为 $(\Sigma/\Sigma_{bb})$ 。且有

| Σ | = | Σ b b | \times | Σ / Σ b b |

$|\Sigma|=|\Sigma_{bb}|\times|\Sigma/\Sigma_{bb}|$ 恰好对应着

p (a b) = p (b) p (a | b)

$p(ab)=p(b)p(a|b)$ 从舒尔补可以推出 Woodbury恒等式，将两侧同时乘以

(A+BD−1C) $(A + BD ^{−1} C)$ 即可证明其成立

(A + B D - 1 C) - 1 = A - 1 - A - 1 B (D + C A - 1 B) - 1 C A - 1

$(A + BD^{−1} C)^{−1}= A ^{−1}− A^{−1}B(D + CA^{−1}B)^{−1} CA^{−1}$ 假设 A 是一个很大的对角矩阵(因此很容易求逆矩阵), B行多列少( C 恰好相反)，此时计算右侧的代价就远远小于计算左侧的代价。

边缘高斯模型

这里把多元变量 $\vec x$ 分为前M个变元 $\vec x_a$ 与后N-M个变元 $\vec x_b$ ，再将后者积分，得到关于前者的边缘分布,依然是高斯分布。通过高斯分布指数的二次项拆分，与其固定形式对比求出

E [x a] c o v [x a] = μ a = Σ a a

$\begin{align*} E[x_a]&=\mu_a\\ cov[x_a]&=\Sigma_{aa} \end{align*}$ 与

xb $x_b$ 无关，用协方差矩阵表示更简单。

这里可以对比一下边缘、条件两种情况的分布

p (x a) p (x a | x b) =  (x a | μ a, =  (x a | μ a - Λ - 1 a a Λ a b (x b - μ b), Σ a a) Λ - 1 a a)

$\begin{align*} p(x_a) &= \mathcal{N} (x_a| μ_a,&\Sigma_{aa} ) \\ p(x_a| x_b) &= \mathcal{N} (x_a |\mu_a-\Lambda_{aa}^{-1}\Lambda_{ab}(x_b-\mu_b), &\Lambda_{aa}^{-1}) \end{align*}$ 第一章的时候说过它们分别对应了变量概率里的加和乘，这暗示着贝叶斯又要来搞事了。

高斯变量的贝叶斯定理

给定 x 的一个边缘高斯分布，以及在给定 x 的条件下 y 的条件高斯分布,形式为

p (x) p (y | x) =  (x | μ, =  (y | A x + b, Λ - 1) L - 1)

$\begin{align*} p(x) &= \mathcal{N} (x | μ, &Λ ^{−1} ) \\ p(y | x) &=\mathcal{N} (y | Ax + b, &L^{-1}) \end{align*}$ y的边缘分布以及给定y的条件下x的条件分布为

p (y) p (x | y) =  (y | A μ + b, =  (x | Σ {A T L (y - b) + Λ μ}, L - 1 + A Λ - 1 A T) Σ)

$\begin{align*} p(y) &= \mathcal{N} (y | Aμ + b,&L ^{−1} + AΛ^{−1} A^T )\\ p(x | y) &= \mathcal{N} (x | Σ\{A ^T L(y − b) + Λμ\},&Σ) \end{align*}$ 其中

Σ=(Λ+ATLA)−1 $Σ = (Λ + A^T LA)^{−1}$

贝叶斯推断时，似然函数的形式为μ的二次型的指数形式。因此如果我们把先验分布 p(μ) 选成高斯分布，那么它就是似然函数的一个共轭分布。因为对应的后验概率是两个 μ 的二次函数的指数的乘积，因此也是一个高斯分布。

精度是可以相加的，因此后验概率的精度等于先验的精度加上每一个观测数据点所贡献的一个精度。当我们增加观测数据点的数量时，精度持续增加（波峰概率密度增加），对应于后验分布的方差持续减少（锁定区域减小）。

在顺序更新的框架下，观测到N个数据点后的均值表达为：观测到N-1个数据点之后的均值以及数据点 $x_N$ 的贡献。

高斯混合模型(GMM)

解决前面说的高斯分布不能描述单峰分布，故研究基本高斯分布的线性组合。

p (x) = \sum k = 1 K π k  (x | μ k, Σ k)

$p(x) =\sum_{k=1}^Kπ_k \mathcal{N} (x | μ_k , Σ_k )$ 且

\sum k = 1 K π k = 1

$\sum_{k=1}^Kπ_k=1$ 即给每个基本的高斯分布赋予权重，即混合系数，权重的分布是概率分布问题，故一开始对权重的设置为先验概率p(k)，即

πk $π_k$ ，后验为p(k|x)，记为

γk(x) $\gamma_k(x)$ 。最大似然来求最优参数

l n p (X | π, μ, Σ) = \sum n = 1 N l n {\sum k = 1 K π k  (x n | μ k, Σ k)}

$ln~p(X | π, μ, Σ)= \sum_{n=1}^Nln~\{\sum_{k=1}^Kπ_k \mathcal{N}(x_n | μ_k , Σ_k )\}$ 但由于是多元问题得不到闭势解，不能直接求出表达式。之后会介绍两种方法求解：
1. 迭代数值优化
2. 期望最大化

指数族分布

其形式为

p (x | η) = h (x) g (η) e x p {η T u (x)}

$p(x | η) = h(x)g(η) exp \{η^T u(x)\}$ 总满足

g (η) \int h (x) e x p {η T u (x)} d x = 1

$g(η) \int h(x) exp \{η^T u(x)\}d x = 1$ 其中变量x可以为标量/向量、离散/连续，η为自然参数，g(η)为归一化系数。除了最后的GMM，前面提到的分布均为指数族分布，并能调整后化出该形式。因此只要讨论一般性质即可。

求期望

对一般形式的积分式关于 $\mu$ 求导与带入，即可得

- \nabla l n g (η) = E [u (x)]

$−\nabla ln~g(η) = E[u(x)]$ u(x) 的协方差可以根据g(η)的二阶导数表达，对于高阶矩的情形也类似。

充分统计量

对一般形式求最大似然下的参数

- \nabla l n g (η M L) = 1 N \sum u (x n)

$−\nabla ln~g(η _{M L} ) ={1\over N}∑u(x_n )$ 因此充分统计量只与

∑u(xn) $∑u(x_n )$ 相关，具体的会有

u(x)=x或(x,x2)T $u(x)=x或(x,x^2)^T$ ，在观测中只需取数据集中的这些量。

共轭先验

一般情况下，对于一个给定的概率分布p(x|μ)，我们能够寻找一个先验p(η)使其与似然函数共轭，从而后验分布的函数形式与先验分布相同，因此使得贝叶斯分析得到了极大的简化。

例如，多项式分布的参数的共轭先验被叫做狄利克雷分布(Dirichlet distribution)，而高斯分布的均值的共轭先验是另一个高斯分布。所有这些分布都是指数族( exponential family )分布的特例。

非参数方法

并不能预测一个模型是符合何种分布时，就不能套用上面的参数方法了。这时候更需要一般化的方法。

直方图

将D维空间中的每一维都均分M份，每当有数据被观测到，对应的小体元数值就加一。最后通过归一化操作得到概率分布。

缺点：M不能太大，容易造成维度灾难，或者过拟合。M也不能太小，否则块太大，边界粗糙，难以光滑拟合。

核方法

假设 D 维空间的某个未知的概率密度分布p(x)，包含x的某个小区域R的概率质量为P，有N次观测，落在该区域内K次，区域体积为V，则

P = p (x) V = K N \Rightarrow p (x) = K N V

$P=p(x)V={K\over N}\Rightarrow p(x)={K\over NV}$ 区域 R 要足够小，使得这个区域内的概率密度近似为常数，表达式才成立，但小了噪声和抖动大；但是R也要足够大，使得落在这个区域内的数据点的数量 K 能够足够让二项分布达到尖峰，但可能平滑后丧失了部分有特征的值。

核方法是令V固定，计算被划入该区域的点数个数。用来判定x是否落入该区域的函数即为核函数，记为k(x)，例如Parzen窗中认为x在 $u$ 为中心的超立方体内时，k(x)=1,否则为0.为了使得边界光滑，可以让k(x)具有中心高边缘低的高斯核函数，则有

p (x) = 1 N \sum n = 1 N 1 ( 2 π h 2 ) D 2 e x p {- | | x - x n | | 2 2 σ 2}

$p(x)={1\over N}\sum_{n=1}^N{1\over (2\pi h^2)^{D\over 2}}exp\{-{||x-x_n||^2\over 2\sigma^2}\}$ 其中h为超立方体的高，

V=hD $V=h^D$ ，控制h的大小即是区域R的大小，适中最好。

获得观测数据后不需计算，只需要投进小体元中存储即可。

近邻方法

近邻方法是对p(x)表达式中的K固定，再计算投到的V有多大。即先确认一点为中心的球体内要有K个点，逐步扩大球体体积直到刚好包括了K个点，此时即为目标V。

在分类问题中用到的K-means算法常根据最近的K个点中同类数量最多的作为该点的类别，即最大后验类别。

从课后留的作业来看，这章的重点内容是：

能够推算出变量线性变换后的高斯分布的参数
数学知识：舒尔补、Woodbury等式、拼接的矩阵的逆
指数族、充分统计量、无信息先验的概念

统计量实际上是一种对数据分布的压缩，在样本加工为统计量的过程中，样本中所含的信息可能有所损失，若在将样本加工为统计量时，信息毫无损失，则称此统计量为充分统计量。比如，在正态分布中, 我们可以用两个充分统计量样本均值和样本方差描述整个数据分布。来源：百度百科 ↩
$\Gamma$ 函数的相关积分可以自己做题熟练一下 ↩
尽管协方差矩阵很简单，可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵，这个矩阵能使数据完全去相关(decorrelation)。从不同的角度来看，也就是说能够找出一组最佳的基以紧凑的方式来表达数据。(完整的证明请参考瑞利商)。这个方法在统计学中被称为主成分分析(principal components analysis)，在图像处理中称为Karhunen-Loève 变换(KL-变换)。来源：百度百科
来源：cnblogs ↩