第九章 EM算法

1. EM算法与K-means算法的联系

k-means算法是一类无监督的聚类算法，目的是将没有标签的数据分成若干个类，每一个类都是由相似的数据组成。这个类的个数一般是认为给定的。

k-means原理

假设给定一个数据集 $X=\{x_1,x_2,...,x_N\}$ 和类的个数 $k$ 。我们的我们的每个类都用一个中心点 $μ_k$ 表示。每个数据集都应该被归为某一个类，那么我们定义 $r_{nk}$ :如果 $x_n$ 属于类 $k$ ,则 $r_{nk}=1$ ；如果 ${x_n}$ 不属于类 $k$ ，则 $r_{nk}=0$ 。那么我们就可以定义一个误差函数 $J$ ：

J = \sum_{n} \sum_{k} r_{n k} | | x_{n} - μ_{k} | |^{2}

$J=\sum_{n}\sum_kr_{nk}||x_n-μ_k||^2$
误差函数直观理解为每个数据点离自己类的中心点的距离之和。那么我们的目标就是

min J

${\min J}$ 。我们发现，

J

$J$ 中

r_{n k}

$r_{nk}$ 和

μ_{k}

$μ_k$ 都是未知的，直接求导的话没有闭式解。所以我们需要换一个方法，这就是所谓的k-keans算法。
k-means算法分为两步。第一步，假设各个类的中心

μ_{k}

$μ_k$ 已知，那么所有

r_{n k}

$r_{nk}$ 都可以求出，计算方法采取最近邻原则，即

r_{n k} = 1 i f k = a r g min_{j} | | x_{n} - μ_{j} | |^{2}

$r_{nk}=1 \quad if k=arg \min_j||x_n-μ_j||^2$

r_{n k} = 0 o t h e r w i s e

$r_{nk}=0 \quad otherwise$
第二步，假设所有

r_{n k}

$r_{nk}$ 都已知，将

J

$J$ 对

μ_{k}

$μ_k$ 求导等于0，那么：

\frac{\partial J}{\partial μ_{k}} = 2 \sum_{n} r_{n k} (x_{n} - μ_{k}) = 0

$\frac{\partial J}{\partial μ_k}=2\sum_{n}r_{nk}(x_n-μ_k)=0$
那么很容易得到

μ_{k}

$μ_k$ 的闭式解：

μ_{k} = \frac{\sum_{n} r_{n k} x_{n}}{\sum_{n} r_{n k}}

$μ_k =\frac{\sum_nr_{nk}x_n}{\sum_nr_{nk}}$ k-means有更通俗的解释，第一步其实是给每个数据点都分类，分类方法采取最近邻原则；第二步是根据分类的结果，将中心点重新计算，计算方式为类中所有点的中心点。

EM算法的关系

k-means是最简单的EM算法。EM算法全称为Expectation-Maximization algorithm。其也是分为两步，第一步叫Expectation，第二步叫Maximization。
EM算法取名是有其意义的，比如第一步Expectation，顾名思义就是计算期望。那么在k-means算法中，第一步计算 $r_{nk}$ 其实是计算Expectation的一步。 $r_{nk}$ 可以看做是 $x_n$ 属于各个类的概率，只不过它们取值只有0和1，但也符合概率的定义。那么 $x_n$ 的误差期望就是 $\sum_kr_{nk}||x_n-μ_k||^2$ .那么所有点的误差期望之和为：

\sum_{n} \sum_{k} r_{n k} | | x_{n} - μ_{k} | |^{2}

$\sum_n\sum_kr_{nk}||x_n-μ_k||^2$ .
我们可以发现，这其实就是k-means算法中的J。
EM算法第二步就是对求得的期望求最值。那么在k-means算法中，第二步对

J

$J$ 求导等于零其实就是在求最值，这也正好对应EM算法的第二步。所以我们可以看到，其实k-means就是EM算法的一种。

2. EM算法及推导

EM算法用来解决当概率模型含有隐变量或潜在变量的情况。EM算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法。
算法2.1（EM算法）
输入：观测变量数据 $Y$ ，隐变量数据 $Z$ ，联合分布 $P(Y,Z|\theta)$ ，条件分布 $P(Z|Y,\theta)$ ;
输出：模型参数 $\theta$ .
(1)选择参数的初值 $\theta^{(0)}$ ，开始迭代；
(2)E步：记 $\theta^{(i)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $i+1$ 次迭代的E步，计算

Q (θ, θ^{(i)}) = E_{Z} [l o g P (Y, Z | θ) | y, θ^{(i)}]

$Q(\theta,\theta^{(i)})=E_Z[logP(Y,Z|\theta)|y,\theta^{(i)}]$

= \sum_{Z} l o g P (Y, Z | θ) P (Z | Y, θ^{(i)})

$=\sum_ZlogP(Y,Z|\theta)P(Z|Y,\theta^{(i)})$ 这里，

P (Z | Y, θ^{(i)})

$P(Z|Y,\theta^{(i)})$ 是在给定观测数据

Y

$Y$ 和当前的参数估计

θ^{(i)}

$\theta^{(i)}$ 下隐变量数据

Z

$Z$ 的条件概率分布：
(3)M步：求使

Q (θ, θ^{(i)})

$Q(\theta,\theta^{(i)})$ 极大化的

θ

$\theta$ ，确定第

i + 1

$i+1$ 次迭代的参数的估计值

θ^{(i + 1)}

$\theta^{(i+1)}$

\begin{matrix} (1) & θ^{(i + 1)} = a r g max_{θ} Q (θ, θ^{(i)}) \end{matrix}

$\theta^{(i+1)}=arg\max_\theta Q(\theta,\theta^{(i)}) \tag{1}$
(4)重复第(2)步和第（3）步，直到收敛。

算法推导

当面对一个含有隐变量的概率模型，目标是极大化观测数据（不完全数据）Y关于参数 $\theta$ 的对数似然函数，即极大化

L (θ) = l o g P (Y | θ) = l o g \sum_{Z} P (Y, Z | θ)

$L(\theta)=logP(Y|\theta)=log\sum_ZP(Y,Z|\theta)$

\begin{matrix} (2) & = l o g (\sum_{Z} P (Y | Z, θ) P (Z | θ)) \end{matrix}

$=log \left(\sum_ZP(Y|Z,\theta)P(Z|\theta)\right) \tag{2}$ 注意到这一极大化的主要困难是式(1)中有未观测数据并有包含和（或积分）的对数。
事实上，EM算法是通过迭代逐步近似极大化

L (θ)

$L(\theta)$ .假设在第

i

$i$ 次迭代后

θ

$\theta$ 的估计值是

θ^{(i)}

$\theta^{(i)}$ .我们希望新估计值

θ

$\theta$ 能使

L (θ)

$L(\theta)$ 增加，即

L (θ) > L (θ^{(i)})

$L(\theta)>L(\theta^{(i)})$ ,并逐步达到极大值。为此考虑两者的差：

L (θ) - L (θ^{(i)}) = l o g (\sum_{Z} P (Y | Z, θ) P (Z | θ)) - l o g P (Y | θ^{(i)})

$L(\theta)-L(\theta^{(i)})=log \left(\sum_ZP(Y|Z,\theta)P(Z|\theta)\right)-logP(Y|\theta^{(i)})$ 利用Jensen不等式得到其下界：

L (θ) - L (θ^{(i)}) = l o g (\sum_{Z} P (Y | Z, θ^{(i)}) \frac{P (Y | Z, θ) P (Z | θ)}{P (Y | Z, θ^{(i)})}) - l o g P (Y | θ^{(i)})

$L(\theta)-L(\theta^{(i)})=log \left(\sum_ZP(Y|Z,\theta^{(i)})\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Y|Z,\theta^{(i)})}\right)-logP(Y|\theta^{(i)})$

\geq \sum_{Z} P (Z | Y, θ^{(i)}) l o g \frac{P (Y | Z, θ) P (Z | θ)}{P (Z | Y, θ^{(i)})} - l o g P (Y | θ^{(i)})

$\ge \sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})}-logP(Y|\theta^{(i)})$

= \sum_{Z} P (Z | Y, θ^{(i)}) l o g \frac{P (Y | Z, θ) P (Z | θ)}{P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})}

$=\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}$
令

\begin{matrix} (3) & B (θ, θ^{(i)}) \hat{=} L (θ^{(i)}) + \sum_{Z} P (Z | Y, θ^{(i)}) l o g \frac{P (Y | Z, θ) P (Z | θ)}{P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})} \end{matrix}

$B(\theta,\theta^{(i)}) \hat{=}L(\theta^{(i)})+\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})} \tag{3}$
则

\begin{matrix} (4) & L (θ) \geq B (θ, θ^{(i)}) \end{matrix}

$L(\theta) \ge B(\theta,\theta^{(i)}) \tag{4}$
即函数

B (θ, θ^{(i)})

$B(\theta,\theta^{(i)})$ 是

L (θ)

$L(\theta)$ 的一个下界，而且由式（3）可知，

\begin{matrix} (5) & L (θ)^{(i)} = B (θ^{(i)}, θ^{(i)}) \end{matrix}

$L(\theta)^{(i)} = B(\theta^{(i)},\theta^{(i)}) \tag{5}$ 因此，任何可以使

B (θ, θ^{(i)})

$B(\theta,\theta^{(i)})$ 增大的

θ

$\theta$ ，也可以使

L (θ)

$L(\theta)$ 增大。为了使

L (θ)

$L(\theta)$ 有尽可能大的增长，选择

θ^{(i + 1)})

$\theta^{(i+1)})$ 使

B (θ, θ^{(i)})

$B(\theta,\theta^{(i)})$ 达到极大，即

\begin{matrix} (6) & θ^{(i + 1)}) = a r g max_{θ} B (θ, θ^{(i)}) \end{matrix}

$\theta^{(i+1)})=arg\max_{\theta}B(\theta,\theta^{(i)}) \tag{6}$ 现在求

θ^{(i + 1)})

$\theta^{(i+1)})$ 的表达式。省去对

θ

$\theta$ 的极大化而言是常数的项。由式（1），（3），（6）有

θ^{(i + 1)} = a r g max_{θ} (L (θ^{(i)}) + \sum_{Z} P (Z | Y, θ^{(i)}) l o g \frac{P (Y | Z, θ) P (Z | θ)}{P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})})

$\theta^{(i+1)}=arg\max_{\theta}\left(L(\theta^{(i)})+\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}\right)$

= a r g max_{θ} (\sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Y | Z, θ) P (Z | θ))

$=arg\max_{\theta}\left(\sum_ZP(Z|Y,\theta^{(i)})log{P(Y|Z,\theta)P(Z|\theta)}\right)$

= a r g max_{θ} (\sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Y, Z | θ))

$=arg\max_{\theta}\left(\sum_ZP(Z|Y,\theta^{(i)})log{P(Y,Z|\theta)}\right)$

\begin{matrix} (7) & = a r g max_{θ} Q (θ, θ^{(i)}) \end{matrix}

$=arg\max_{\theta}Q(\theta,\theta^{(i)}) \tag{7}$ 式（7）等价于EM算法的一次迭代，即求Q函数及其极大化。EM算法是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。

3. EM算法的收敛性

定理3.1 设 $P(Y|\theta)$ 为观测数据的似然函数， $\theta^{(i)}(i=1,2,...)$ 为EM算法得到的参数估计序列， $P(Y|\theta^{(i)})(i=1,2,...)$ 为对应的似然函数序列，则 $P(Y|\theta^{(i)})$ 是单调递增的，即 $P(Y|\theta^{(i+1)}) \ge P(Y|\theta^{(i)}) \tag{8}$
定理3.2 设 $L(\theta)=logP(Y|\theta)$ 为观测数据的对数似然函数， $\theta^{(i)}(i=1,2,...)$ 为EM算法得到的参数估计序列， $L(\theta^{(i)})(i=1,2,...)$ 为对应的似然函数序列.
(1)如果 $P(Y|\theta)$ 有上界，则 $L(\theta^{(i)})=logP(Y|\theta^{(i)})$ 收敛到某一值 $L^*$ ;
(2)在函数 $Q(\theta,\theta^\prime)$ 与 $L(\theta)$ 满足一定条件下，由EM算法得到的参数估计序列 $\theta^{(i)}$ 的收敛值 $\theta^*$ 是 $L(\theta)$ 的稳定点。