CS229与《统计学习方法》的EM算法理解和比较，收敛性证明

关于吴恩达老师的cs229讲义和视频与《统计学习方法》这本书上的EM算法，作为初学者，强烈建议只看前者，恐怕是我比较菜只看后者的话会有很多地方不明白，比如为什么似然函数不是 $\prod\limits_{i=1}^{n}P(y_i;\theta)$ 而是 $P(Y)$ 呢？导致后面的收敛性证明也有这样的疑问，为什么后面EM应用高斯那部分的E步的Q函数成了那样？想破了脑子也想不清楚。如果看cs229的话，很容易理解，但是推导我更喜欢后者的推导，关于推导我补充了我认为缺少的那部分，参考EM算法推导。接下来对两者的EM算法进行简单比较。

说明：下面的 $p_\theta()和p(;\theta)$ 是一样的，只是写法不同，都只是表示模型参数是 $\theta$ 而已。

1、EM算法比较

1.1、《统计学习方法》之EM算法流程

输入：观测数据 $Y$ ，联合分布 $P(Y,Z;\theta)$ ，条件分布 $P(Z|Y;\theta)$
输出：模型参数 $\theta$

（1）、选择参数的初始值 $\theta_0$ 开始进行迭代；
（2）、E（Expection）步：记第n次迭代参数为 $\theta_n$ ，那么计算 $n+1$ 次的E步

$Q(\theta|\theta_n)=\sum\limits_{i=1}^{n} \sum\limits_{z}p_{\theta_n}(z|y_i)ln^{p_\theta(y_i,z)}$

（3）、M（Maximization）步：求使得 $Q(\theta|\theta_n)$ 最大化的 $\theta_{n+1}$ ，即确定第 $n+1$ 次的模型参数

$\theta_{n+1}=\arg\max\limits_{\theta}Q(\theta|\theta_n)$

（4）、重复（2），（3）直到收敛。

注意：上面这个EM算法是本人对原有的EM算法的 $Q$ 函数进行了修改的，加了最外层的 $\sum\limits_{i=1}^{n}$ ，同时这个Q函数就跟cs229讲义上的Q函数一样了。 E步是写出 $Q$ 函数，在后面的高斯混合模型中可以看到，使用该EM算法是先求出Q函数，也就是先求出联合分布 $p(y,z)$ ，接着写出似然函数最后求期望得到Q函数，在M步求使得函数极大化的 $\theta_{n+1}$ 值作为下一次E步的 $\theta$ 值使用，如此循环下去直到收敛。

补充：书上的似然函数是下面这样的

$Q(\theta,\theta^i)=E_{Z}[logP(Y,Z|\theta)|Y,\theta^i]\\=\sum\limits_{Z}logP(Y,Z|\theta)P(Z|Y,\theta^i)$

1.2、CS229之EM算法流程

在这里插入图片描述

注意：这里的 $x$ 和上面的 $y$ 都是只观察数据（显变量）， $z$ 表示隐变量。在E步骤是初始给定了 $\theta_0$ 作为初始参数值的，在上面没写出来。可以发现这个 $Q_i(z^{(i)})$ 跟前面的EM算法的 $p_{\theta_{n}}(z|y_i)$ 是一样的，在M步也是求极大化。但是该算法在E不是对于每个i求后验概率，然后在M步直接带入所求得的后验概率来求极大化时的参数 $\theta_{n+1}$ 。

补充：由于在M步中已经知道了 $Q_i(z^{(i)})$ ，也就是说 $Q_i(z^{(i)})$ 是常量，那么在求极大化时候我们求导会略掉，所以M步的公式可以写成 $\theta:=arg\max\sum\limits_{i}\sum\limits_{z^{(i)}}Q_i(z^{(i)})logp(x^{(i)},z^{(i)};\theta)$ ，而 $Q_i(z^{(i)})=p_{\theta_{n}}(z|y_i)$ ，所以可以写成 $Q(\theta|\theta_n)=\sum\limits_{i=1}^{n} \sum\limits_{z}p_{\theta_n}(z|y_i)ln^{p_\theta(y_i,z)}$ 。

到这里我想已经说清楚了两者的区别以及建议如果和我一样是初学者的话关于EM算法建议学cs229。最终我们的EM算法可以写成如下形式。

（1）、选择参数的初始值 $\theta_0$ 开始进行迭代；
（2）、E（Expection）步：记第n次迭代参数为 $\theta_n$ ，那么计算 $n+1$ 次的E步，针对每个i计算条件概率

$p_{\theta_{n}}(z|y_i)$

（3）、M（Maximization）步：求使得 $Q(\theta|\theta_n)$ 最大化的 $\theta_{n+1}$ ，即确定第 $n+1$ 次的模型参数

$Q(\theta|\theta_n)=\sum\limits_{i=1}^{n} \sum\limits_{z}p_{\theta_n}(z|y_i)ln^{p_\theta(y_i,z)}$
$\theta_{n+1}=\arg\max\limits_{\theta}Q(\theta|\theta_n)$
（4）、重复（2），（3）直到收敛。

2、EM算法收敛性证明

假设我们使用EM算法得到了一系列的 $\theta_1,\theta_2,...,\theta_n...$ ，那么得到的似然函数值是否逐渐在增大呢？即证明 $l(\theta_{j+1})>l(\theta_j)$

$l(\theta)=\sum\limits_{i=1}^{n}logp(y_i;\theta)\\=\sum\limits_{i=1}^{n}log\frac{p(y_i,z;\theta)}{p(z|y_i;\theta)}\\=\sum\limits_{i=1}^{n}logp(y_i,z;\theta)-\sum\limits_{i=1}^{n}p(z|y_i;\theta)$

因为 $\sum\limits_{z}p(z|y_i;\theta_j)=1$ ，我们将他乘到上式中去，得到

$l(\theta)=\sum\limits_{i=1}^{n}logp(y_i;\theta)\\=\sum\limits_{i=1}^{n}\sum\limits_{z}p(z|y_i;\theta_j)logp(y_i,z;\theta)-\sum\limits_{i=1}^{n}\sum\limits_{z}p(z|y_i;\theta_j)logp(z|y_i;\theta)$

注意到第一项就是 $Q(\theta|\theta_j)$ ，将后一项记为 $H(\theta|\theta_j)$

$l(\theta_{j+1})-l(\theta_j)=[Q(\theta_{j+1}|\theta_j)-Q(\theta_{j}|\theta_j)]-[H(\theta_{j+1}|\theta_j)-H(\theta_j|\theta_j)]$

对于前一项，由于 $\theta_{j+1}=\arg\max\limits_{\theta}Q(\theta|\theta_j)$ ，所以 $Q(\theta_{j+1}|\theta_j)-Q(\theta_{j}|\theta_j)>=0$

对于后一项：

$H(\theta_{j+1}|\theta_j)-H(\theta_j|\theta_j)\\=\sum\limits_{i=1}^{n}\sum\limits_{z}p(z|y_i;\theta_j)log\frac{p(z|y_i;\theta_{j+1})}{p(z|y_i;\theta_j)}\\<=\sum\limits_{i=1}^{n}log\sum\limits_{z}p(z|y_i;\theta_j)\frac{p(z|y_i;\theta_{j+1})}{p(z|y_i;\theta_j)}\\=\sum\limits_{i=1}^{n}log\sum\limits_{z}p(z|y_i;\theta_{j+1})\\=\sum\limits_{i=1}^{n}log1=0$

所以得到 $l(\theta_{j+1})-l(\theta_j)>=0$ ，说明似然函数递增，而 $l(\theta)<=1$ ，所以如果似然函数有上界那么必然会收敛到某一个值。