EM算法详解（内含详细推导） - 代码天地

EM算法详解（内含详细推导）

其他 2020-03-07 15:46:46 阅读次数: 0

前言

对于隐变量模型，我们不仅有可观测值 $x$ ,还有隐含状态： $z$ ，而我们的目的就是最大化 $P(x,z|\theta)$ ， $\theta$ 表示模型的参数。如果 $z$ 是已知的那么我们可以采用传统MLE的计算方式确认目标函数，采用梯度下降法优化参数：

$argmax\quad \log P(x,z|\theta)=\log P(z|\theta)+\log P(x|z,\theta)$

但是如果 $z$ 是未知的，那么只有 $x$ 是可观测的那么我们的公式：

$argmax\quad \log P(x,z|\theta)=\sum_z\log P(z|\theta)\cdot P(x|z,\theta)$

这个时候我们再采用MLE是不好计算的，因为我们多了一个未知参数 $z$ 。这个时候我们就用到了另一种优化算法叫做EM算法

EM算法

$\theta$ :模型参数

$z$ :隐含状态

$x$ :可观测值

$l(\theta)=lnp(x|\theta)$ 目标函数

$l(\theta_n)=lnp(x|\theta_n)$ 前n次计算的结果

换个思路：我们最大化 $argmax\quad l(\theta)$ 相当于最大化 $argmax\quad l(\theta)-l(\theta_n)$ 也就是这一次的结果要比前 $n$ 次越大越好根据这个思路我们来推导一下：

$argmax\quad l(\theta)-l(\theta_n)=\ln p(x|\theta)-\ln p(x|\theta_n)=\ln \sum_zP(x,z|\theta)-\ln p(x|\theta_n)$

$=\ln \sum_zP(x|z,\theta)\cdot P(z|\theta)-\ln p(x|\theta_n)=\ln \sum_zP(x|z,\theta)\cdot P(z|\theta)\cdot\dfrac {P(z|x,\theta_n)}{P(z|x,\theta_n)}-\ln p(x|\theta_n)$

上一步的目的主要是利用Jensen不等式将 $\ln$ 从 $\sum$ 外移入 $\sum$ 内

Jensen不等式:

$\ln\sum_{i=1}^n \lambda_iX_i\geq\sum_{i=1}^n \lambda_i\ln X_i$

条件: $\sum_{i=1}^n \lambda_i=1$

根据jensen不等式的原理我们来继续上面的推导：

$\ln \sum_zP(x|z,\theta)\cdot P(z|\theta)\cdot\dfrac {P(z|x,\theta_n)}{P(z|x,\theta_n)}-\ln p(x|\theta_n)\geq\sum_zP(z|x,\theta_n)\cdot \ln \dfrac {P(z|\theta)\cdot P(x|z,\theta)}{P(z|x,\theta_n)}-\ln p(x|\theta_n)$

$=\sum_zP(z|x,\theta_n)\cdot \ln \dfrac {P(z|\theta)\cdot P(x|z,\theta)}{P(z|x,\theta_n)p(x|\theta_n)}=g(\theta,\theta_n)$

因此: $\quad l(\theta)-l(\theta_n)\geq g(\theta,\theta_n)$ ，也就是 $l(\theta)\geq l(\theta_n)+ g(\theta,\theta_n)$

因为 $l(\theta_n)+ g(\theta,\theta_n)$ 是 $l(\theta)$ 的下限,因此我们最大化 $l(\theta_n)+ g(\theta,\theta_n)$ 也就相当于最大化 $l(\theta)$

所以下面继续推导 $l(\theta_n)+ g(\theta,\theta_n)$

$argmax[l(\theta_n)+g(\theta,\theta_n)]=argmax \quad l(\theta_n)+\sum_zP(z|x,\theta_n)\cdot \ln \dfrac {P(z|\theta)\cdot P(x|z,\theta)}{P(z|x,\theta_n)p(x|\theta_n)}$

因为我们优化的是 $\theta$ ，并且我们的目的是最大化，所以我们可以去掉与 $\theta$ 无关的项，因此在公式中去掉 $l(\theta_n)$ , $P(z|x,\theta_n)$ 和 $p(x|\theta_n)$ ：

$=argmax\quad\sum_zP(z|x,\theta_n)\cdot \ln {P(z|\theta)\cdot P(z|x,\theta)}=argmax\quad\sum_zP(z|x,\theta_n)\cdot \ln {P(z|\theta)\cdot P(x|z,\theta)}$

$=argmax\quad\sum_zP(z|x,\theta_n)\cdot \ln P(x,z|\theta)=argmax\quad E_{z|x,\theta_n}\{ \ln P(x,z|\theta)\}$

也就是说我们最大化 $l(\theta)$ 等价于最大化 $E_{z|x,\theta_n}\{ \ln P(x,z|\theta)\}$ 这就是EM算法

根据公式我们可以看出EM算法的计算流程：
第一步：
根据 $\theta_n$ 求期望得出隐含变量 $z$

第二步：
再根据隐含变量 $z$ 求出 $\theta$

我们把第一步叫做 $E$ （求期望）第二步叫做 $M$ (最大化)

EM算法特点：

1、找到的是局部最优解

2、严格递增的函数

经过我们的推导就可以看出来，它目的每次迭代就找到比上一次结果更加优秀的解。

k-means算法

k-means是利用了EM算法的思想。

x：表示数据集

$u_k$ ：表示中心点（参数）

$r_{nk}$ ：每个点的状态（属于哪个类）

$r_{nk}$ 概念， $x_{n}$ 属于k类为1，不属于k类为0

目标函数：

$minmize\sum_{n=1}^N\sum_{k=1}^Kr_{nk}||x_n-u_k||^2$

E步，给定上一次计算的 $u_{k-1}$ 计算 $r_{nk}$ :

minmize $\sum_{k=1}^Kr_{nk}||x_n-u_{k-1}||^2$ 找到与词距离最近的 $u_k$ 并记录到 $r_{nk}$

M步：记录完 $r_{nk}$ 后更新 $u_k$

其实就是用到了EM的思想

发布了18 篇原创文章 · 获赞 8 · 访问量 996

私信关注

猜你喜欢

转载自blog.csdn.net/li15006474642/article/details/104456696

EM算法详解（内含详细推导）

EM算法详细推导

HMM算法详解（内含推导）

EM算法Q函数推导过程详解

EM算法推导

EM算法公式推导

EM算法讲解及推导

EM算法推导笔记

EM算法简易推导

EM算法-完整推导

【机器学习】EM算法详细推导和讲解

期望最大（EM）算法推导

ALearning(三)：EM算法推导

EM算法定义及推导

EM算法以及推导过程

【ML1】机器学习之EM算法（含算法详细推导过程）

CRF(条件随机场)详解（内含推导）

EM算法及高斯混合模型算法推导

EM算法详解

EM算法-原理详解

EM 算法未知分布 Qi 的推导过程

EM(Expectation Maximization) 算法推导（二）

EM(Expectation Maximization) 算法推导（一）

EM算法原理解释及公式推导

pLSA参数估计的EM算法推导

EM算法推导--三硬币模型推导过程

Word2vec详细解释（内含推导）

EM算法及算例详解

机器学习：EM算法详解

【机器学习】EM算法详解

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)