EM(expectation Maximization)期望最大是一种迭代算法,是一种对包含隐变量的概率模型参数估计的极大似然估计法。第一步期望(E):利用当前参数计算对数似然的期望;第二步最大化(M)步,寻找使E步产生的对数似然期望最大化的参数值。迭代使用EM步直到收敛。
提纲挈领:隐变量,极大似然估计
假设训练数据集{x^1,x^2.....x^m}包含m个独立样本,无样本标签,我们希望得到模型p(y|x)。开始下面工作:
1.似然函数
对于每个样本i,设Qi关于zj的分布,Qi(zj)
最后一步采用Jensen不等式,log函数为上凸函数,f(E(x))>=E(f(x)),等式成立条件为f(x)=C,即
归一化得到:
Qi是一个后验概率,由xi和参数可以得到。M步:计算公式1的最大似然函数,得到参数的估计。
由上可得出EM算法:
repeat until convergence{
E-step:for each i,set
M_step set
}
在推导高斯混合聚类算法时,在向量求导处卡顿半边,现将详细的推导过程写出。
对n维样本空间X中随机变量x,若x服从高斯分布,其概率密度函数为:
其中u是n维均值向量, 是n*n的协方差矩阵。为了明确显示高斯分布与相应参数的依赖关系,将概率密度函数记为
高斯混合分布
该分布由k个混合分布组成,每个混合成分对应一个高斯分布,其中 与 分别为第i个高斯混合成分的参数,为相应的混合系数,且。
令随机变量表示生成样本xj,其值未知。显然zj的先验概率
换言之,是给出样本xj由第j个高斯混合成分生成的后验概率,记为。
当高斯混合分布已知,高斯混合聚类将样本划分为k个簇,每个样本xj的簇标记
对于给定样本集D,采用对数极大似然估计法:
若参数 使对数极大似然最大化,则对其求导。
\frac{\partial p(x|u_{i},\Sigma_{i})}{\partial u_{i}}