版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qilixuening/article/details/72803711
13.1 试推导出式(13.5)~(13.8)
式13.5
首先,高斯混合模型的公式如下:
pM(x)∑i=1kαi=∑i=1kαi⋅p(x∣μi,Σi),=1(1)(2)
则根据贝叶斯定理,未标记样本
xj
属于各高斯混合成分
Θi
的概率为:
γji=p(Θ=i∣xj)=p(Θ=i)⋅p(xj∣Θ=i)pM(xj)=αi⋅p(xj∣μi,Σi)∑i=1kαi⋅p(xj∣μi,Σi),(3)
则式
(13.5)
得证。
式13.6~13.7
根据书上公式
(13.4)
:
LL(Dl∪Du)=∑(xj,yj)∈Dlln(∑i=1kαi⋅p(xj∣μi,Σi)⋅p(yj∣Θ=i,xj))+∑xj∈Duln(∑i=1kαi⋅p(xj∣μi,Σi))(4)
由于假定每一个类别对应一个高斯混合成分,则
p(yj∣Θ=i,xj)=1
当且仅当
yj=i
,否则
p(yj∣Θ=i,xj)=0
,则上式
(4)
可以化简为:
LL(Dl∪Du)=∑(xj,yj)∈Dl∧yj=ilnαi⋅p(xj∣μi,Σi)+∑xj∈Duln(∑i=1kαi⋅p(xj∣μi,Σi))(5)
接下来回顾一下高斯分布的表达式:
p(x∣μi,Σi)=1(2π)n2|Σi|12exp{−12(x−μi)⊤Σ−1i(x−μi)}(6)
其对参数的偏导为:
∂p(x∣μi,Σi)∂μi∂p(x∣μi,Σi)∂Σi=p(x∣μi,Σi)⋅Σ−1i⋅(μi−x)=p(x∣μi,Σi)⋅Σ−2i⋅((x−μi)(x−μi)⊤−Σi)(7)(8)
以
(5)
对
αi
求偏导,将
(3),(7)
带入得:
∂LL(Dl∪Du)∂μi=∑(xj,yj)∈Dl∧yj=iαi⋅p(xj∣μi,Σi)αi⋅p(xj∣μi,Σi)⋅Σ−1i⋅(μi−xj)+∑xj∈Duαi⋅p(xj∣μi,Σi)∑i=1kαi⋅p(xj∣μi,Σi)⋅Σ−1i⋅(μi−xj)=Σ−1⎛⎝∑(xj,yj)∈Dl∧yj=i(μi−xj)+∑xj∈Duγji(μi−xj)⎞⎠(9)
令
(9)=0
可解得:
μi=1∑i=1kγji+li⎛⎝∑(xj,yj)∈Dl∧yj=ixj+∑xj∈Duγjixj⎞⎠(10)
则
(13.6)
得证。
同样地,以
(5)
对
Σi
求偏导,将
(3),(8)
带入得:
∂LL(Dl∪Du)∂Σi=∑(xj,yj)∈Dl∧yj=iαi⋅p(xj∣μi,Σi)αi⋅p(xj∣μi,Σi)⋅Σ−2i⋅((x−μi)(x−μi)⊤−Σi)+∑xj∈Duαi⋅p(xj∣μi,Σi)∑i=1kαi⋅p(xj∣μi,Σi)⋅Σ−2i⋅((x−μi)(x−μi)⊤−Σi)=Σ−2⎛⎝∑(xj,yj)∈Dl∧yj=i((x−μi)(x−μi)⊤−Σi)+∑xj∈Duγji((x−μi)(x−μi)⊤−Σi)⎞⎠(11)
令
(11)=0
可解得:
Σi=1∑i=1kγji+li⎛⎝∑(xj,yj)∈Dl∧yj=i(x−μi)(x−μi)⊤+∑xj∈Duγji(x−μi)(x−μi)⊤⎞⎠(12)
则
13.7
得证。
式13.8
对于混合系数
αi
,除了要最大化
LL(Dl∪Du)
,还应满足隐含条件:
αi≥0,∑Ni=1αi=1
,因此考虑对
LL(Dl∪Du)
使用拉格朗日乘子法,变为优化
LL(Dl∪Du)+λ(∑i=1Nαi−1)(13)
将
(5)
带入
(13)
,并令
(13)
对
αi
的导数为0,得到:
0=∑(xj,yj)∈Dl∧yj=ip(xj∣μi,Σi)αi⋅p(xj∣μi,Σi)+∑xj∈Dup(xj∣μi,Σi)∑i=1kαi⋅p(xj∣μi,Σi)+λ(14)
对
(14)
两边同乘
αi
得:
0=∑(xj,yj)∈Dl∧yj=i1+∑xj∈Duγji+αiλ(15)
令
(15)
对所有混合高斯成分求和:
0=∑i=1k∑(xj,yj)∈Dl∧yj=i1+∑i=1k∑xj∈Duγji+∑i=1kαiλ=l+u+λ(16)
解得
λ=−m
,将其带入
(15)
可得:
αi=1m⎛⎝∑xj∈Duγji+li⎞⎠(17)
则
(13.8)
得证。