版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qilixuening/article/details/72829117
13.3 假设数据由混合专家(mixture of experts
)模型生成,即数据是基于
k
个成分混合而得的概率密度生成:
p(x∣θ)=∑i=1kαip(x∣θi)(13.22)
其中,
θ={θ1,θ2,…,θk}
是模型参数,
p(x∣θi)
是第
i
个混合成分的概率密度,混合系数
αi≥0,∑ki=1αi=1
。假设每个混合成分对应一个类别,但每个类别可能包含多个混合成分。试推导相应的生成式半监督学习算法。
首先,我们假定:
- 数据
X
包含
M=l+u
个样本:
X={xj},j=1,…,M
- 所有样本中共有
|C|
个类别:
cj
表示样本的类别,
cj∈C
- 混合模型含有
N
个混合成分,
{mj=i},i=1,…,N
表示样本
xj
可能的混合成分,
θi
表示对应混合成分的模型参数,则相应模型可以表示为
f(xj∣θi)=p(xj∣mj=i,θi)=p(xj∣θi)
则与书上公式
(13.4)
类似,在此处:
LL(Dl∪Du)=∑(xi,cj)∈Dllnp(xj,cj∣θ)+∑xi∈Dulnp(xj∣θ)=∑(xi,cj)∈Dlln∑i=1Nαip(cj∣xj,mj=i,θi)p(xj∣mj=i,θi)+∑xi∈Duln∑i=1Nαip(xj∣mj=i,θi)=∑(xi,cj)∈Dlln∑i=1Nαip(cj∣xj,mj=i,θi)f(xj∣θi)+∑xi∈Duln∑i=1Nαif(xj∣θi)(1)
接下来介绍一下题目中所说的
每个类别可包含多个混合成分的混合模型的具体表示。
首先,我们知道:
p(mj=i∣xj)=αi⋅p(xj∣θi)∑i=1Nαi⋅p(xj∣θi)(2)
根据(
D. J. Miller and H. S. Uyar, 1996
)的观点,主要有两种混合方法:
划分混合模型(The “Partitioned” Mixture Model, PM):
混合组分与各个类别具有硬划分的关系,即
Mi∈Ck
,其中
Mi
代表混合组分
i
,也就是说各个类别是由特定的混合组分组合而成,
Ck
代表类别
k
具有的混合组分形成的集合,混合模型后验概率为:
p(cj=k∣xj)=∑i=1∧Mi∈CkNαi⋅p(xj∣θi)∑i=1Nαi⋅p(xj∣θi)(3)
广义混合模型(The Generalized Mixture Model, GM):
每个混合组分
i∈{1,…,K}
都有可能是形成某个类别
k
的一个混合成分,定义
p(cj∣mj,xj)=p(cj∣mj)=βcj∣mj(4)
,其中第二项成立是因为
βcj∣mj
与具体的
xj
取值无关。在此基础上可知,混合模型后验概率为:
p(cj∣xj)=∑i=1N(αi⋅p(xj∣θi))βcj∣i∑i=1Nαi⋅p(xj∣θi)(5)
显然,令
GM中真正属于
cj
的混合成分
i
均为
βcj∣i=1
,其他
βcj∣i=0
,则此时广义混合模型退化为
PM。
扫描二维码关注公众号,回复:
3809995 查看本文章
在这里,我们采用GM ,采用高斯分布作为混合成分,来推导EM
算法的更新参数。
显然,此时:
f(xj∣θi)=p(xj∣θi)=p(xj∣μi,Σi)(*)
则
(1)
变为:
LL(Dl∪Du)=∑(xi,cj)∈Dlln∑i=1Nαip(cj∣xj,mj=i,μi,Σi)p(xj∣μi,Σi)+∑xi∈Duln∑i=1Nαip(xj∣μi,Σi)(6)
(4)
带入
(6)
可得:
LL(Dl∪Du)=∑(xi,cj)∈Dlln∑i=1Nαiβcj∣ip(xj∣μi,Σi)+∑xi∈Duln∑i=1Nαip(xj∣μi,Σi)(7)
我们的目的是要求得最优的
αi,βcj∣i,μi,Σi
使上式
(7)
取得最大值。
在这里,依据对数据完整性的不同看法,可有两种EM
算法:
EM-I(假定不含类标记):
对于
(xj,cj)∈Dl,xj∈Du
,均缺乏混合成分
mj
信息,相应的完整数据为
{(xj,cj,mj)}
和
{(xj,mj)}
,也就是说不用推断
xj∈Du
的类标记。
EM-II(假定含类标记):
对于
Dl
定义同上,但对于
xj∈Du
,认定其缺少
mj,cj
,因此对应于
xj∈Du
的完整数据为
{(xj,cj,mj)}
,也就是说既要推断
xj∈Du
的类标记,还要推断
xj∈Du
的混合成分。
EM-I
对于混合系数
αi
,除了要最大化
LL(Dl∪Du)
,还应满足隐含条件:
αi≥0,∑Ni=1αi=1
,因此考虑对
LL(Dl∪Du)
使用拉格朗日乘子法,变为优化
LL(Dl∪Du)+λ(∑i=1Nαi−1)(8)
将
(7)
带入
(8)
,并令
(8)
对
αi
的导数为0,得到
∂LL(Dl∪Du)∂αi=∑xj∈Dlβcj∣i⋅p(xj∣μi,Σi)∑i=1Nαi⋅βcj∣i⋅p(xj∣μi,Σi)+∑xj∈Dup(xj∣μi,Σi)∑i=1Nαi⋅p(xj∣μi,Σi)+λ=0(9)
令
p(mj=i∣cj,xj,μi,Σi)=αi⋅βcj∣i⋅p(xj∣μi,Σi)∑i=1Nαi⋅βcj∣i⋅p(xj∣μi,Σi)(10)
同时,将高斯模型
(∗)
带入
(2)
可得:
p(mj=i∣xj,μi,Σi)=αi⋅p(xj∣μi,Σi)∑i=1Nαi⋅p(xj∣μi,Σi)(11)
对
(9)
两边同时乘以
αi
,将
(10),(11)
代入可得:
0=∑xj∈Dlp(mj=i∣cj,xj,μi,Σi)+∑xj∈Dup(mj=i∣xj,μi,Σi)+αi⋅λ(12)
令
(12)
对所有高斯混合成分求和:
0=∑xj∈Dl∑i=1Np(mj=i∣cj,xj,μi,Σi)+∑xj∈Du∑i=1Np(mj=i∣xj,μi,Σi)+αi⋅λ=∑xj∈Dl1+∑xj∈Du1+λ=M+λ(13)
由
(13)
可得,
λ=−M
,将其带入
(12)
可得:
αi=1M⋅⎛⎝∑xj∈Dlp(mj=i∣cj,xj,μi,Σi)+∑xj∈Dup(mj=i∣xj,μi,Σi)⎞⎠(14)
对于高斯分布,其偏导具有如下性质:
∂p(x∣μi,Σi)∂μi∂p(x∣μi,Σi)∂Σi=p(x∣μi,Σi)⋅Σ−1i⋅(μi−x)=p(x∣μi,Σi)⋅Σ−2i⋅((x−μi)(x−μi)⊤−Σi)(15)(16)
求
(7)
对
μi
的偏导,结合
(15),(10),(11)
可得:
∂LL(Dl∪Du)∂μi=∑xj∈Dlαi⋅βcj∣i⋅p(xj∣μi,Σi)∑i=1Nαi⋅βcj∣i⋅p(xj∣μi,Σi)⋅Σ−1i⋅(μi−xj)+∑xj∈Duαi⋅p(xj∣μi,Σi)∑i=1Nαi⋅p(xj∣μi,Σi)⋅Σ−1i⋅(μi−xj)=∑xj∈Dlp(mj=i∣cj,xj,μi,Σi)⋅Σ−1i⋅(μi−xj)+∑xj∈Dup(mj=i∣xj,μi,Σi)⋅Σ−1i⋅(μi−xj)=Σ−1i⋅⎛⎝∑xj∈Dlp(mj=i∣cj,xj,μi,Σi)⋅(μi−xj)+∑xj∈Dup(mj=i∣xj,μi,Σi)⋅(μi−xj)⎞⎠(17)
令
(17)=0
,将
(14)
带入可得:
μi=1Mαi⋅⎛⎝∑xj∈Dlxj⋅p(mj=i∣cj,xj,μi,Σi)+∑xj∈Duxj⋅p(mj=i∣xj,μi,Σi)⎞⎠(18)
同样地,求
(7)
对
Σi
的偏导,结合
(16),(10),(11)
可得:
∂LL(Dl∪Du)∂Σi=∑xj∈Dlαi⋅βcj∣i⋅p(xj∣μi,Σi)∑i=1Nαi⋅βcj∣i⋅p(xj∣μi,Σi)⋅Σ−2i⋅((xj−μi)(xj−μi)⊤−Σi)+∑xj∈Duαi⋅p(xj∣μi,Σi)∑i=1Nαi⋅p(xj∣μi,Σi)⋅Σ−2i⋅((xj−μi)(xj−μi)⊤−Σi)=∑xj∈Dlp(mj=i∣cj,xj,μi,Σi)⋅Σ−2i⋅((xj−μi)(xj−μi)⊤−Σi)+∑xj∈Dup(mj=i∣xj,μi,Σi)⋅Σ−2i⋅((xj−μi)(xj−μi)⊤−Σi)(19)
令
(19)=0
,将
(14)
带入可得:
Σi=1Mαi⋅⎛⎝∑xj∈Dlp(mj=i∣cj,xj,μi,Σi)⋅((xj−μi)(xj−μi)⊤)+∑xj∈Dup(mj=i∣xj,μi,Σi)⋅((xj−μi)(xj−μi)⊤)⎞⎠(20)
对于系数
βk∣i
,除了要最大化
LL(Dl∪Du)
,还应满足隐含条件:
βk∣i≥0,∑|C|k=1βk∣i=1
,因此考虑对
LL(Dl∪Du)
使用拉格朗日乘子法,变为优化
LL(Dl∪Du)+λ⎛⎝∑k=1|C|βk∣i−1⎞⎠(21)
将
(7)
带入
(21)
,并令
(21)
对
βk∣i
的导数为0,得到
∂LL(Dl∪Du)∂βk∣i=∑xj∈Dl∧cj=kαi⋅p(xj∣μi,Σi)∑i=1Nαi⋅βcj∣i⋅p(xj∣μi,Σi)+λ=0(22)
两边同时乘以
βk∣i
,结合
(10)
得:
0=∑xj∈Dl∧cj=kαi⋅βk∣i⋅p(xj∣μi,Σi)∑i=1Nαi⋅βcj∣i⋅p(xj∣μi,Σi)+βk∣i⋅λ=∑xj∈Dl∧cj=kp(mj=i∣cj,xj,μi,Σi)+βk∣i⋅λ(23)
令
(23)
对所有类标记求和:
0=∑k=1|C|∑xj∈Dl∧cj=kp(mj=i∣cj,xj,μi,Σi)+∑k=1|C|βk∣i⋅λ=∑xj∈Dlp(mj=i∣cj,xj,μi,Σi)+λ(24)
即:
λ=−∑xj∈Dlp(mj=i∣cj,xj,μi,Σi)(25)
将
(25)
带入
(23)
可得:
βk∣i=∑xj∈Dl∧cj=kp(mj=i∣cj,xj,μi,Σi)∑xj∈Dlp(mj=i∣cj,xj,μi,Σi)(26)
EM-II
对于EM-II,由于需要预测
xj∈Du
下的
cj
,根据贝叶斯定理,
(7)
变为:
LL(Dl∪Du)=∑(xi,cj)∈Dlln∑i=1Nαiβcj∣ip(xj∣μi,Σi)+∑xi∈Duln∑i=1Nαip(xj∣μi,Σi)=∑(xi,cj)∈Dlln∑i=1Nαiβcj∣ip(xj∣μi,Σi)+∑xi∈Duln∑i=1N∑k=1|C|αip(cj=k∣xj,mj=i,μi,Σi)p(xj∣μi,Σi)=∑(xi,cj)∈Dlln∑i=1Nαiβcj∣ip(xj∣μi,Σi)+∑xi∈Duln∑i=1N∑k=1|C|αiβk∣ip(xj∣μi,Σi)(27)
显然,此时的模型参数
αi,μi,Σi
与
EM-I一致,对于
βk∣i
,同样满足隐含条件:
βk∣i≥0,∑|C|k=1βk∣i=1
,因此同样将
(27)
带入
(21)
求偏导,并令
(21)
对
βk∣i
的导数为0,得到
∂LL(Dl∪Du)∂βk∣i=∑xj∈Dl∧cj=kαi⋅p(xj∣μi,Σi)∑i=1Nαi⋅βcj∣i⋅p(xj∣μi,Σi)+∑xj∈Duαi⋅p(xj∣μi,Σi)∑i=1Nαi⋅p(xj∣μi,Σi)+λ=0(28)
令
p(mj=i,cj=k∣xj,μi,Σi)=αi⋅βk∣i⋅p(xj∣μi,Σi)∑i=1Nαi⋅p(xj∣μi,Σi)(29)
对
(28)
两边同乘
βk∣i
,结合
(10),(29)
可得:
0=∑xj∈Dl∧cj=kp(mj=i∣cj,xj,μi,Σi)+∑xj∈Dup(mj=i,cj=k∣xj,μi,Σi)+βk∣iλ(30)
对所有类标记求和可得:
λ=−Mαi(31)
最后,将
(31)
带入
(30)
即可解得:
βk∣i=1Mαi⎛⎝∑xj∈Dl∧cj=kp(mj=i∣cj,xj,μi,Σi)+∑xj∈Dup(mj=i,cj=k∣xj,μi,Σi)⎞⎠(32)
由此,我们得到了EM-I和EM-II算法下的模型参数
αi,μi,Σi,βk∣i
的更新公式,接下来就可以用标准的EM算法进行参数更新,过程不再详述。
参考文献:
Miller, D. J., and Uyar, H. S. 1997. A mixture of experts classifier with learning based on both labelled and unlabelled data. In NIPS 9.