机器学习-周志华-个人练习13.3

13.3 假设数据由混合专家（mixture of experts）模型生成，即数据是基于 $k$ 个成分混合而得的概率密度生成：

p (x ∣ θ) = \sum i = 1 k α i p (x ∣ θ i) (13.22)

$p(\mathbf x \mid \theta) = \sum_{i=1}^k \alpha_i p(\mathbf x \mid \theta_i) \tag{13.22}$
其中，

θ={θ1,θ2,…,θk} $\theta=\{\theta_1,\theta_2,\ldots,\theta_k \}$ 是模型参数，

p(x∣θi) $p(\mathbf x \mid \theta_i)$ 是第

i $i$ 个混合成分的概率密度，混合系数

αi≥0,∑ki=1αi=1 $\alpha_i \ge 0,\sum_{i=1}^k \alpha_i=1$ 。假设每个混合成分对应一个类别，但每个类别可能包含多个混合成分。试推导相应的生成式半监督学习算法。

首先，我们假定:

数据 $X$ 包含 $M=l+u$ 个样本： $X=\{\mathbf x_j\},j=1,\ldots,M$

所有样本中共有 $\vert \mathcal C \vert$ 个类别： $c_j$ 表示样本的类别， $c_j \in \mathcal C$

混合模型含有 $N$ 个混合成分， $\{m_j=i\},i=1,\ldots,N$ 表示样本 $\mathbf x_j$ 可能的混合成分， $\theta_i$ 表示对应混合成分的模型参数，则相应模型可以表示为 $f(\mathbf x_j \mid \theta_i)=p(\mathbf x_j \mid m_j=i, \theta_i)=p(\mathbf x_j \mid \theta_i)$

则与书上公式 $(13.4)$ 类似，在此处：

L L (D l \cup D u) = \sum (x i, c j) \in D l ln p (x j, c j ∣ θ) + \sum x i \in D u ln p (x j ∣ θ) = \sum (x i, c j) \in D l ln \sum i = 1 N α i p (c j ∣ x j, m j = i, θ i) p (x j ∣ m j = i, θ i) + \sum x i \in D u ln \sum i = 1 N α i p (x j ∣ m j = i, θ i) = \sum (x i, c j) \in D l ln \sum i = 1 N α i p (c j ∣ x j, m j = i, θ i) f (x j ∣ θ i) + \sum x i \in D u ln \sum i = 1 N α i f (x j ∣ θ i) (1)

$\begin{align} LL(D_l\cup D_u)&=\sum_{(\mathbf x_i,c_j) \in D_l}\ln p(\mathbf x_j,c_j \mid \theta)+\sum_{\mathbf x_i \in D_u}\ln p(\mathbf x_j \mid \theta) \\ &=\sum_{(\mathbf x_i,c_j) \in D_l}\ln\sum_{i=1}^N \alpha_ip(c_j \mid \mathbf x_j, m_j=i, \theta_i)p(\mathbf x_j \mid m_j=i, \theta_i)+\sum_{\mathbf x_i \in D_u}\ln \sum_{i=1}^N \alpha_i p(\mathbf x_j \mid m_j=i, \theta_i) \\ &=\sum_{(\mathbf x_i,c_j) \in D_l}\ln\sum_{i=1}^N \alpha_ip(c_j \mid \mathbf x_j, m_j=i, \theta_i)f(\mathbf x_j \mid \theta_i)+\sum_{\mathbf x_i \in D_u}\ln \sum_{i=1}^N \alpha_i f(\mathbf x_j \mid \theta_i) \tag{1} \end{align}$
接下来介绍一下题目中所说的 每个类别可包含多个混合成分的混合模型的具体表示。

首先，我们知道：
$p (m j = i ∣ x j) = α i \cdot p ( x j ∣ θ i ) \sum i = 1 N α i \cdot p ( x j ∣ θ i ) (2)$ $p(m_j=i \mid \mathbf x_j)={{\alpha_i \cdot p(\mathbf x_j \mid \theta_i)}\over{\displaystyle \sum_{i=1}^N \alpha_i \cdot p(\mathbf x_j \mid \theta_i)}} \tag{2}$
根据( D. J. Miller and H. S. Uyar, 1996)的观点，主要有两种混合方法：

划分混合模型(The “Partitioned” Mixture Model, PM)：
混合组分与各个类别具有硬划分的关系，即 $M_i \in C_k$ ，其中 $M_i$ 代表混合组分 $i$ ，也就是说各个类别是由特定的混合组分组合而成， $C_k$ 代表类别 $k$ 具有的混合组分形成的集合，混合模型后验概率为：

$p (c j = k ∣ x j) = \sum i = 1 \land M i \in C k N α i \cdot p ( x j ∣ θ i ) \sum i = 1 N α i \cdot p ( x j ∣ θ i ) (3)$ $p(c_j=k\mid\mathbf x_j)={{\displaystyle \sum_{i=1 \land M_i \in C_k}^N\alpha_i \cdot p(\mathbf x_j \mid \theta_i)}\over{\displaystyle \sum_{i=1}^N \alpha_i \cdot p(\mathbf x_j \mid \theta_i)}} \tag{3}$

广义混合模型(The Generalized Mixture Model, GM)：
每个混合组分 $i \in \{1,\ldots, K \}$ 都有可能是形成某个类别 $k$ 的一个混合成分，定义
$p (c j ∣ m j, x j) = p (c j ∣ m j) = β c j ∣ m j (4)$ $p(c_j\mid m_j,\mathbf x_j)=p(c_j\mid m_j)=\beta_{c_j\mid m_j}\tag{4}$ ，其中第二项成立是因为 $\beta_{c_j\mid m_j}$ 与具体的 $\mathbf x_j$ 取值无关。在此基础上可知，混合模型后验概率为：
$p (c j ∣ x j) = \sum i = 1 N ( α i \cdot p ( x j ∣ θ i ) ) β c j ∣ i \sum i = 1 N α i \cdot p ( x j ∣ θ i ) (5)$ $p(c_j\mid\mathbf x_j)={{\displaystyle \sum_{i=1}^N\left(\alpha_i \cdot p(\mathbf x_j \mid \theta_i)\right)\beta_{c_j\mid i}}\over{\displaystyle \sum_{i=1}^N \alpha_i \cdot p(\mathbf x_j \mid \theta_i)}} \tag{5}$
显然，令 GM中真正属于 $c_j$ 的混合成分 $i$ 均为 $\beta_{c_j\mid i}=1$ ，其他 $\beta_{c_j\mid i}=0$ ，则此时广义混合模型退化为 PM。

扫描二维码关注公众号，回复： 3809995 查看本文章

在这里，我们采用GM ，采用高斯分布作为混合成分，来推导EM算法的更新参数。
显然，此时：

f (x j ∣ θ i) = p (x j ∣ θ i) = p (x j ∣ μ i, Σ i) (*)

$f(\mathbf x_j \mid \theta_i)=p(\mathbf x_j \mid \theta_i)=p(\mathbf x_j \mid \mu_i,\Sigma_i)\tag{*}$
则

(1) $(1)$ 变为：

L L (D l \cup D u) = \sum (x i, c j) \in D l ln \sum i = 1 N α i p (c j ∣ x j, m j = i, μ i, Σ i) p (x j ∣ μ i, Σ i) + \sum x i \in D u ln \sum i = 1 N α i p (x j ∣ μ i, Σ i) (6)

$LL(D_l \cup D_u)=\sum_{(\mathbf x_i,c_j) \in D_l}\ln\sum_{i=1}^N \alpha_ip(c_j \mid \mathbf x_j, m_j=i, \mu_i, \Sigma_i)p(\mathbf x_j \mid \mu_i, \Sigma_i)+\sum_{\mathbf x_i \in D_u}\ln \sum_{i=1}^N \alpha_i p(\mathbf x_j \mid \mu_i, \Sigma_i) \tag{6}$

(4) $(4)$ 带入

(6) $(6)$ 可得：

L L (D l \cup D u) = \sum (x i, c j) \in D l ln \sum i = 1 N α i β c j ∣ i p (x j ∣ μ i, Σ i) + \sum x i \in D u ln \sum i = 1 N α i p (x j ∣ μ i, Σ i) (7)

$LL(D_l \cup D_u)=\sum_{(\mathbf x_i,c_j) \in D_l}\ln\sum_{i=1}^N \alpha_i\beta_{c_j\mid i}p(\mathbf x_j \mid \mu_i, \Sigma_i)+\sum_{\mathbf x_i \in D_u}\ln \sum_{i=1}^N \alpha_i p(\mathbf x_j \mid \mu_i, \Sigma_i) \tag{7}$
我们的目的是要求得最优的

αi,βcj∣i,μi,Σi $\alpha_i,\beta_{c_j\mid i},\mu_i,\Sigma_i$ 使上式

(7) $(7)$ 取得最大值。

在这里，依据对数据完整性的不同看法，可有两种EM算法：
EM-I(假定不含类标记):

对于 $(\mathbf x_j,c_j) \in D_l，\mathbf x_j \in D_u$ ，均缺乏混合成分 $m_j$ 信息，相应的完整数据为 $\{(\mathbf x_j,c_j,m_j) \}$ 和 $\{(\mathbf x_j, m_j)\}$ ，也就是说不用推断 $\mathbf x_j \in D_u$ 的类标记。

EM-II(假定含类标记):

对于 $D_l$ 定义同上，但对于 $\mathbf x_j \in D_u$ ，认定其缺少 $m_j,c_j$ ，因此对应于 $\mathbf x_j \in D_u$ 的完整数据为 $\{(\mathbf x_j,c_j,m_j) \}$ ，也就是说既要推断 $\mathbf x_j \in D_u$ 的类标记，还要推断 $\mathbf x_j \in D_u$ 的混合成分。

EM-I
对于混合系数 $\alpha_i$ ，除了要最大化 $LL(D_l\cup D_u)$ ，还应满足隐含条件： $\alpha_i \ge0,\sum_{i=1}^N\alpha_i=1$ ，因此考虑对 $LL(D_l\cup D_u)$ 使用拉格朗日乘子法，变为优化

L L (D l \cup D u) + λ (\sum i = 1 N α i - 1) (8)

$LL(D_l\cup D_u)+\lambda \left(\sum_{i=1}^N\alpha_i-1\right) \tag{8}$
将

(7) $(7)$ 带入

(8) $(8)$ ，并令

(8) $(8)$ 对

αi $\alpha_i$ 的导数为0，得到

\partial L L ( D l \cup D u ) \partial α i = \sum x j \in D l β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) + \sum x j \in D u p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot p ( x j ∣ μ i , Σ i ) + λ = 0 (9)

${{\partial LL(D_l\cup D_u)}\over{\partial \alpha_i}} =\sum_{\mathbf x_j \in D_l}{{\beta_{c_j\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot \beta_{c_j\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}} +\sum_{\mathbf x_j \in D_u}{{p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}}+\lambda=0\tag{9}$
令

p (m j = i ∣ c j, x j, μ i, Σ i) = α i \cdot β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) (10)

$p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)={{\alpha_i\cdot \beta_{c_j\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot \beta_{c_j\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}}\tag{10}$
同时，将高斯模型

(∗) $(*)$ 带入

(2) $(2)$ 可得：

p (m j = i ∣ x j, μ i, Σ i) = α i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot p ( x j ∣ μ i , Σ i ) (11)

$p(m_j=i\mid \mathbf x_j,\mu_i,\Sigma_i)={{\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}}\tag{11}$
对

(9) $(9)$ 两边同时乘以

αi $\alpha_i$ ，将

(10),(11) $(10),(11)$ 代入可得：

0 = \sum x j \in D l p (m j = i ∣ c j, x j, μ i, Σ i) + \sum x j \in D u p (m j = i ∣ x j, μ i, Σ i) + α i \cdot λ (12)

$0=\sum_{\mathbf x_j \in D_l}p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i) +\sum_{\mathbf x_j \in D_u}p(m_j=i\mid \mathbf x_j,\mu_i,\Sigma_i) +\alpha_i \cdot \lambda \tag{12}$
令

(12) $(12)$ 对所有高斯混合成分求和：

0 = \sum x j \in D l \sum i = 1 N p (m j = i ∣ c j, x j, μ i, Σ i) + \sum x j \in D u \sum i = 1 N p (m j = i ∣ x j, μ i, Σ i) + α i \cdot λ = \sum x j \in D l 1 + \sum x j \in D u 1 + λ = M + λ (13)

$\begin{align} 0&=\sum_{\mathbf x_j \in D_l}\sum_{i=1}^N p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i) +\sum_{\mathbf x_j \in D_u}\sum_{i=1}^N p(m_j=i\mid \mathbf x_j,\mu_i,\Sigma_i) +\alpha_i \cdot \lambda \\ &=\sum_{\mathbf x_j \in D_l}1+\sum_{\mathbf x_j \in D_u}1+\lambda \\ &=M+\lambda \tag{13} \end{align}$
由

(13) $(13)$ 可得，

λ=−M $\lambda=-M$ ，将其带入

(12) $(12)$ 可得：

α i = 1 M \cdot ⎛ ⎝ \sum x j \in D l p (m j = i ∣ c j, x j, μ i, Σ i) + \sum x j \in D u p (m j = i ∣ x j, μ i, Σ i) ⎞ ⎠ (14)

$\alpha_i= {1\over M} \cdot \left( \sum_{\mathbf x_j \in D_l}p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i) +\sum_{\mathbf x_j \in D_u}p(m_j=i\mid \mathbf x_j,\mu_i,\Sigma_i) \right) \tag{14}$

对于高斯分布，其偏导具有如下性质：

\partial p ( x ∣ μ i , Σ i ) \partial μ i \partial p ( x ∣ μ i , Σ i ) \partial Σ i = p (x ∣ μ i, Σ i) \cdot Σ - 1 i \cdot (μ i - x) = p (x ∣ μ i, Σ i) \cdot Σ - 2 i \cdot ((x - μ i) (x - μ i) ⊤ - Σ i) (15) (16)

$\begin{align} {{\partial p(\mathbf x\mid {\mu}_i,\Sigma_i)}\over{\partial \mu_i}} &= p(\mathbf x\mid {\mu}_i,\Sigma_i)\cdot \Sigma_i^{-1} \cdot (\mu_i-\mathbf x) \tag{15} \\ {{\partial p(\mathbf x\mid {\mu}_i,\Sigma_i)}\over{\partial \Sigma_i}} &= p(\mathbf x\mid {\mu}_i,\Sigma_i) \cdot \Sigma_i^{-2} \cdot \left((\mathbf x-\mu_i)(\mathbf x-\mu_i)^\top-\Sigma_i\right) \tag{16} \end{align}$
求

(7) $(7)$ 对

μi $\mu_i$ 的偏导，结合

(15),(10),(11) $(15),(10),(11)$ 可得：

\partial L L ( D l \cup D u ) \partial μ i = \sum x j \in D l α i \cdot β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) \cdot Σ - 1 i \cdot (μ i - x j) + \sum x j \in D u α i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot p ( x j ∣ μ i , Σ i ) \cdot Σ - 1 i \cdot (μ i - x j) = \sum x j \in D l p (m j = i ∣ c j, x j, μ i, Σ i) \cdot Σ - 1 i \cdot (μ i - x j) + \sum x j \in D u p (m j = i ∣ x j, μ i, Σ i) \cdot Σ - 1 i \cdot (μ i - x j) = Σ - 1 i \cdot ⎛ ⎝ \sum x j \in D l p (m j = i ∣ c j, x j, μ i, Σ i) \cdot (μ i - x j) + \sum x j \in D u p (m j = i ∣ x j, μ i, Σ i) \cdot (μ i - x j) ⎞ ⎠ (17)

$\begin{align} {{\partial LL(D_l\cup D_u)}\over{\partial \mu_i}} &=\sum_{\mathbf x_j \in D_l}{{\alpha_i\cdot \beta_{c_j\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot \beta_{c_j\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}}\cdot \Sigma_i^{-1} \cdot (\mu_i-\mathbf x_j) +\sum_{\mathbf x_j \in D_u}{{\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}}\cdot \Sigma_i^{-1} \cdot (\mu_i-\mathbf x_j) \\ &=\sum_{\mathbf x_j \in D_l}p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)\cdot \Sigma_i^{-1} \cdot (\mu_i-\mathbf x_j) +\sum_{\mathbf x_j \in D_u}p(m_j=i\mid \mathbf x_j,\mu_i,\Sigma_i)\cdot \Sigma_i^{-1} \cdot (\mu_i-\mathbf x_j) \\ &=\Sigma_i^{-1} \cdot \left(\sum_{\mathbf x_j \in D_l}p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)\cdot (\mu_i-\mathbf x_j) +\sum_{\mathbf x_j \in D_u}p(m_j=i\mid \mathbf x_j,\mu_i,\Sigma_i)\cdot (\mu_i-\mathbf x_j) \right) \tag{17} \end{align}$
令

(17)=0 $(17)=0$ ，将

(14) $(14)$ 带入可得：

μ i = 1 M α i \cdot ⎛ ⎝ \sum x j \in D l x j \cdot p (m j = i ∣ c j, x j, μ i, Σ i) + \sum x j \in D u x j \cdot p (m j = i ∣ x j, μ i, Σ i) ⎞ ⎠ (18)

$\mu_i= {1\over M \alpha_i} \cdot \left( \sum_{\mathbf x_j \in D_l} \mathbf x_j \cdot p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i) +\sum_{\mathbf x_j \in D_u}\mathbf x_j \cdot p(m_j=i\mid \mathbf x_j,\mu_i,\Sigma_i) \right) \tag{18}$
同样地，求

(7) $(7)$ 对

Σi $\Sigma_i$ 的偏导，结合

(16),(10),(11) $(16),(10),(11)$ 可得：

\partial L L ( D l \cup D u ) \partial Σ i = \sum x j \in D l α i \cdot β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) \cdot Σ - 2 i \cdot ((x j - μ i) (x j - μ i) ⊤ - Σ i) + \sum x j \in D u α i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot p ( x j ∣ μ i , Σ i ) \cdot Σ - 2 i \cdot ((x j - μ i) (x j - μ i) ⊤ - Σ i) = \sum x j \in D l p (m j = i ∣ c j, x j, μ i, Σ i) \cdot Σ - 2 i \cdot ((x j - μ i) (x j - μ i) ⊤ - Σ i) + \sum x j \in D u p (m j = i ∣ x j, μ i, Σ i) \cdot Σ - 2 i \cdot ((x j - μ i) (x j - μ i) ⊤ - Σ i) (19)

$\begin{align} {{\partial LL(D_l\cup D_u)}\over{\partial \Sigma_i}} &=\sum_{\mathbf x_j \in D_l}{{\alpha_i\cdot \beta_{c_j\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot \beta_{c_j\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}}\cdot \Sigma_i^{-2} \cdot \left((\mathbf x_j -\mu_i)(\mathbf x_j -\mu_i)^\top-\Sigma_i \right) \\ &\quad+\sum_{\mathbf x_j \in D_u}{{\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}}\cdot \Sigma_i^{-2} \cdot \left((\mathbf x_j -\mu_i)(\mathbf x_j -\mu_i)^\top-\Sigma_i \right) \\ &=\sum_{\mathbf x_j \in D_l}p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)\cdot \Sigma_i^{-2} \cdot \left((\mathbf x_j -\mu_i)(\mathbf x_j -\mu_i)^\top-\Sigma_i \right) \\ & \quad +\sum_{\mathbf x_j \in D_u}p(m_j=i\mid \mathbf x_j,\mu_i,\Sigma_i)\cdot \Sigma_i^{-2} \cdot \left((\mathbf x_j -\mu_i)(\mathbf x_j -\mu_i)^\top-\Sigma_i \right) \tag{19} \end{align}$
令

(19)=0 $(19)=0$ ，将

(14) $(14)$ 带入可得：

Σ i = 1 M α i \cdot ⎛ ⎝ \sum x j \in D l p (m j = i ∣ c j, x j, μ i, Σ i) \cdot ((x j - μ i) (x j - μ i) ⊤) + \sum x j \in D u p (m j = i ∣ x j, μ i, Σ i) \cdot ((x j - μ i) (x j - μ i) ⊤) ⎞ ⎠ (20)

$\begin{align} \Sigma_i= {1\over M \alpha_i} &\cdot \left( \sum_{\mathbf x_j \in D_l} p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)\cdot \left((\mathbf x_j -\mu_i)(\mathbf x_j -\mu_i)^\top \right) \\ + \sum_{\mathbf x_j \in D_u} p(m_j=i\mid \mathbf x_j,\mu_i,\Sigma_i) \cdot \left((\mathbf x_j -\mu_i)(\mathbf x_j -\mu_i)^\top \right) \right) \tag{20} \end{align}$
对于系数

βk∣i $\beta_{k\mid i}$ ，除了要最大化

LL(Dl∪Du) $LL(D_l\cup D_u)$ ，还应满足隐含条件：

βk∣i≥0,∑|C|k=1βk∣i=1 $\beta_{k\mid i}\ge0,\sum_{k=1}^{\vert \mathcal C \vert}\beta_{k\mid i}=1$ ，因此考虑对

LL(Dl∪Du) $LL(D_l\cup D_u)$ 使用拉格朗日乘子法，变为优化

L L (D l \cup D u) + λ ⎛ ⎝ \sum k = 1 | C | β k ∣ i - 1 ⎞ ⎠ (21)

$LL(D_l\cup D_u)+\lambda \left(\sum_{k=1}^{\vert \mathcal C \vert}\beta_{k\mid i}-1\right) \tag{21}$
将

(7) $(7)$ 带入

(21) $(21)$ ，并令

(21) $(21)$ 对

βk∣i $\beta_{k\mid i}$ 的导数为0，得到

\partial L L ( D l \cup D u ) \partial β k ∣ i = \sum x j \in D l \land c j = k α i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) + λ = 0 (22)

βk∣i $\beta_{k\mid i}$ ，结合

(10) $(10)$ 得：

0 = \sum x j \in D l \land c j = k α i \cdot β k ∣ i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) + β k ∣ i \cdot λ = \sum x j \in D l \land c j = k p (m j = i ∣ c j, x j, μ i, Σ i) + β k ∣ i \cdot λ (23)

$\begin{align} 0&=\sum_{\mathbf x_j \in D_l \land c_j=k}{{\alpha_i \cdot \beta_{k\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot \beta_{c_j\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}} +\beta_{k\mid i} \cdot \lambda \\ &=\sum_{\mathbf x_j \in D_l \land c_j=k}p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i) +\beta_{k\mid i} \cdot \lambda \tag{23} \end{align}$
令

(23) $(23)$ 对所有类标记求和：

0 = \sum k = 1 | C | \sum x j \in D l \land c j = k p (m j = i ∣ c j, x j, μ i, Σ i) + \sum k = 1 | C | β k ∣ i \cdot λ = \sum x j \in D l p (m j = i ∣ c j, x j, μ i, Σ i) + λ (24)

$\begin{align} 0&=\sum_{k=1}^{\vert \mathcal C \vert}\sum_{\mathbf x_j \in D_l \land c_j=k}p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)+\sum_{k=1}^{\vert \mathcal C \vert}\beta_{k\mid i} \cdot \lambda \\ &=\sum_{\mathbf x_j \in D_l }p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)+\lambda \tag{24} \end{align}$
即：

λ = - \sum x j \in D l p (m j = i ∣ c j, x j, μ i, Σ i) (25)

$\lambda=-\sum_{\mathbf x_j \in D_l }p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)\tag{25}$
将

(25) $(25)$ 带入

(23) $(23)$ 可得：

β k ∣ i = \sum x j \in D l \land c j = k p ( m j = i ∣ c j , x j , μ i , Σ i ) \sum x j \in D l p ( m j = i ∣ c j , x j , μ i , Σ i ) (26)

$\beta_{k\mid i}={{\displaystyle\sum_{\mathbf x_j \in D_l \land c_j=k}p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)} \over {\displaystyle\sum_{\mathbf x_j \in D_l }p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)}} \tag{26}$
EM-II
对于EM-II，由于需要预测

xj∈Du $\mathbf x_j \in D_u$ 下的

cj $c_j$ ，根据贝叶斯定理，

(7) $(7)$ 变为：

L L (D l \cup D u) = \sum (x i, c j) \in D l ln \sum i = 1 N α i β c j ∣ i p (x j ∣ μ i, Σ i) + \sum x i \in D u ln \sum i = 1 N α i p (x j ∣ μ i, Σ i) = \sum (x i, c j) \in D l ln \sum i = 1 N α i β c j ∣ i p (x j ∣ μ i, Σ i) + \sum x i \in D u ln \sum i = 1 N \sum k = 1 | C | α i p (c j = k ∣ x j, m j = i, μ i, Σ i) p (x j ∣ μ i, Σ i) = \sum (x i, c j) \in D l ln \sum i = 1 N α i β c j ∣ i p (x j ∣ μ i, Σ i) + \sum x i \in D u ln \sum i = 1 N \sum k = 1 | C | α i β k ∣ i p (x j ∣ μ i, Σ i) (27)

$\begin{align} LL(D_l \cup D_u)&=\sum_{(\mathbf x_i,c_j) \in D_l}\ln\sum_{i=1}^N \alpha_i\beta_{c_j\mid i}p(\mathbf x_j \mid \mu_i, \Sigma_i)+\sum_{\mathbf x_i \in D_u}\ln \sum_{i=1}^N \alpha_i p(\mathbf x_j \mid \mu_i, \Sigma_i) \\ &=\sum_{(\mathbf x_i,c_j) \in D_l}\ln\sum_{i=1}^N \alpha_i\beta_{c_j\mid i}p(\mathbf x_j \mid \mu_i, \Sigma_i)+\sum_{\mathbf x_i \in D_u}\ln \sum_{i=1}^N \sum_{k=1}^{\vert\mathcal C \vert} \alpha_i p(c_j=k \mid \mathbf x_j, m_j=i, \mu_i, \Sigma_i) p(\mathbf x_j \mid \mu_i, \Sigma_i) \\ &=\sum_{(\mathbf x_i,c_j) \in D_l}\ln\sum_{i=1}^N \alpha_i\beta_{c_j\mid i}p(\mathbf x_j \mid \mu_i, \Sigma_i)+\sum_{\mathbf x_i \in D_u}\ln \sum_{i=1}^N \sum_{k=1}^{\vert\mathcal C \vert} \alpha_i \beta_{k\mid i} p(\mathbf x_j \mid \mu_i, \Sigma_i) \tag{27} \end{align}$
显然，此时的模型参数

αi,μi,Σi $\alpha_i,\mu_i,\Sigma_i$ 与 EM-I一致，对于

βk∣i $\beta_{k\mid i}$ ，同样满足隐含条件：

βk∣i≥0,∑|C|k=1βk∣i=1 $\beta_{k\mid i}\ge0,\sum_{k=1}^{\vert \mathcal C \vert}\beta_{k\mid i}=1$ ，因此同样将

(27) $(27)$ 带入

(21) $(21)$ 求偏导，并令

(21) $(21)$ 对

βk∣i $\beta_{k\mid i}$ 的导数为0，得到

\partial L L ( D l \cup D u ) \partial β k ∣ i = \sum x j \in D l \land c j = k α i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot β c j ∣ i \cdot p ( x j ∣ μ i , Σ i ) + \sum x j \in D u α i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot p ( x j ∣ μ i , Σ i ) + λ = 0 (28)

${{\partial LL(D_l\cup D_u)}\over{\partial \beta_{k\mid i}}} =\sum_{\mathbf x_j \in D_l \land c_j=k}{{\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot \beta_{c_j\mid i}\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}}+ \sum_{\mathbf x_j \in D_u}{{\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}} +\lambda=0\tag{28}$
令

p (m j = i, c j = k ∣ x j, μ i, Σ i) = α i \cdot β k ∣ i \cdot p ( x j ∣ μ i , Σ i ) \sum i = 1 N α i \cdot p ( x j ∣ μ i , Σ i ) (29)

$p(m_j=i,c_j=k \mid \mathbf x_j,\mu_i,\Sigma_i)={{\alpha_i \cdot\beta_{k\mid i} \cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}\over {\displaystyle \sum_{i=1}^N\alpha_i\cdot p(\mathbf x_j\mid {\mu}_i,\Sigma_i)}} \tag{29}$
对

(28) $(28)$ 两边同乘

βk∣i $\beta_{k\mid i}$ ，结合

(10),(29) $(10),(29)$ 可得：

0 = \sum x j \in D l \land c j = k p (m j = i ∣ c j, x j, μ i, Σ i) + \sum x j \in D u p (m j = i, c j = k ∣ x j, μ i, Σ i) + β k ∣ i λ (30)

$0=\sum_{\mathbf x_j \in D_l \land c_j=k}p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)+\sum_{\mathbf x_j \in D_u}p(m_j=i,c_j=k \mid \mathbf x_j,\mu_i,\Sigma_i) +\beta_{k\mid i}\lambda \tag{30}$
对所有类标记求和可得：

λ = - M α i (31)

$\lambda = -M\alpha_i \tag{31}$
最后，将

(31) $(31)$ 带入

(30) $(30)$ 即可解得：

β k ∣ i = 1 M α i ⎛ ⎝ \sum x j \in D l \land c j = k p (m j = i ∣ c j, x j, μ i, Σ i) + \sum x j \in D u p (m j = i, c j = k ∣ x j, μ i, Σ i) ⎞ ⎠ (32)

$\beta_{k\mid i}={1 \over M\alpha_i}\left(\sum_{\mathbf x_j \in D_l \land c_j=k}p(m_j=i\mid c_j,\mathbf x_j,\mu_i,\Sigma_i)+\sum_{\mathbf x_j \in D_u}p(m_j=i,c_j=k \mid \mathbf x_j,\mu_i,\Sigma_i)\right) \tag{32}$

由此，我们得到了EM-I和EM-II算法下的模型参数 $\alpha_i,\mu_i,\Sigma_i,\beta_{k\mid i}$ 的更新公式，接下来就可以用标准的EM算法进行参数更新，过程不再详述。

参考文献：
Miller, D. J., and Uyar, H. S. 1997. A mixture of experts classifier with learning based on both labelled and unlabelled data. In NIPS 9.

机器学习-周志华-个人练习13.3

猜你喜欢