Mixtures of Gaussians

Mixtures of Gaussians模型学习了一个联合分布 $P\left ( x^{(i)}, z^{(i)} \right )$

$P\left ( x^{(i)}, z^{(i)} \right ) = P\left ( x^{(i)}\mid z^{(i)} \right ) P\left ( z^{(i)} \right )，x^{(i)}\in \mathbb{R}^n$

【参数定义】

$z^{(i)}\sim \text{Multinomial}(\phi)$ ， $\phi=\begin{bmatrix}\phi_1 & \phi_2 & \cdots & \phi_k\end{bmatrix}$

$x^{(i)}\mid z^{(i)}=j\sim \mathcal{N}\left ( \mu_j, \Sigma_j \right )$ ， $\mu=\begin{bmatrix}\mu_1 & \mu_2 & \cdots & \mu_k\end{bmatrix}$ 是一个 $k\times n$ 的矩阵， $\Sigma=\begin{bmatrix}\Sigma_1 & \Sigma_2 & \cdots & \Sigma_k\end{bmatrix}$ 是一个 $k\times n\times n$ 的Tensor

所有参数包括： $k$ 维向量 $\phi$ ， $k$ 组 $\left \{ \mu_j, \Sigma_j \right \}_{j=1}^k$

【样本生成过程】

第 $i$ 个样本 $x^{(i)}$ 的产生过程

掷参数为 $\phi$ 的 $k$ 面骰子，为样本 $x^{(i)}$ 选择隐变量 $z^{(i)}$ ，对应概率 $P\left ( z^{(i)} \right )$ ，假设最终投掷的结果为 $z^{(i)}=3$

由多元高斯分布 $\mathcal{N}\left ( \mu_3, \Sigma_3 \right )$ 中采样出 $x^{(i)}$ ，对应概率 $P\left ( x^{(i)}\mid z^{(i)} \right )$

因为多了隐变量 $z^{(i)}$ ，而无法使用最大似然估计对求解参数

【EM算法】

E-Step：固定参数 $\phi$ ， $\mu$ ， $\Sigma$ ，计算每个样本分配到 $k$ 个类别的概率 $P\left ( z^{(i)}\mid x^{(i)} \right )$ ，这里涉及到贝叶斯公式，推导如下

$\begin{aligned}P(z\mid x)=\frac{P(x\mid z)P(z)}{P(x)}=\frac{P(x\mid z)P(z)}{\sum_\limits{z}P(x,z)}=\frac{P(x\mid z)P(z)}{\sum_\limits{z}P(x\mid z)P(z)}\end{aligned}$

$\begin{aligned}w_j^{(i)} &= P\left ( z^{(i)}=j \mid x^{(i)}; \phi,\mu,\Sigma \right ) \\ &= \frac{P\left ( x^{(i)} \mid z^{(i)}=j; \mu,\Sigma \right )P\left ( z^{(i)}=j; \phi \right )}{\sum_\limits{l=1}^{k}P\left ( x^{(i)} \mid z^{(i)}=l; \mu,\Sigma \right )P\left ( z^{(i)}=l; \phi \right )}\end{aligned}$

$w^{(i)}=\begin{bmatrix}w_1^{(i)} & w_2^{(i)} & \cdots & w_k^{(i)}\end{bmatrix}$ 称为对 $z^{(i)}$ 的“soft guess”

M-Step：由隐变量 $z^{(i)}$ 的“soft guess” $w^{(i)}$ ，使用最大似然估计求解参数 $\phi$ ， $\mu$ ， $\Sigma$

$\begin{aligned}\phi_j=\frac{1}{m}\sum_\limits{i=1}^{m}w_j^{(i)}\end{aligned}$

$\begin{aligned}\mu_j=\frac{\sum_\limits{i=1}^{m}w_j^{(i)}x^{(i)}}{\sum_\limits{i=1}^{m}w_j^{(i)}}\end{aligned}$ （和K-means中的更新cluster中心非常类似，只不过是带权重的）

$\begin{aligned}\Sigma_j=\frac{\sum_\limits{i=1}^{m}w_j^{(i)}\left ( x^{(i)}-\mu_j \right )\left ( x^{(i)}-\mu_j \right )^T}{\sum_\limits{i=1}^{m}w_j^{(i)}}\end{aligned}$

高斯混合模型学习完 $P(z)$ 和 $P(x|z)$ 之后，可以将样本分配到某个类别 $z$
$P(z|x)\propto P(z)P(x|z)$
由此可知，高斯混合模型也是一种聚类方法

【EM算法和K-means的关系】

相同点：每一轮迭代中都包含了2步，在EM算法中，分别是隐变量的“soft guess”和参数的最大化似然，在K-means算法中，分别是分配cluster和更新cluster中心，并且二者都易受局部最小值的影响，因此需要尝试不同的初始化方式

不同点：EM算法估计隐变量是“soft guess”，K-means分配cluster是“hard guess”

【Mixtures of Gaussians与高斯判别分析】

高斯判别分析建模 $P(x|y=0)$ 和 $P(x|y=1)$ ，而高斯混合模型建模的是 $P(x|z)$ ，使用一个随机变量 $z$ 替换了 $y$

如果 $z$ 是已知的，那么高斯混合模型就相当于高斯判别分析

但现在 $z$ 是不知道的，这就需要使用EM算法了

猜你喜欢