【ASR-Tutorial】混合高斯模型

混合高斯模型

1. 高斯分布

如果连续标量随机变量 $x$ 概率密度函数为：
$p(x)=\frac{1}{(2\pi)^{1/2}\sigma}\exp[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2],\\ (-\inf<x<\inf;\sigma>0)$
则称 $x$ 服从高斯分布（或正态分布），记为：
$x\sim \mathcal{N}(\mu,\sigma^2)$
高斯分布的随机变量均值为 $\mu$ ，方差为 $\sigma^2$ 。

如果D维随机变量 $\bold{x}=(x_1,x_2,\cdots,x_D)^T$ 的联合概率密度函数为：
$p(\bold{x})=\frac{1}{(2\pi)^{D/2}|\bold{\Sigma}|^{1/2}}\exp[-\frac{1}{2}(\bold{x}-\bold{\mu})^T\bold{\Sigma}^{-1}(\bold{x}-\bold{\mu})],\\ (\bold{\mu}\in\mathcal{R}^D,\bold{\Sigma}\in\mathcal{R}^{D\times D})$
则称 $\bold{x}$ 服从D元高斯分布（或正态分布），记为：
$x\sim \mathcal{N}(\bold{\mu},\bold{\Sigma})$
均值为 $\bold{\mu}$ ， $\bold{\Sigma}$ 称为协方差矩阵。

由于大数定理的存在，很多实际问题中很多变量都可近似为高斯分布。

假设一个随机变量是从多个高斯分布中采样的，即：
$\begin{aligned} p(x)&=\sum\limits_{m=1}^{M}\frac{c_m}{(2\pi)^{1/2}\sigma_m}\exp[-\frac{1}{2}(\frac{x-\mu_m}{\sigma_m})^2]\\ &=\sum\limits_{m=1}^{M}c_m\mathcal{N}(x;\mu_m,\sigma_m^2) \end{aligned}$
其中 $c_m$ 为每个高斯分布所占权重，则称 $x$ 服从混合高斯分布（Gaussian Mixture Model，GMM）。

推广到多元混合高斯分布，则为：
$\begin{aligned} p(x)&=\sum\limits_{m=1}^{M}\frac{c_m}{(2\pi)^{D/2}|\bold{\Sigma}_m|^{1/2}}\exp[-\frac{1}{2}(\bold{x}-\bold{\mu}_m)^T\bold{\Sigma}_m^{-1}(\bold{x}-\bold{\mu}_m)]\\ &=\sum\limits_{m=1}^{M}c_m\mathcal{N}(\bold{x};\bold{\mu}_m,\bold{\Sigma}_m) \end{aligned}$
在语音识别中， $x$ 的维度很高，使用协方差矩阵将引入大量参数。为了减少参数量，可以采用以下优化方式：

所有分布共享同一个协方差矩阵
使用对角协方差矩阵

2. 参数估计

如果有一系列从混合高斯分布中采用的点，并且已知高斯分布的个数，则可用最大期望算法（Expectation Maximization，EM）对分布进行参数估计。

确定隐变量与似然函数

设想观测数据是这样产生的：

按照概率 $c_k$ 选择第k个高斯分布分模型 $\phi(y|\theta_k)$
按照 $\phi(y|\theta_k)$ 生成观测数据 $y_j$
重复N次生成N个观测数据

此时观测数据是已知的，但是反映观测数据 $y_j$ 来自哪一个分模型的参数是未知的，以隐变量 $\gamma_{jk}$ 表示，即：
$\gamma_{jk}= \begin{cases} 1,\;y_j\;from\;\phi(y|\theta_k)\\ 0,\;others \end{cases}$
故完全数据是：
$(y_j,\gamma_{j1},\gamma_{j2},\cdots,\gamma_{jK}),\;\;j=1,2,\cdots,N$
可以写出完全数据的似然函数：
$P(y,\gamma|\theta)=\prod\limits_{j=1}^NP(y_j,\gamma_{j1},\gamma_{j2},\cdots,\gamma_{jK}|\theta)\\ =\prod\limits_{k=1}^K\prod\limits_{j=1}^N[c_k\phi(y_j|\theta_k)]^{\gamma_{jk}}\\ =\prod\limits_{k=1}^Kc_k^{n_k}\prod\limits_{j=1}^N[\phi(y_j|\theta_k)]^{\gamma_{jk}}\\ =\prod\limits_{k=1}^Kc_k^{n_k}\prod\limits_{j=1}^N[\frac{1}{\sqrt{2\pi}\sigma_k}\exp(-\frac{(y_j-\mu_k)^2}{2\sigma_k^2})]^{\gamma_{jk}}$
其中， $n_k=\sum\limits_{j=1}^N\gamma_{jk},\sum\limits_{k=1}^Kn_k=N$ 。

完全数据的对数似然函数为：
$\log P(y,\gamma|\theta)=\sum\limits_{k=1}^K\{n_k\log c_k+\sum\limits_{j=1}^N\gamma_{jk}[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}$

E步：确定Q函数
$Q(\theta,\theta^{(i)})=E(\log P(y,\gamma|\theta)|y,\theta^{(i)})\\ =E\{\sum\limits_{k=1}^K\{n_k\log c_k+\sum\limits_{j=1}^N\gamma_{jk}[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}\}\\ =\sum\limits_{k=1}^K\{\sum\limits_{j=1}^NE(\gamma_{jk})\log c_k+\sum\limits_{j=1}^NE(\gamma_{jk})[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]\}$
其中
$\hat{\gamma}_{jk}=E(\gamma_{jk}|y,\theta)=P(\gamma_{jk}=1|y,\theta)\\ =P(\gamma_{jk}=1|y_j,\theta)\;\;(试验间相互独立？)\\ =\frac{P(\gamma_{jk}=1,y_j|\theta)}{P(y_j|\theta)}\\ =\frac{P(\gamma_{jk}=1,y_j|\theta)}{\sum\limits_{k=1}^KP(\gamma_{jk}=1|\theta)P(y_j|\gamma_{jk}=1,\theta)}\\ =\frac{P(\gamma_{jk}=1,y_j|\theta)}{\sum\limits_{k=1}^KP(\gamma_{jk}=1,y_j|\theta)}\;\;(选分模型和随机采样相互独立)\\ =\frac{P(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)}{\sum\limits_{k=1}^KP(\gamma_{jk}=1|\theta)P(y_j|\gamma_{jk}=1,\theta)}\\ =\frac{c_k\phi(y_j|\theta_k)}{\sum\limits_{k=1}^Kc_k\phi(y_j|\theta_k)}$
$\hat{\gamma}_{jk}$ 是当前模型参数下，第j个观测数据来自第k个分模型的概率，称为分模型k对观测数据 $y_j$ 的响应度。

故：
$Q(\theta,\theta^{(i)})=\sum\limits_{k=1}^K\{ {n_k\log c_k+\sum\limits_{j=1}^N\hat{\gamma}_{jk}[\log(\frac{1}{\sqrt{2\pi}})-\log\sigma_k-\frac{1}{2\sigma_k^2}(y_j-\mu_k)^2]}\}$
M步：确定参数迭代公式

求新一轮迭代的模型参数：

$\theta^{(i+1)}=\arg\max\limits_\theta Q(\theta,\theta^{(i)})$

对Q函数中各个参数求偏导数，并令其为0，得：
$\hat{\mu}_k=\frac{\sum\limits_{j=1}^N \hat{\gamma}_{jk}y_j}{\sum\limits_{j=1}^N\hat{\gamma}_{jk}}\\ \hat\sigma_k^2=\frac{\sum_{j=1}^N\hat\gamma_{jk}(y_j-\mu_k)^2}{\sum\limits_{j=1}^N\hat\gamma_{jk}}\\ \hat c_k=\frac{n_k}{N}=\frac{\sum\limits_{j=1}^N\hat\gamma_{jk}}{N}$

重复以上计算，知道对数似然函数值不再有明显变化为止。

3 GMM对语音特征建模

原始语音数据经过短时傅里叶变换形式或者取倒谱后会成为特征序列，在忽略时序信息的条件下，前文讨论的混合高斯分布就非常适合拟合这样的语音特征。也就是说，可以以帧（fame）为单位，用混合高斯模型（GMM）对语音特征进行建模。

在说话人识别中可以用GMM直接对所有说话人的语音特征分布建模，得到通用背景模型（ Universal background model，UBM）。
在语音特征降噪或噪声跟踪中，可以采用类似的做法，用GMM拟合一个先验分布。
在语音识别中，GMM被整合在HMM中，用来拟合基于状态的输出分布。

如果把语音顺序信息考虑进去，GMM便不再是一个好模型，因为它不包含任何顺序信息。而隐马尔可夫模型（Hidden Markov Model，HMM）可以对时序信息进行建模，当给定HMM的一个状态后，若要对属于该状态的语音特征向量的概率分布进行建模，GMM不失为一个好的模型。
使用GMM对HMM每个状态的语音特征分布进行建模，有许多明显的优势。只要混合的高斯分布数目足够多，GMM可以拟合任意精度的概率分布，并且它可以通过EM算法很容易拟合数据。

还有很多关于限制GMM复杂度的研究，一方面为了加快GMM的计算速度，另一方面希望能够找到模型复杂度与训练数据量间的最佳权衡。其中包括参数绑定、半绑定GMM与子空间GMM。

GMM参数通过EM算法的优化，可以使其在训练数据上生成语音观察特征的概率最大化。在此基础上，若通过鉴别性训练，基于GMM-HMM的语音识别系统的识别准确率可以得到显著提升。当所使用的鉴别性训练目标函数与音素错误率、字错误率或句子错误率密切相关时，这种提升更加显著。此外，通过在输入语音特征中加入由神经网络生成的联合特征或瓶颈特征，语音识别率同样可以得到提升。过去的很多年间，在语音特征的建模和语音识别中的声学模型的建模中，GMM一直有非常成功的应用（直到大概在2010年至2011年间，深度神经网络取得了更加准确的识别效果）。

尽管GMM有着众多优势，但它也有一个严重的不足。那就是GMM不能有效地对呈非线性或近似非线性的数据进行建模。举例来说，若对一系列呈球面的点阵建模，如果选择合适的模型，只需要很少的参数，但对GMM来讲，却需要非常多的对角高斯分布或相当多的全协方差高斯分布。众所周知，语音是由调节动态系统中相对少的参数来产生的。这意味着隐藏在语音特征下的真正结构的复杂度，比直接描述现有特征（一个短时傅里叶窗就包含数百个系数）的模型要小得多。因而，我们期待有其他更好的模型，能够更好地捕获语音特性，使其作为语音声学模型的能力比GMM更好。特别是，比起GMM，这种模型要能更加有效地挖掘隐藏在长窗宽语音帧中的信息。