统计学习方法笔记（十四）隐马尔可夫模型（二）

概率计算算法

一、直接计算法
此种算法想要直接通过概率公式进行计算，首先求出状态序列与观测序列的联合概率密度 $P(O,I|\lambda )$ ，之后对所有可能的状态序列进行求和，即可得到 $P(O|\lambda )$ ，即利用如下公式：
$P(I|\lambda ) = {\pi _{{i_1}}}{a_{{i_1}{i_2}}}{a_{{i_2}{i_3}}} \cdots {a_{{i_{T - 1}}{i_T}}}$
$P(O|I,\lambda ) = {b_{{i_1}}}({o_1}){b_{{i_2}}}({o_2}) \cdots {b_{{i_T}}}({o_T})$

\begin{array}{l} P (O, I | λ) = P (O | I, λ) P (I | λ) \\ = π_{i_{1}} b_{i_{1}} (o_{1}) a_{i_{1} i_{2}} b_{i_{2}} (o_{2}) \dots a_{i_{T - 1} i_{T}} b_{i_{T}} (o_{T}) \end{array}

$\begin{array}{l} P(O,I|\lambda ) = P(O|I,\lambda )P(I|\lambda )\\ = {\pi _{{i_1}}}{b_{{i_1}}}({o_1}){a_{{i_1}{i_2}}}{b_{{i_2}}}({o_2}) \cdots {a_{{i_{T - 1}}{i_T}}}{b_{{i_T}}}({o_T}) \end{array}$
然而，此种算法计算量太大，不可实现。
二、前向算法
给定隐马尔可夫模型，定义到时刻t部分观测序列且状态为某个状态的概率为前向概率，记为：

α_{t} (i) = P (o_{1}, o_{2}, \dots, o_{t}, i_{t} = q_{i} | λ)

${\alpha _t}(i) = P({o_1},{o_2}, \cdots ,{o_t},{i_t} = {q_i}|\lambda )$
前向算法：
输入：隐马尔可夫模型，观测序列
输出：观测序列概率
（1）初值：

α_{1} (i) = π_{i} b_{i_{1}} (o_{1})

${\alpha _1}(i) = {\pi _i}{b_{{i_1}}}({o_1})$
（2）递推：

α_{t + 1} (i) = [\sum_{j = 1}^{N} α_{t} (j) a_{j i}] b_{i} (o_{t + 1})

${\alpha _{t + 1}}(i) = \left[ {\sum\limits_{j = 1}^N {{\alpha _t}(j){a_{ji}}} } \right]{b_i}({o_{t + 1}})$
（3）终止：

P (O | λ) = \sum_{i = 1}^{N} α_{T} (i)

$P(O|\lambda ) = \sum\limits_{i = 1}^N {{\alpha _T}(i)}$
三、后向算法
当模型确定且t时刻的状态确定时，从t+1到T的部分观测序列为

o_{t + 1}, o_{t + 2}, \dots, o_{T}

${o_{t + 1}},{o_{t + 2}}, \cdots ,{o_T}$ 的概率为后向概率，为：

β_{t} (t) = P (o_{t + 1}, o_{t + 2}, \dots, o_{T} | i_{t} = q_{i}, λ)

${\beta _t}(t) = P({o_{t + 1}},{o_{t + 2}}, \cdots ,{o_T}|{i_t} = {q_i},\lambda )$
输入：隐马尔可夫模型，观测序列
输出：观测序列概率
（1）

β_{T} (i) = 1, i = 1, 2, \dots, N

${\beta _T}(i) = 1,\;\;\;\;i = 1,2, \cdots ,N$
（2）

β_{t} (i) = \sum_{j = 1}^{N} a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)

${\beta _t}(i) = \sum\limits_{j = 1}^N {{a_{ij}}{b_j}({o_{t + 1}}){\beta _{t + 1}}(j)}$
（3）

P (O | λ) = \sum_{i = 1}^{N} π_{i} b_{i} (o_{1}) β_{1} (i)

$P(O|\lambda ) = \sum\limits_{i = 1}^N {{\pi _i}{b_i}({o_1}){\beta _1}(i)}$
四、一些概率与期望的计算
1、定义

γ_{t} (i) = P (i_{t} = q_{i} | O, λ)

${\gamma _t}(i) = P({i_t} = {q_i}|O,\lambda )$ ，则有：

γ_{t} (i) = \frac{α_{t} (i) β_{t} (i)}{\sum_{j = 1}^{N} α_{t} (j) β_{t} (j)}

${\gamma _t}(i) = \frac{{{\alpha _t}(i){\beta _t}(i)}}{{\sum\limits_{j = 1}^N {{\alpha _t}(j){\beta _t}(j)} }}$
2、定义

ξ_{t} (i, j) = P (i_{t} = q_{i}, i_{t + 1} = q_{j} | O, λ)

${\xi _t}(i,j) = P({i_t} = {q_i},{i_{t + 1}} = {q_j}|O,\lambda )$ ，则有：

ξ_{t} (i, j) = \frac{α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (i)}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (i)}

${\xi _t}(i,j) = \frac{{{\alpha _t}(i){a_{ij}}{b_j}({o_{t + 1}}){\beta _{t + 1}}(i)}}{{\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _t}(i){a_{ij}}{b_j}({o_{t + 1}}){\beta _{t + 1}}(i)} } }}$
3、期望
在观测O下状态i出现的期望值：

\sum_{t = 1}^{T} γ_{t} (i)

$\sum\limits_{t = 1}^T {{\gamma _t}(i)}$
在观测O下由状态i转移的期望值：

\sum_{t = 1}^{T - 1} γ_{t} (i)

$\sum\limits_{t = 1}^{T - 1} {{\gamma _t}(i)}$
在观测O下由状态i转移到状态j的期望值：

\sum_{t = 1}^{T - 1} ξ_{t} (i, j)

$\sum\limits_{t = 1}^{T - 1} {{\xi _t}(i,j)}$

学习算法

一、监督学习方法
已给训练数据包括S个长度相同的观测序列和对应的状态序列，利用极大似然估计来估计隐马尔可夫模型的参数
1、转移概率的估计： ${\widehat a_{ij}} = \frac{{{A_{ij}}}}{{\sum\limits_{j = 1}^N {{A_{ij}}} }}$
2、观测概率的估计： ${\widehat b_j}(k) = \frac{{{B_{jk}}}}{{\sum\limits_{k = 1}^M {{B_{jk}}} }}$
3、初始状态概率 ${\pi _i}$ 为S个样本中初始状态为 $q_i$ 的频率
二、Baum-Welch算法
训练数据只包括S个长度为T的观测序列，目标是学习隐马尔可夫模型的参数，将观测序列数据看作观测数据O，状态序列数据看作不可观测的隐数据I，则模型变为： $P(O|\lambda ) = \sum\limits_I {P(O|I,\lambda )P(I|\lambda )}$
1、确定完全数据的对数似然函数
$\log P(O,I|\lambda )$
2、E步：求Q函数
$Q(\lambda ,\overline \lambda ) = \sum\limits_I {\log P(O,I|\lambda )P(O,I|\overline \lambda )}$
M步：求极大
具体算法：
输入：观测数据
输出：隐马尔可夫模型参数
（1）初始化
对n=0选取 $a_{ij}^{(0)},{b_j}{(k)^{(0)}},\pi _i^{(0)}$ 得到模型 ${\lambda ^{(0)}} = ({A^{(0)}},{B^{(0)}},{\pi ^{(0)}})$
（2）递推
$a_{ij}^{(n + 1)} = \frac{{\sum\limits_{t = 1}^{T - 1} {{\xi _t}(i,j)} }}{{\sum\limits_{t = 1}^{T - 1} {{\gamma _t}(i)} }}$
${b_j}{(k)^{(n + 1)}} = \frac{{\sum\limits_{t = 1,{o_t} = {v_k}}^T {{\gamma _t}(j)} }}{{\sum\limits_{t = 1}^T {{\gamma _t}(i)} }}$
$\pi _i^{(n + 1)} = {\gamma _1}(i)$
（3）终止
得到模型参数 ${\lambda ^{(n + 1)}} = ({A^{(n + 1)}},{B^{(n + 1)}},{\pi ^{(n + 1)}})$