HMM的参数学习问题

HMM的参数学习问题有两种：

监督学习：给定观测序列 $O = (o_1,...,o_T)$ 和对应的状态序列 $I = (i_1,...,i_T)$ ，估计参数 $\lambda = (A,B,\pi)$ 。
非监督学习：只给定观测序列 $O = (o_1,...,o_T)$ ，估计参数 $\lambda = (A,B,\pi)$ 。

监督学习（极大似然直接估计）

监督学习通过使用训练数据，来得到观测序列和对应的隐状态。然后计算相应的频数值，作为参数的近似估计。

非监督学习（Baum-Welch算法迭代估计）

Baum-Welch算法的本质即EM算法，是用于含有隐向量的模型中，进行参数学习的迭代算法。回顾EM算法的核心，是按照 $\Theta^{(g+1)}$ 和 $\Theta^{(g)}$ 之间的等式关系：

Θ^{(g + 1)} = \underset{Θ}{a r g m a x} {Q (Θ, Θ^{(g)})} = \underset{Θ}{a r g m a x} \int_{z} P (Z | X, Θ^{(g)}) l o g P (X, Z | Θ) d z

$\Theta^{(g+1)} = \mathop{argmax}_{\Theta} \{ Q(\Theta, \Theta^{(g)}) \} = \mathop{argmax}_{\Theta} \int_z P(Z | X, \Theta^{(g)}) logP(X,Z | \Theta) dz$

不断更新参数，并且保证每一次更新，都能使对数似然函数逐渐增大。

在非监督学习的情况下，我们只有观测序列 $O = (o_1,...,o_T)$ ，而状态序列 $I$ 被视为不可观测的隐变量，此时HMM就是一个含有隐变量的概率模型：

P (O | λ) = \sum_{I} P (O | I, λ) P (I | λ)

$P(O | \lambda) = \sum_I P(O | I, \lambda) P(I | \lambda)$

扫描二维码关注公众号，回复： 2625487 查看本文章

此时的参数估计可以用EM算法实现。这里，参数 $\lambda$ 的迭代规则为：

λ^{(g + 1)} = \underset{λ}{a r g m a x} {Q (λ, λ^{(g)})} = \underset{λ}{a r g m a x} \int_{I} P (I | O, λ^{(g)}) l o g P (O, I | λ) d I

$\lambda^{(g+1)} = \mathop{argmax}_{\lambda} \{ Q(\lambda, \lambda^{(g)}) \} = \mathop{argmax}_{\lambda} \int_I P(I| O, \lambda^{(g)}) logP(O,I | \lambda) dI$

其中， $\lambda^{(g)}$ 是上一次迭代得到的参数， $\lambda^{(g+1)}$ 是下一次迭代更新的参数。

E-step

如上，在HMM中，求期望的公式为：

Q (λ, λ^{(g)}) = \int_{I} P (I | O, λ^{(g)}) l o g P (O, I | λ) d I = \sum_{I} P (I | O, λ^{(g)}) l o g P (O, I | λ)

$Q(\lambda, \lambda^{(g)}) = \int_I P(I| O, \lambda^{(g)}) logP(O,I | \lambda) dI = \sum_I P(I | O, \lambda^{(g)}) logP(O,I | \lambda)$

由于 $P(I| O, \lambda^{(g)}) = \frac{P(O,I | \lambda^{(g)})}{P(O | \lambda^{(g)})}$ ，注意 $\lambda^{(g)}$ 是一个常数，因此对于 $\lambda$ 来说， $\frac{1}{P(O | \lambda^{(g)})}$ 是一个常数因子，不会对 $argmax$ 的结果产生任何影响。因此， $Q$ 函数又可写为：

Q (λ, λ^{(g)}) = \sum_{I} P (O, I | λ^{(g)}) l o g P (O, I | λ)

$Q(\lambda, \lambda^{(g)}) = \sum_I P(O,I | \lambda^{(g)}) logP(O,I | \lambda)$

在HMM的概率计算问题-直接计算章节，已求得：

P (O, I | λ) = π_{i_{1}} \prod_{t = 1}^{T} b_{i_{t}} (o_{t}) \prod_{t = 1}^{T - 1} a_{i_{t} i_{t + 1}}

$P(O,I | \lambda) = \pi_{i_1} \prod_{t=1}^T b_{i_t}(o_t) \prod_{t=1}^{T-1}a_{i_t i_{t+1}}$

代入 $Q$ 函数并展开，记为式1：

$Q(\lambda, \lambda^{(g)}) = \sum_I P(O,I | \lambda^{(g)}) log[\pi_{i_1} \prod_{t=1}^T b_{i_t}(o_t) \prod_{t=1}^{T-1} a_{i_t i_{t+1}}]$

$= \sum_I P(O,I | \lambda^{(g)}) log\pi_{i_1} + \sum_I P(O,I | \lambda^{(g)}) \sum_{t=1}^T logb_{i_t}(o_t)+\sum_I P(O,I | \lambda^{(g)}) \sum_{t=1}^{T-1} loga_{i_t i_{t+1}}$

M-step

上述式1被展开为3项：它们分别包含了初始状态概率向量 $\pi_{i_1}$ 、观测概率矩阵的元素 $b_{i_t}(o_t)$ 、状态转移概率矩阵的元素 $a_{i_t i_{t+1}}$ ，可以分别用于估计参数 $\pi$ 、 $B_{N \times M}$ 、 $A_{N \times N}$ 。现在分别对每一项做最大化，求出下一步的迭代参数。

$\pi_{i_1}$

$\sum_I P(O,I | \lambda^{(g)}) log\pi_{i_1}$

$= \sum_{i_1}...\sum_{i_T} [P(O,I | \lambda^{(g)}) log\pi_{i_1}]$

$= \sum_{i_1} log\pi_{i_1} [\sum_{i_2}...\sum_{i_T} P(O,i_1,i_2,...,i_T | \lambda^{(g)})]$

$= \sum_{i_1} log\pi_{i_1} P(O,i_1 | \lambda^{(g)})$

$= \sum_{i = 1}^N log\pi_i P(O,i_1 = q_i | \lambda^{(g)})$

由于初始状态概率必须满足 $\sum_{i = 1}^N \pi_i = 1$ ，因此构造拉格朗日方程：

$L(\pi_i) = \sum_{i = 1}^N log\pi_i P(O,i_1 = q_i | \lambda^{(g)}) - \gamma (\sum_{i = 1}^N \pi_i - 1)$

分别对 $\pi_i$ 、 $\gamma$ 求偏导，并令其等于0：

$\frac {\partial L} {\partial \pi_i} = \frac{P(O,i_1 = q_i | \lambda^{(g)})}{\pi_i} - \gamma = 0$

$\frac {\partial L} {\partial \gamma} = -(\sum_{i = 1}^N \pi_i - 1) = 0$

联立解得：

π_{i}^{(g + 1)} = \frac{P (O, i_{1} = q_{i} | λ^{(g)})}{\sum_{i = 1}^{N} P (O, i_{1} = q_{i} | λ^{(g)})} = \frac{P (O, i_{1} = q_{i} | λ^{(g)})}{P (O | λ^{(g)})}

$\pi_i^{(g+1)} = \frac{P(O,i_1 = q_i | \lambda^{(g)})}{\sum_{i = 1}^N P(O,i_1 = q_i | \lambda^{(g)})} = \frac{P(O,i_1 = q_i | \lambda^{(g)})}{P(O | \lambda^{(g)})}$

$b_{i_t}(o_t)$

$\sum_I P(O,I | \lambda^{(g)}) \sum_{t=1}^T logb_{i_t}(o_t)$

$= \sum_I [P(O,I | \lambda^{(g)}) logb_{i_1}(o_1)+...+P(O,I | \lambda^{(g)}) logb_{i_T}(o_T)]$

$= \sum_I P(O,I | \lambda^{(g)}) logb_{i_1}(o_1) + ... + \sum_I P(O,I | \lambda^{(g)}) logb_{i_T}(o_T)$

$= \sum_{i=1}^N P(O,i_1=q_i | \lambda^{(g)}) logb_i(o_1) + ... + \sum_{i=1}^N P(O,i_T=q_i | \lambda^{(g)}) logb_i(o_T)$

$= \sum_{i=1}^N \sum_{t=1}^T P(O,i_t=q_i | \lambda^{(g)})logb_i(o_t)$

由于观测概率矩阵的行和均为 $1$ ，即必须满足 $N$ 个约束条件： $\sum_{k=1}^M b_i(o_t = v_k) = 1,i \in \{1,2,...,N\}$ ，因此构造拉格朗日方程：

$L(b_i(o_t)) = \sum_{i=1}^N \sum_{t=1}^T P(O,i_t=q_i | \lambda^{(g)}) logb_i(o_t) - \sum_{i=1}^N \gamma_i (\sum_{k=1}^M b_i(o_t = v_k) - 1)$

分别对 $b_i(o_t)$ 、 $\gamma_i$ 求偏导，并令其等于0：

【注】：只有在 $o_t = v_k$ 时， $b_i(o_t)$ 对 $b_i(v_k)$ 的偏导才不为零，以 $I(o_t = v_k)$ 表示。

$\frac {\partial L} {\partial b_i(o_t)} = \frac{\sum_{t=1}^T P(O,i_t=q_i | \lambda^{(g)})}{b_i(o_t)} - \sum_{i=1}^N\gamma_i = 0$

$\frac {\partial L} {\partial \gamma_i} = -(\sum_{k=1}^M b_i(o_t = v_k) - 1) = 0$

联立解得：

b_{i} (o_{t} = v_{k})^{(g + 1)} = \frac{\sum_{t = 1}^{T} P (O = v_{k}, i_{t} = q_{i} | λ^{(g)})}{\sum_{k = 1}^{M} \sum_{t = 1}^{T} P (O = v_{k}, i_{t} = q_{i} | λ^{(g)})}

$b_i(o_t = v_k)^{(g+1)} = \frac{\sum_{t=1}^{T} P(O=v_k,i_t = q_i | \lambda^{(g)})}{\sum_{k=1}^M \sum_{t=1}^{T} P(O=v_k,i_t = q_i | \lambda^{(g)})}$

= \frac{\sum_{t = 1}^{T} P (O, i_{t} = q_{i} | λ^{(g)}) I (o_{t} = v_{k})}{\sum_{t = 1}^{T} P (O, i_{t} = q_{i} | λ^{(g)})}

$= \frac{\sum_{t=1}^{T} P(O,i_t = q_i | \lambda^{(g)}) I(o_t = v_k)}{ \sum_{t=1}^{T} P(O,i_t = q_i | \lambda^{(g)})}$

$a_{i_t i_{t+1}}$

$\sum_I P(O,I | \lambda^{(g)}) \sum_{t=1}^{T-1} loga_{i_t i_{t+1}}$

$= \sum_I [P(O,I | \lambda^{(g)}) loga_{i_1 i_2} + ... + P(O,I | \lambda^{(g)}) loga_{i_{T-1} i_T}]$

$= \sum_I P(O,I | \lambda^{(g)}) loga_{i_1 i_2} + ... + \sum_I P(O,I | \lambda^{(g)}) loga_{i_{T-1} i_T}$

$= \sum_{i=1}^N \sum_{j=1}^N P(O,i_1 = q_i,i_2 = q_j | \lambda^{(g)}) loga_{ij} + ... + \sum_{i=1}^N \sum_{j=1}^N P(O,i_{T-1} = q_i,i_T = q_j | \lambda^{(g)}) loga_{ij}$

$= \sum_{i=1}^N \sum_{j=1}^N \sum_{t=1}^{T-1} P(O,i_t = q_i,i_{t+1} = q_j | \lambda^{(g)}) loga_{ij}$

由于状态转移概率矩阵的行和均为 $1$ ，即必须满足 $N$ 个约束条件 $\sum_{j=1}^N a_{ij} = 1,i \in \{1,2,...,N\}$ ，因此构造拉格朗日方程：

$L(a_{ij}) = \sum_{i=1}^N \sum_{j=1}^N \sum_{t=1}^{T-1} P(O,i_t = q_i,i_{t+1} = q_j | \lambda^{(g)}) loga_{ij} - \sum_{i=1}^N\gamma_i (\sum_{j=1}^N a_{ij} - 1)$

分别对 $a_{ij}$ 、 $\gamma_i$ 求偏导，并令其等于0：

$\frac {\partial L} {\partial a_{ij}} = \frac{\sum_{t=1}^{T-1} P(O,i_t = q_i,i_{t+1} = q_j | \lambda^{(g)})}{a_{ij}} - \sum_{i=1}^N\gamma_i = 0$

$\frac {\partial L} {\partial \gamma_i} = -(\sum_{j=1}^N a_{ij} - 1) = 0$

联立解得：

a_{i j}^{(g + 1)} = \frac{\sum_{t = 1}^{T - 1} P (O, i_{t} = q_{i}, i_{t + 1} = q_{j} | λ^{(g)})}{\sum_{j = 1}^{N} \sum_{t = 1}^{T - 1} P (O, i_{t} = q_{i}, i_{t + 1} = q_{j} | λ^{(g)})}

$a_{ij}^{(g+1)} = \frac{\sum_{t=1}^{T-1} P(O,i_t = q_i,i_{t+1} = q_j | \lambda^{(g)})}{ \sum_{j=1}^N \sum_{t=1}^{T-1} P(O,i_t = q_i,i_{t+1} = q_j | \lambda^{(g)})}$

= \frac{\sum_{t = 1}^{T - 1} P (O, i_{t} = q_{i}, i_{t + 1} = q_{j} | λ^{(g)})}{\sum_{t = 1}^{T - 1} P (O, i_{t} = q_{i} | λ^{(g)})}

$= \frac{\sum_{t=1}^{T-1} P(O,i_t = q_i,i_{t+1} = q_j | \lambda^{(g)})}{\sum_{t=1}^{T-1} P(O,i_t = q_i | \lambda^{(g)})}$