HMM的基本概念

HMM的变量定义

两个集合

长度为 $N$ 的隐状态集合 $Q = {q_{1}, q_{2}, . . ., q_{N}}$ $Q = \{q_1,q_2,...,q_N\}$
长度为 $M$ 的观测值集合 $V = {v_{1}, v_{2}, . . ., v_{M}}$ $V = \{v_1,v_2,...,v_M\}$

两个序列

长度为 $T$ 的隐状态序列 $I = {i_{1}, i_{2}, . . ., i_{T}}$ $I = \{i_1,i_2,...,i_T\}$
长度为 $T$ 的观测值序列 $O = {o_{1}, o_{2}, . . ., o_{T}}$ $O = \{o_1,o_2,...,o_T\}$

【注】：集合与序列的区别在于，前者是指不重复的类别个数（包括 $N$ 类隐状态、 $M$ 类观测值）；后者是指在 $T$ 个时间点上，各观测值 $o_t \in \{v_1,v_2,...,v_M\}$ 及其对应的隐状态 $i_t \in \{q_1,q_2,...,q_N\}$ 。

三个参数

状态转移概率矩阵（ $N \times N$ 阶）

$A = [a_{i j}]_{N \times N}$ $A = [a_{ij}]_{N×N}$ 其中， $aij=P(i_{t+1}=q_j | i_t=q_i)$ ，表示从时刻 $t \to t+1$ ，隐状态从 $q_i \to q_j$ 的概率， $i \in \{1,2,...,N\}$ ， $j \in \{1,2,...,N\}$ 。
观测概率/发射概率矩阵（ $N \times M$ 阶）
$B = [b_{j} (k)]_{N \times M}$ $B=[b_j(k)]_{N×M}$ 其中， $b_j(k)=P(o_t=v_k | i_t=q_j)$ ，表示时刻 $t$ 处于状态 $q_j$ 的条件下，生成的观测值为 $v_k$ 的概率， $j \in \{1,2,...,N\}$ ， $k \in \{1,2,...,M\}$ 。
初始状态概率向量
$π = (π_{i})$ $\pi = (\pi_i)$ 其中， $\pi = P(i_1=q_i)$ ，表示在初始时刻 $t=1$ ，各个状态的取值概率， $i \in \{1,2,...,N\}$ 。

【注】：HMM的隐状态必须是离散型变量，因此从时刻 $t \to t+1$ ，隐状态从 $i_t \to i_{t+1}$ 的转移概率必然是离散的，必然是由单个矩阵 $A_{N \times N}$ 表示；而观测值不一定非得是离散型变量，也有可能是连续型。简单起见，这里以离散型观测值为例，此时发射概率由单个矩阵 $B_{N \times M}$ 表示。

HMM的基本假设

两个假设

齐次马尔科夫假设

即假设隐藏的马尔科夫链在任意时刻 $t$ 的状态，只依赖于其前一时刻的状态，而与其他时刻的状态、观测无关，也与时刻 $t$ 无关：
$P (i_{t} | i_{1}, . . ., i_{t - 1}; o_{1}, . . ., o_{t - 1}) = P (i_{t} | i_{t - 1})$ $P(i_t | i_1,...,i_{t−1};o_1,...,o_{t−1}) = P(i_t | i_{t−1})$
其中， $t \in \{1,2,...,T\}$ 。
观测独立性假设

即假设任意时刻的观测，只依赖于该时刻的马尔科夫链的状态，而与其他观测、状态无关：
$P (o_{t} | o_{1}, . . ., o_{t - 1}, o_{t + 1}, . . ., o_{T}; i_{1}, . . ., i_{t - 1}, i_{t}, i_{t + 1}, . . ., i_{T}) = P (o_{t} | i_{t})$ $P(o_t | o_1,...,o_{t−1},o_{t+1},...,o_T;i_1,...,i_{t−1},i_t,i_{t+1},...,i_T)=P(o_t | i_t)$

HMM的基本问题

三个问题

概率计算问题（Forward-Backward algorithm）

给定模型参数 $\lambda = (A,B,\pi)$ 和观测序列 $O = (o_1,o_2,...,o_T)$ ，计算在模型 $\lambda$ 下，观测序列 $O$ 出现的概率：
$P (O | λ)$ $P(O | \lambda)$
参数学习问题（Baum-Welch algorithm）

已知观测序列 $O = (o_1,o_2,...,o_T)$ ，估计模型的参数 $\lambda = (A,B,\pi)$ ，使得在该模型下，观测序列概率 $P(O | \lambda)$ 最大，即用极大似然估计的方法估计参数：
$λ_{M L E} = \underset{λ}{a r g m a x} {P (O | λ)}$ $\lambda_{MLE} = \mathop{argmax}_{\lambda} \{P(O | \lambda)\}$
预测问题/解码问题（Viterbi algorithm）

已知模型 $\lambda = (A,B,\pi)$ 和观测序列 $O = (o_1,o_2,...,o_T)$ ，计算对于给定的观测序列，能够使条件概率 $P(I | O)$ 最大的状态序列 $I=(i_1,i_2,...,i_T)$ 。即给定观测序列，求最有可能的对应的状态序列：
$\underset{I}{a r g m a x} {P (I | O, λ)}$ $\mathop{argmax}_{I} \{P(I | O,\lambda)\}$

观测序列的生成过程

对于长度为 $T$ 的观测序列 $O = (o_1,o_2,...,o_T)$ ，其生成过程如下：

π \to i_{1} \to o_{1}

$\pi \to i_1 \to o_1$

i_{1} \to i_{2} \to o_{2}

$i_1 \to i_2 \to o_2$

i_{2} \to i_{3} \to o_{3}

$i_2 \to i_3 \to o_3$

. . .

$...$

i_{T - 1} \to i_{T} \to o_{T}

$i_{T−1} \to i_T \to o_T$