HMM的概率计算问题

HMM的概率计算问题是指，给定模型参数 $\lambda = (A,B,\pi)$ 和观测序列 $O = (o_1,o_2,...,o_T)$ ，计算在模型 $\lambda$ 下，观测序列 $O$ 出现的概率： $P(O | \lambda)$ 。

直接计算

按概率公式直接计算，在贝叶斯框架下有：

P (O | λ) = \sum_{I} P (O, I | λ) = \sum_{I} P (O | I, λ) P (I | λ)

$P(O | \lambda) = \sum_{I} P(O,I | \lambda) = \sum_{I} P(O | I,\lambda)P(I | \lambda)$

其中， $P(O | I,\lambda)$ 是从 $i_t \to o_t$ ，由发射概率矩阵 $[b_j(k)]_{N \times M}$ 中获得：

$P(O | I,\lambda) =P(o_1 | i_1)...P(o_t | i_t)...P(o_T | i_T) = b_{i_1}(o_1)...b_{i_t}(o_t)...b_{i_T}(o_T)$ ，共 $T$ 项
$P(I | \lambda)$ 是从 $i_{t-1} \to i_t$ ，由转移概率矩阵 $[a_{ij}]_{N \times N}$ 和初始状态概率向量 $\pi$ 获得：

$P(I | \lambda) = \pi_{i_1}P(i_2 | i_1) ...P(i_t | i_{t-1})...P(i_T | i_{T-1}) = \pi_{i_1} a_{i_1 i_2}...a_{i_{t-1} i_t}...a_{i_{T-1} i_T}$ ，共 $T$ 项

两式代入计算得：

$P(O | \lambda) = \sum_{I} P(O,I | \lambda)$

$= \sum_{I} P(O | I,\lambda)P(I | \lambda)$

$= \sum_{I} [b_{i_1}(o_1)...b_{i_t}(o_t)...b_{i_T}(o_T)] \times [\pi_{i_1} a_{i_1 i_2}...a_{i_{t-1} i_t}...a_{i_{T-1} i_T}]$

$= \sum_{I} \pi_{i_1} \prod_{t=1}^T b_{i_t}(o_t) \prod_{t=1}^{T-1}a_{i_t i_{t+1}}$

由于 $\sum_{I} = \sum_{i_1}...\sum_{i_t}...\sum_{i_T}$ ，每个 $i_t$ 有 $N$ 种取值可能，故 $\sum_{I}$ 共有 $N^T$ 项，可知若按概率公式直接计算 $P(O | \lambda)$ ，计算量会很大。

前向算法（Forward Algorithm）

找出从时刻 $1 \to ... \to t \to ... \to T$ ，前向概率的递归关系：

前向概率

在观测时间点 $1,...,t,...,T$ 上，对应的观测值为 $o_1,...,o_t,...,o_T$ ，各隐状态分别为 $i_1,...,i_t,...,i_T$ 。

i_{1} \to . . . \to i_{t} \to . . . \to i_{T}

$i_1 \to ... \to i_t \to ...\to i_T$

o_{1} \to . . . \to o_{t} \to . . . \to o_{T}

$o_1 \to ... \to o_t \to ...\to o_T$

定义前向概率：

α_{t} (i) = P (o_{1}, . . ., o_{t}, i_{t} = q_{i} | λ)

$\alpha_t(i) = P(o_1,...,o_t,i_t = q_i | \lambda)$

它表示：截止到时刻 $t$ ，观测序列的值为 $o_1,o_2,...,o_t$ 、且 $t$ 时刻的状态为 $q_i$ 的概率。

递归过程的公式推导

根据定义，写出 $t=1$ 和 $t=2$ 的前向概率：

$\alpha_1(i) = P(o_1,i_1 = q_i | \lambda) = P(o_1 | i_1 = q_i, \lambda)P(i_1 = q_i | \lambda) = b_{i}(o_1) \pi_i$
$\alpha_2(j) = P(o_1,o_2,i_2 = q_j | \lambda)$
$= \sum_{i=1}^N P(o_1,o_2,i_1 = q_i,i_2 = q_j | \lambda)$
$= \sum_{i=1}^N P(o_2 | i_2 = q_j,\lambda)P(i_2 = q_j | i_1 = q_i,\lambda)P(o_1 | i_1 = q_i,\lambda) P(i_1 = q_i | \lambda)$
$= \sum_{i=1}^N b_j(o_2) a_{ij} \alpha_1$
$= b_j(o_2) \sum_{i=1}^N a_{ij} \alpha_1(i)$

. . .

$...$

递推得到 $\alpha_{t+1}(j)$ 与 $\alpha_t(i)$ 之间的关系：

α_{t + 1} (j) = b_{j} (o_{t + 1}) \sum_{i = 1}^{N} a_{i j} α_{t} (i)

$\alpha_{t+1}(j) = b_j(o_{t+1}) \sum_{i=1}^N a_{ij} \alpha_t(i)$

其中， $j \in \{1,2,...,N\}$ 。

对递归过程的直观理解

以 $t=1$ 和 $t=2$ 两个时刻为例，它们之间涉及到的观测值和隐状态有： $o_1$ 、 $o_2$ 、 $i_1$ 、 $i_2$ ：

i_{1} \to i_{2}

$i_1 \to i_2$

o_{1} \to o_{2}

$o_1 \to o_2$

当计算出 $\alpha_1(i) = P(o_1,i_1 = q_i | \lambda), i \in \{1,2,...,N\}$ 后，我们手上的信息有：在时刻 $t=1$ ，隐状态为 $q_1$ 且观测值为 $o_1$ 的概率 $\alpha_1(1)$ 、…、隐状态为 $q_N$ 且观测值为 $o_1$ 的概率 $\alpha_1(N)$ 。

而计算 $\alpha_2(j) = P(o_1,o_2,i_2 = q_j | \lambda), j \in \{1,2,...,N\}$ 意味着我们要求出：在时刻 $t=2$ ，隐状态为 $q_1$ 且过去两个观测值为 $o_1$ 、 $o_2$ 的概率 $\alpha_2(1)$ 、…、隐状态为 $q_N$ 且过去两个观测值为 $o_1$ 、 $o_2$ 的概率 $\alpha_2(N)$ 。

如何利用 $\alpha_1(i)$ 来计算 $\alpha_2(j)$ ？

对比我们已有的信息、待求的信息，发现我们需要确定的是观测值 $o_2$ ，而 $o_2$ 是通过 $i_2$ 决定（即 $b_{i_2}(o_2)$ ）， $i_2$ 又由 $i_1$ 确定（即 $a_{i_1 i_2}$ ）。因此，在每个 $\alpha_1(i)$ 的基础上，再加入 $b_{i_2}(o_2)$ 和 $a_{i_1 i_2}$ 这两个概率，就可求得 $\alpha_2(j)$ ：

α_{2} (j) = \sum_{i_{1} = 1}^{N} α_{1} (i) b_{i_{2}} (o_{2}) a_{i_{1} i_{2}}

$\alpha_2(j) = \sum_{i_1 = 1}^N \alpha_1(i) b_{i_2}(o_2) a_{i_1 i_2}$

稍作调整令 $i_1 = q_i, i_2 = q_j$ ，即可得：

α_{2} (j) = \sum_{i = 1}^{N} α_{1} (i) b_{j} (o_{2}) a_{i j} = b_{j} (o_{2}) \sum_{i = 1}^{N} α_{1} (i) a_{i j}

$\alpha_2(j) = \sum_{i = 1}^N \alpha_1(i) b_{j}(o_2) a_{ij} = b_j(o_2) \sum_{i=1}^N \alpha_1(i) a_{ij}$

意义

为什么要计算前向概率？

首先，前向概率可以帮助我们计算目标概率： $P(O | \lambda)$ 。根据定义， $t=T$ 时刻的前向概率为：

$α_{T} (i) = P (o_{1}, . . ., o_{T}, i_{T} = q_{i} | λ)$ $\alpha_T(i) = P(o_1,...,o_T,i_T = q_i | \lambda)$

因此， $P(O | \lambda) = \sum_{i=1}^N \alpha_T(i)$ 。
其次，由于递归关系的存在，计算前向概率的工作量，远小于概率公式直接计算。注意到， $i \in \{1,2,...,N\}$ 。因此，计算 $\alpha_1(i)$ 需进行 $N$ 次运算；计算 $\alpha_2(i)$ 需进行 $N$ 次累加；…；计算 $\alpha_T(i)$ 需进行 $N$ 次累加。最终进行了 $N \times T$ 次运算，远小于 $N^T$ 。
计算量减少的原因在于，每一次计算直接引用前一个时刻的计算结果，避免重复计算。

后向算法（Backward Algorithm）

找出从时刻 $T \to ... \to t \to ... \to 1$ ，后向概率的递归关系：

后向概率

在观测时间点 $1,...,t,...,T$ 上，对应的观测值为 $o_1,...,o_t,...,o_T$ ，各隐状态分别为 $i_1,...,i_t,...,i_T$ 。

i_{1} \to . . . \to i_{t} \to . . . \to i_{T}

$i_1 \to ... \to i_t \to ...\to i_T$

o_{1} \to . . . \to o_{t} \to . . . \to o_{T}

$o_1 \to ... \to o_t \to ...\to o_T$

定义后向概率：

β_{t} (i) = P (o_{t + 1}, . . ., o_{T} | i_{t} = q_{i}, λ)

$\beta_t(i) = P(o_{t+1},...,o_T | i_t = q_i, \lambda)$

它表示：在 $t$ 时刻的状态为 $q_i$ 的条件下，对于 $t$ 之后的所有时刻，观测序列的值为 $o_{t+1},o_{t+2},...,o_T$ 的概率。

递归过程的公式推导

根据定义，写出 $t=T$ 、 $t=T-1$ 和 $t=T-2$ 的后向概率：

$\beta_T(i) = 1$

【注】：初始值等于 $1$ 是因为，后向概率考量的是 $t$ 时刻之后（不包括 $t$ 时刻）的观测值序列，我们的观测序列只持续到时刻 $T$ ， $T$ 之后的观测值与状态都未知，所有的情况都是可能的，因此定义为 $1$ 。
$\beta_{T-1}(i) = P(o_T | i_{T-1} = q_i, \lambda)$
$= \sum_{k=1}^N P(o_T,i_T = q_k| i_{T-1} = q_i, \lambda)$
$= \sum_{k=1}^N P(o_T | i_T = q_k,\lambda) P(i_T = q_k | i_{T-1} = q_i, \lambda)$
$= \sum_{k=1}^N b_k(o_T) a_{ik}$
$\beta_{T-2}(j) = P(o_T,o_{T-1} | i_{T-2} = q_j, \lambda)$
$= \sum_{i=1}^N \sum_{k=1}^N P(o_T,o_{T-1},i_T=q_k,i_{T-1}=q_i | i_{T-2} = q_j, \lambda)$
$= \sum_{i=1}^N \sum_{k=1}^N P(o_T | i_T=q_k, \lambda) P(i_T=q_k | i_{T-1}=q_i, \lambda) P(o_{T-1} | i_{T-1}=q_i, \lambda) P(i_{T-1}=q_i | i_{T-2}=q_j, \lambda)$
$= \sum_{i=1}^N \beta_{T-1}(i) b_i(o_{T-1}) a_{ji}$

. . .

$...$

递推得到 $\beta_t(j)$ 与 $\beta_{t+1}(i)$ 之间的关系：

β_{t} (j) = \sum_{i = 1}^{N} β_{t + 1} (i) b_{i} (o_{t + 1}) a_{j i}

$\beta_t(j) = \sum_{i=1}^N \beta_{t+1}(i) b_i(o_{t+1}) a_{ji}$

其中， $j \in \{1,2,...,N\}$ 。

对递归过程的直观理解

以 $t = T-1$ 和 $t = T-2$ 两个时刻为例，它们之间涉及到的观测值和隐状态有： $o_{T-2}$ 、 $o_{T-1}$ 、 $o_T$ 、 $i_{T-2}$ 、 $i_{T-1}$ 、 $i_T$ ：

i_{T - 2} \to i_{T - 1} \to i_{T}

$i_{T-2} \to i_{T-1} \to i_T$

o_{T - 2} \to o_{T - 1} \to o_{T}

$o_{T-2} \to o_{T-1}\to o_T$

当计算出 $\beta_{T-1}(i) = P(o_T | i_{T-1} = q_i, \lambda), i \in \{1,2,...,N\}$ 后，我们手上的信息有：在时刻 $t = T-1$ ，隐状态为 $q_1$ 的条件下，后面时刻的观测值为 $o_T$ 的概率 $\beta_{T-1}(1)$ 、…、隐状态为 $q_N$ 的条件下，后面时刻的观测值为 $o_T$ 的概率 $\beta_{T-1}(N)$ 。

而计算 $\beta_{T-2}(j) = P(o_T,o_{T-1} | i_{T-2} = q_j, \lambda), j \in \{1,2,...,N\}$ 意味着我们要求出：在时刻 $t = T-2$ ，隐状态为 $q_1$ 的条件下，后面时刻的观测值为 $o_T$ 、 $o_{T-1}$ 的概率 $\beta_{T-2}(1)$ 、…、隐状态为 $q_N$ 的条件下，后面时刻的观测值为 $o_T$ 、 $o_{T-1}$ 的概率 $\beta_{T-2}(N)$ 。

如何利用 $\beta_{T-1}(i)$ 来计算 $\beta_{T-2}(j)$ ？

对比我们已有的信息、待求的信息，发现我们需要确定的是观测值 $o_{T-1}$ ，而 $o_{T-1}$ 是通过 $i_{T-1}$ 决定（即 $b_{i_{T-1}}(o_{T-1})$ ）， $i_{T-1}$ 又由 $i_{T-2}$ 确定（即 $a_{i_{T-2} i_{T-1}}$ ）。因此，在每个 $\beta_{T-1}(i)$ 的基础上，再加入 $b_{i_{T-1}}(o_{T-1})$ 和 $a_{i_{T-2} i_{T-1}}$ 这两个概率，就可求得 $\beta_{T-2}(j)$ ：

β_{T - 2} (j) = \sum_{i_{T - 1} = 1}^{N} β_{T - 1} (i) b_{i_{T - 1}} (o_{T - 1}) a_{i_{T - 2} i_{T - 1}}

$\beta_{T-2}(j) = \sum_{i_{T-1} = 1}^N \beta_{T-1}(i) b_{i_{T-1}}(o_{T-1}) a_{i_{T-2} i_{T-1}}$

稍作调整令 $t = T-2, t+1 = T-1, i_{T-1} = q_i, i_{T-2} = q_j$ ，即可得：

β_{t} (j) = \sum_{i = 1}^{N} β_{t + 1} (i) b_{i} (o_{t + 1}) a_{j i}

$\beta_{t}(j) = \sum_{i = 1}^N \beta_{t+1}(i) b_{i}(o_{t+1}) a_{ji}$

意义

为什么要计算后向概率？

首先，后向概率也可以帮助我们计算目标概率： $P(O | \lambda)$ 。根据定义， $t=1$ 时刻的后向概率为：

$β_{1} (i) = P (o_{2}, . . ., o_{T} | i_{1} = q_{i}, λ)$ $\beta_1(i) = P(o_2,...,o_T | i_1 = q_i, \lambda)$

此时 $\beta_1(i)$ 与目标概率 $P(O | \lambda)$ 相比，还差一个观测值 $o_1$ 。由于所有的观测都相互独立，在 $t=1$ 时刻、状态为 $q_i$ 的条件下，观测值 $o_1$ 出现的条件概率为：
$P (o_{1} | i_{1} = q_{i}, λ) = b_{i} (o_{1})$ $P(o_1 | i_1 = q_i, \lambda) = b_i(o_1)$

两式相乘，得到所有观测值 $O = (o_1,...,o_T)$ 在 $t=1$ 时刻、状态为 $q_i$ 条件下的联合概率：
$P (o_{1}, . . ., o_{T} | i_{1} = q_{i}, λ) = β_{1} (i) b_{i} (o_{1})$ $P(o_1,...,o_T | i_1 = q_i, \lambda) = \beta_1(i) b_i(o_1)$

因此，目标概率
$P (O | λ) = \sum_{i = 1}^{N} P (o_{1}, . . ., o_{T} | i_{1} = q_{i}, λ) P (i_{1} = q_{i} | λ) = \sum_{i = 1}^{N} β_{1} (i) b_{i} (o_{1}) π_{i}$ $P(O | \lambda) = \sum_{i=1}^N P(o_1,...,o_T | i_1 = q_i, \lambda) P(i_1 = q_i| \lambda ) = \sum_{i=1}^N \beta_1(i) b_i(o_1) \pi_i$
其次，后向概率与前向概率的计算量一样，最终进行了 $N \times T$ 次运算，都远远小于概率公式直接计算的 $N^T$ 项。

前向-后向算法（Forward-Backward Algorithm）

前向算法利用前向概率，从 $1 \to T$ 的方向计算 $P(O | \lambda)$ = $\sum_{i=1}^N \alpha_T(i)$

后向算法利用后向概率，从 $T \to 1$ 的方向计算 $P(O | \lambda)$ = $\sum_{i=1}^N \beta_1(i) b_i(o_1) \pi_i$

也可以同时用前向概率、后向概率计算 $P(O | \lambda)$ ：

$P(O | \lambda) = \sum_{i=1}^N P(O,i_t = q_i | \lambda)$

$= \sum_{i=1}^N P(O | i_t = q_i,\lambda) P(i_t = q_i | \lambda)$

$= \sum_{i=1}^N P(o_1,...,o_t | i_t = q_i,\lambda) P(o_{t+1},...,o_T | i_t = q_i,\lambda) P(i_t = q_i | \lambda)$

$= \sum_{i=1}^N P(o_1,...,o_t,i_t = q_i | \lambda) P(o_{t+1},...,o_T | i_t = q_i,\lambda)$

$= \sum_{i=1}^N \alpha_t(i) \beta_t(i)$

若利用后向概率的递推关系，替换 $\beta_{t}(i) = \sum_{j = 1}^N \beta_{t+1}(j) b_{j}(o_{t+1}) a_{ij}$ ，又有：

P (O | λ) = \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) β_{t + 1} (j) b_{j} (o_{t + 1}) a_{i j}

$P(O | \lambda) = \sum_{i=1}^N \sum_{j=1}^N \alpha_t(i) \beta_{t+1}(j) b_j(o_{t+1}) a_{ij}$

其他概率的计算

利用前向、后向概率，还可以进行其他的计算：

给定模型 $\lambda$ ，则观测序列为 $O=(o_1,...,o_T)$ 、且 $t$ 时刻的隐状态为 $q_i$ 的概率：

$P(O,i_t = q_i | \lambda) = \alpha_t(i) \beta_t(i)$
给定模型 $\lambda$ 和观测序列 $O=(o_1,...,o_T)$ ，则 $t$ 时刻的隐状态为 $q_i$ 的概率（单个状态）：

$P(i_t = q_i | O,\lambda) = \frac{P(O,i_t = q_i | \lambda)}{P(O | \lambda)} = \frac{\alpha_t(i) \beta_t(i)}{\sum_{j=1}^N \alpha_t(j) \beta_t(j)}$
给定模型 $\lambda$ 和观测序列 $O=(o_1,...,o_T)$ ，则 $t$ 时刻的隐状态为 $q_i$ 、且 $t+1$ 时刻的隐状态为 $q_j$ 的概率（两个状态）：

$P(i_t = q_i,i_{t+1} = q_j | O,\lambda) = \frac{P(O,i_t = q_i,i_{t+1} = q_j | \lambda)}{P(O | \lambda)} = \frac{\alpha_t(i) \beta_{t+1}(j) b_j(o_{t+1}) a_{ij}}{\sum_{i=1}^N \sum_{j=1}^N \alpha_t(i) \beta_{t+1}(j) b_j(o_{t+1}) a_{ij}}$