(四)N-gram语言模型与马尔科夫假设

1、从独立性假设到联合概率链

朴素贝叶斯中使用的独立性假设为

\begin{matrix} (1) & P (x_{1}, x_{2}, x_{3}, . . ., x_{n}) = P (x_{1}) P (x_{2}) P (x_{3}) . . . P (x_{n}) \end{matrix}

$P(x_1,x_2,x_3,...,x_n)=P(x_1)P(x_2)P(x_3)...P(x_n) \tag{1}$
去掉独立性假设，有下面这个恒等式，即联合概率链规则

\begin{matrix} (2) & P (x_{1}, x_{2}, x_{3}, . . ., x_{n}) = P (x_{1}) P (x_{2} | x_{1}) P (x_{3} | x_{1}, x_{2}) . . . P (x_{n} | x_{1}, x_{2}, . . ., x_{n - 1}) \end{matrix}

$P(x_1,x_2,x_3,...,x_n)=P(x_1)P(x_2|x_1)P(x_3|x_1,x_2)...P(x_n|x_1,x_2,...,x_{n-1}) \tag{2}$
其中，

x_{i}

$x_i$ 代表一个词，联合概率链规则表示句子中每个词都跟前面一个词有关，而独立性假设则是忽略了一个句子中词与词之间的前后关系。

2、从联合概率链规则到n-gram语言模型

联合概率链规则是考虑了句子中每个词之间的前后关系，即第n个词 $x_n$ 与前面 $n-1$ 个词 $x_1,x_2,..,x_{n-1}$ 有关，而n-gram语言模型模型则是考虑了n个词语之间的前后关系，比如 $n=2$ 时（二元语法（bigram，2-gram）），第n个词 $x_n$ 与前面 $2-1=1$ 个词有关，即

\begin{matrix} (3) & P (x_{1}, x_{2}, x_{3}, . . ., x_{n}) = P (x_{1}) P (x_{2} | x_{1}) P (x_{3} | x_{2}) . . . P (x_{n} | x_{n - 1}) \end{matrix}

$P(x_1,x_2,x_3,...,x_n)=P(x_1)P(x_2|x_1)P(x_3|x_2)...P(x_n|x_{n-1}) \tag{3}$
比如

n = 3

$n=3$ 时（三元语法（trigram，3-gram）），第n个词

x_{n}

$x_n$ 与前面

3 - 1 = 2

$3-1=2$ 个词有关，即

\begin{matrix} (4) & P (x_{1}, x_{2}, x_{3}, . . ., x_{n}) = P (x_{1}) P (x_{2} | x_{1}) P (x_{3} | x_{1}, x_{2}) . . . P (x_{n} | x_{n - 2}, x_{n - 1}) \end{matrix}

$P(x_1,x_2,x_3,...,x_n)=P(x_1)P(x_2|x_1)P(x_3|x_1,x_2)...P(x_n|x_{n-2},x_{n-1}) \tag{4}$
公式（3）（4）即马尔科夫假设（Markov Assumption）：即下一个词的出现仅依赖于它前面的一个或几个词。

3、N-gram语言模型与马尔科夫假设

如果对向量 X 采用条件独立假设，就是朴素贝叶斯方法。
如果对向量 X 采用马尔科夫假设，就是N-gram语言模型。