深度学习-->NLP-->语言模型

从本篇博文开始总结 $NLP$ 相关知识。

概率语言模型 $(Statistical\ Language\ Model)$

${p}(sentence)={p}({w}_{1},{w}_{2},..,{w}_{n})$

$\sum_{sentence\in L}^{}{p}(sentence)=1$ （相加之和为１，非常重要）

例如：

输入法: $P$ (隔壁老王) > $P$ (隔壁老张)
机器翻译:
$I\ have\ a\ dream$
$P$ (我有个梦想) > $P$ (我有只梦想)
语音识别:
$P$ (我向你汇报) > $P$ (我象你汇报)

核心：所以语言模型一般指的是概率语言模型，通过分数来告诉机器怎么说人话。

N-gram 语言模型

$N-gram$ 模型是语言模型里面最经典的模型之一。

计算 $p({w}_{1},{w}_{2},...,{w}_{n})$
利用链式法则：

p (A, B, C) = p (A) p (B | A) p (C | A, B)

$p(A,B,C)=p(A)p(B|A)p(C|A,B)$

可得：

p (w 1, w 2, . . ., w n) = p (w 1) p (w 2 | w 1) . . . p (w n | w 1, w 2, . . ., w n - 1)

$p({w}_{1},{w}_{2},...,{w}_{n})=p({w}_{1})p({w}_{2}|{w}_{1})...p({w}_{n}|{w}_{1},{w}_{2},...,{w}_{n-1})$

马尔可夫 $(Markov)$ 假设:

“无记忆性”: 未来的事件,只取决于有限的历史。

基于马尔科夫假设计算 $p({w}_{5}|{w}_{4},{w}_{3},{w}_{2},{w}_{1})$ ，有三种版本的结果。

$unigram$ ： $p({w}_{5})$

$bigram$ ： $p({w}_{5}|{w}_{4})$

$trigram$ ： $p({w}_{5}|{w}_{4},{w}_{3})$

我们以 $bigram$ 为例，计算 $p({w}_{1},{w}_{2},...,{w}_{n})=p({w}_{1}|start)p({w}_{2}|{w}_{1})...p({w}_{n}|{w}_{n-1})p(EOS|{w}_{n})$

显然引入马尔科夫假设，会使得模型变得简单，参数个数减少。

这里写图片描述

语言模型的评价

$Perplexity$

测试集的能力
语言模型 ⬆-> $P(test\ set)$ ⬆ -> $Perplexity(test\ set)$ ⬇

W t e s t = {w 1, w 2, . . ., w n; w i \in V}

${W}_{test}=\{{w}_{1},{w}_{2},...,{w}_{n};{w}_{i}\in V\}$

P e r p l e x i t y (W t e s t) = 2 - 1 n \sum N i = 1 l o g 2 q (w i)

$Perplexity({W}_{test})={2}^{-\frac{1}{n}\sum_{i=1}^{N}{log}_{2}q({w}_{i})}$

$q({w}_{i})$ 表示模型对每个词的预测概率。

理解 $Perplexity$

这里写图片描述

$-{log}_{2}p({v}_{i})$ ：如果用概率 $p$ 来编码 ${v}_{i}$ ，需要多少比特。
$-\sum_{i=1}^{|V|}\hat{p}({v}_{i}){log}_{2}q({v}_{i})$ ：表示 ${v}_{i}$ 服从 $p$ ， $q$ 来编码 ${v}_{i}$ 比特数的期望。
${2}^{-\frac{1}{n}\sum_{i=1}^{N}{log}_{2}q({w}_{i})}$ ， $W_{test}$ 的等效状态数目。

$Perplexity$ 越小表示预测正确的概率越大。

$OOV(Out\ of\ Vocab)$

以 $Trigram\ Model$ 为例：

p (w i | w i - 1, w i - 2) = c o u n t ( w i - 2 , w i - 1 , w i ) c o u n t ( w i - 2 , w i - 1 )

$p({w}_{i}|{w}_{i-1},{w}_{i-2})=\frac{count({w}_{i-2},{w}_{i-1},{w}_{i})}{count({w}_{i-2},{w}_{i-1})}$

这里写图片描述

那么有人可能要问：为什么上面公式成立？

这里写图片描述

下面我们以上面这个训练集为例，利用最大似然估计 的方法来证明上式成立。

$max\ log(L({D}_{Train}))=log(\prod_{i}^{}p({w}_{i}|{w}_{i-1},{w}_{i-2}))=\sum_{i}^{}log(p({w}_{i}|{w}_{i-1},{w}_{i-2}))$

我们以首字符举例

约束条件：

p (我 | -, -) + p (你 | -, -) = 1

$p(我|-,-) + p(你|-,-) = 1$

由拉格朗日乘子法：

L = 3 * l o g (p (我 | -, -)) + l o g (p (你 | -, -)) + l a m b d a * (p (我 | -, -) + p (你 | -, -) - 1)

$L = 3*log(p(我|-,-)) + log(p(你|-, -)) + lambda * (p(我|-,-) + p(你|-,-) - 1)$

L对参数的导数等于零：

d L d ( p ( 我 | - , - ) ) = 0 ； d L d ( p ( 你 | - , - ) ) = 0 ； d L d ( l a m b d a ) = 0

$\frac{dL}{d(p(我|-,-))} = 0； \frac{dL}{d(p(你|-,-))}= 0； \frac{dL}{d(lambda)}= 0$

得：

3 / p (我 | -, -) + l a m b d a = 0;

$3 / p(我|-,-) + lambda = 0;$

1 / p (你 | -, -) + l a m b d a = 0;

$1 / p(你|-,-) + lambda = 0;$

p (我 | -, -) + p (你 | -, -) - 1 = 0

$p(我|-,-) + p(你|-,-) – 1 = 0$

可计算得出：

P (我 | -, -) = 3 3 + 1 = c o u n t ( - , - , 我 ) c o u n t ( - , - , 我 ) + c o u n t ( - , - , 你 )

$P(我|-,-) = \frac{3} {3 + 1} = \frac{count(-,-,我)}{count(-,-,我) + count(-,-,你)}$

假设我们现在由训练集得出一个模型 $p$ ，现在由模型给测试集中的”我喜欢　王者荣耀”打分。

$P$ (王者荣耀|我喜欢) = $0$ ( $Training$ 中来没有出现的词)－-> $OOV (Out\ of\ Vocabulary)$

按照上面的计算公式 $P$ (王者荣耀|我喜欢) = 0，显然不合理，训练集中没出现”王者荣耀”并不能代表就不喜欢？

同理：
$P$ (编程|我喜欢) = $0$ ( $Training$ 中没有出现的 $trigram$ )–>Smoothing

那么如何解决 $OOV$ 问题呢？

假设 $Training\ Set$ 中出现了 $|V'|$ 个不同的词汇,那么我们根据词频选择词频最高的 $|V|$ 个词汇作为我们的词汇集 $V$ 。
在 $Training$ 和 $Testing$ 中,将不属于 $V$ 的词汇都替换成特殊词汇 $UNK$ 。

这里写图片描述

$V'=$ {我喜欢开车上网篮球编程}
$V =$ {我喜欢开车上网编程 }

$P(王者荣耀|我喜欢) = P(UNK|我喜欢) = count(我喜欢 UNK) / count(我喜欢) = 1 / 3 = 0.333$

平滑方法

$Training$ 中没有出现的 $trigram$ ，就是在训练集中没出现这种组合。

共有以下几种方法解决：

+1 平滑
$Back-off$ 回退法
$Interpolate$ 插值法
$Absolute\ Discount$
$Kneser-Ney\ Smoothing$
$Modified\ Kneser-Ney\ Smoothing$ (最优的方法)

+1 平滑

这里写图片描述

该平滑方法在别的分类问题中可能有用，但是在语言模型中表现一般，基本上不用。

$Back-off$ 回退法

这里写图片描述

$Count$ (我喜欢编程) = 0，但是 $count$ (喜欢编程) > 0

使用 $Trigram$ 如果 $count(trigram)$ 不满足条件，则使用 $Bigram$ ;再否则使用 $Unigram$ ;

因为之前已经解决了 $OOV$ 问题，所以 $Unigram$ 不可能为０。

Interpolate 插值法

将 $Trigram, Bigram, Unigram$ 线性组合起来：

这里写图片描述

这里面的参数如何得出？同理使用极大似然估计得：

这里写图片描述

$log$ 里面只有几个参数的和求导之后,各个参数耦合在一起。EM 算法来解决。

更进一步：

这里写图片描述

根据不同的上下文,选择不同的参数。显然这样处理 $Perplexity$ 变小，　

Absolute Discounting “绝对折扣”

这里写图片描述

${w}^{i-1}_{i-n+1}$ 表示 ${w}_{i-n+1}$ 到 ${w}_{i-1}$ 的 $n\_gram$ 。显然由公式可知在这种平滑方法中，计算结果和 ${P}_{abs}({w}_{i}|{w}^{i-1}_{i-n+2})$ 有很大关系。

Kneser-Ney Smoothing

这里写图片描述

有钱的,每个人固定的税 D, 建立一个基金；没钱的,根据 $n-1\_gram$ 的“交际广泛”的程度来分了这个基金。

Modified Kneser-Ney Smoothing

这里写图片描述

有钱的,每个人根据自己的收入交不同的税D, 类似于阶梯税，建立一个基金；没钱的,根据 $n-1\_gram$ “交际广泛”的程度来分了这个基金。

总结

这里写图片描述