构建语言模型（二）：模型训练与评估

本文针对Ngram语言模型的训练过程进行描述，针对神经网络在语言模型中的应用
不在本文范围之内，后续有兴趣可进行研究。

1. 训练工具

　　常用的LM训练工具有Srilm，IRSTLM，MITLM，Kenlm等。
　　
　　SRILM诞生于1995年，由SRI实验室负责开发维护。SRILM用来构建和应用统计语言模型，主要用于语音识别，统计标注和切分，以及机器翻译。其主要目标是支持语言模型的估计和评测。

split -d -C 100m trainfile.txt filedir/

 ls \$(echo $PWD)/filedir/* > filepath

 make-batch-counts filepath 1 cat ./counts1 -order 1
 merge-batch-counts ./counts1
 ...(脚本处理count1/*.ngram.gz => vocab1)

 make-batch-counts filepath 1 cat ./counts3 -order 3
 merge-batch-counts ./counts3

 make-big-lm -read counts3/*.ngrams.gz -vocab vocab1 -lm train.lm -order 3 [-interpolate -kndiscount]

训练得到的语言模型还可通过剪枝减小模型大小，或者合并多个语言模型。

ngram -lm \${oldlm} -order 3 -prune \${thres} -write-lm \${newlm}

　　其中，-prune threshold 删除一些ngram，满足删除以后模型的ppl增加比例小于threshold，越大剪枝剪得越狠。

ngram -lm \${mainlm} -order 3 -mix-lm \${mixlm} -lambda 0.8 -write-lm \${mergelm}

　　其中， -mix-lm 用于插值的第二个ngram模型，-lambda 主模型（-lm对应模型）的插值比例。

语言模型的评估可通过困惑度（preplexity）来进行，基本思想是给测试集的句子赋予较高概率值的语言模型较好。
这里写图片描述
由以上公式可知，困惑度越小，句子概率越大，语言模型越好。

计算ppl方法如下：

ngram -ppl testfile -order 3 -lm train.lm -debug 0 > file.ppl

其中testfile为测试文本， -debug 0 只对整体情况进行困惑度计算，-debug 1 具体到句子， -debug 2具体每个词的概率，最后将困惑度的结果输出到file.ppl。