语言模型和n元语法 - 代码天地

语言模型和n元语法

其他 2018-08-28 12:36:43 阅读次数: 0

语言模型定义

语言模型用来构建字符串s的概率分布，即一个句子出现的概率。考虑句子中词语的联系，其句子出现的概率计算公式可以表示为：

认为第i个词出现的概率是由前面i-1个历史词决定的，这里使用频率来估计概率（这种估计概率值的方法称为极大似然估计，MLE）。在这种情况下，当i较大时，i-1个历史词的组合方式就很多，我们必须考虑所有i-1个历史词的所有组合方式和出现情况。假设词汇集大小1000，i=3,就有10亿种组合情况，导致几乎无法从训练数据集中正确估计出概率。这就是这种语言模型存在的问题，所以引入n元语法。

n元语法

n元语法是指在上述的语言模型中只考虑n-1个历史词的方法。一般n值不能太大，否则也会存在参数（组合情况）过多的问题。当n=1时，称为unigram，即词语i独立于历史；当n=2时，词语i的出现只与前面一个词有关，称为bigram；当n=3时，词语i的出现与前面两个词有关，称为trigram。以二元语法为例（bigram），记为：

为了保留句子开始和结尾的特殊意义，在句子开头和结尾分别加入<BOS>、<EOS>(就相当于是分别加了一个特殊词，参与计算)

《统计自然语言处理》书中的例子：

语言模型性能评价

语言模型通过对训练语料的统计，得到各个条件概率（称为模型的参数），这个过程称为模型的训练。可是如何评价训练得到的语言模型的能力呢？这里我们使用交叉熵（cross-entropy）和困惑度(perplexity)来评估。

测试数据集T，其中有句子t1,t2,t3.....

交叉熵

困惑度

其中，p(T）是整个测试集的概率，是测试集T中的总词数（包含<BOS>、<EOS>）。

一般情况下，交叉熵和困惑度越小越好，但具体值和文本的情况有关。

猜你喜欢

转载自blog.csdn.net/Torero_lch/article/details/81626072

语言模型和n元语法

语言模型及n元语法

自然语言处理之n元语法模型

《动手学深度学习》系列笔记 —— 语言模型（n元语法、随机采样、连续采样）

自然语言处理期末复习（1）n元模型

分词学习(3)，基于ngram语言模型的n元分词

N元模型

词向量的Distributed Representation与n元语法模型(n-gram model)

自然语言处理综论-第6章小结-N元语法

N元语言模型

N元语法模型的数据稀疏问题解决方法之一：Good-Turing平滑

CS224n | RNN和语言模型

DeepLearning笔记: 语言模型和 N-gram

学习笔记CB006:依存句法、LTP、n元语法模型、N-最短路径分词法、由字构词分词法、图论、概率论

N-gram 语言模型

N-gram语言模型

hanlp训练一元、二元语法模型

【深度学习】序列生成模型（三）：N元统计模型

人工智能-自然语言处理(NLP)：N-gram语言模型【用来判断一句话语法上是否通顺】 --＞语言模型的评估【Perplexity（困惑度） --＞利用语言模型生成新句子】

简单理解语言模型与N-gram语言模型

04 统计语言模型（n元语言模型）

Spark Mlib(五)用spark n元模型

语言模型和RNN CS244n 大作业 Natural Language Processing

cs224n RNN和语言模型（The Vanishing Gradient Issue）

人工智能自然语言处理：N-gram和TF-IDF模型详解

N-gram语言模型 & Perplexity & 平滑

n-gram语言模型及平滑算法

对语言模型N-gram的理解

N元语言模型的解码算法

N元语言模型的训练方法

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)