动手学深度学习——语言模型 - 代码天地

动手学深度学习——语言模型

其他 2020-04-21 13:38:32 阅读次数: 0

语言模型

一段自然语言文本可以看作是一个离散时间序列，给定一个长度为 $T$ 的词的序列 ${\omega_{1},\omega_{2},...,\omega_{T}}$ ，语言模型的目标就是评估该序列是否合理，即计算该序列的概率。假设序列的每个词是依次生成的，则：
$P(\omega_{1},\omega_{2},...,\omega_{T})=\Pi_{t=1}^{T}P(\omega_{t} | \omega_{1},...,\omega_{t-1})=P(\omega_{1})P(\omega_{2} | \omega_{1})...P(\omega_{T} | \omega_{1}\omega_{2}...\omega_{T-1})$
语言模型的参数就是词的概率以及给定前几个词情况下的条件概率。设训练数据集为一个大型文本语料库，如维基百科的所有条目，词的概率可以通过该词在训练数据集中的相对词频来计算，例如, $\omega_{1}$ 的概率可以计算为：
$\hat{P}(\omega_{1}) = \frac{n(\omega_{1})}{n}$
其中 $n(\omega_{1})$ 为语料库中以\omega_{1}作为第一个词的文本的数量， $n$ 为语料库中文本的总数量。
$\hat{P}(\omega_{2} | \omega_{1}) = \frac{n(\omega_{1},\omega_{2})}{n(\omega_{1})}$
其中 $n(\omega_{1},\omega_{2})$ 为语料库中以 $\omega_{1}$ 作为第一个词， $\omega_{2}$ 作为第二个词的文本的数量。

时序数据的采样

时序数据的采样有两种：随机采样和相邻采样。

（1）随机采样
每次迭代中随机采样一个小批量作为训练数据。在随机采样中，每个样本是原始序列上任意截取的一段序列，相邻的两个随机小批量在原始序列上的位置不一定相毗邻。
（2）相邻采样
在相邻采样中，相邻的两个随机小批量在原始序列上的位置相毗邻。

伸腿瞪眼丸

发布了19 篇原创文章 · 获赞 17 · 访问量 1463

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43839651/article/details/104319384

动手学深度学习——语言模型

《动手学深度学习》系列笔记 —— 语言模型（n元语法、随机采样、连续采样）

文本分类语言模型-《动手学深度学习pytorch》

动手学深度学习（七、语言模型与循环神经网络）

语言模型language models 动手学深度学习v2

动手学深度学习之数据增强、模型微调

CNN模型-《动手学深度学习pytorch》

动手学深度学习(PyTorch实现)(七)--LeNet模型

动手学深度学习(PyTorch实现)(十一)--GoogLeNet模型

动手学深度学习(PyTorch实现)(十)--NiN模型

动手学深度学习(PyTorch实现)(十三)--ResNet模型

动手学深度学习(PyTorch实现)(八)--AlexNet模型

动手学深度学习(PyTorch实现)(九)--VGGNet模型

动手学深度学习——softmax与分类模型

ElitesAI·动手学深度学习PyTorch版学习笔记-文本预处理；语言模型；循环神经网络基础

《动手学深度学习》笔记 Task02：文本预处理；语言模型；循环神经网络基础

动手学深度学习（四、深度学习计算--模型构造）

动手学深度学习小记

动手学深度学习环境配置

动手学深度学习笔记--autograd

动手学深度学习笔记---ndarray

动手学深度学习--TextCNN

动手学深度学习 2

《动手学深度学习》在线文档

《动手学深度学习笔记》

动手学深度学习（Pytorch）

动手学深度学习之lenet

transformer(动手学深度学习）

Datawhale《动手学深度学习》

Datawhale 《动手学深度学习》(二)

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)