词的基本表示方式

其他 2019-02-28 14:59:34 阅读次数: 0

词的基本表示方式

词的两种表示方式

One-hot representation

将语料中的词汇去重之后的N个单词按照一定的顺序（字典序、出现顺序等）排列为长度为N的词汇表，则每一个单词都可以表示为一个长度为N的向量。该向量中，除了该词所在的分量为1，其余均为0。

例如，有语料库如下：
John likes to watch movies. Mary likes movies too.
John also likes to watch football games.
假设我们的词汇表排序结果如下：
{“John”: 1, “likes”: 2, “to”: 3, “watch”: 4, “movies”: 5, “also”:6, “football”: 7, “games”: 8, “Mary”: 9, “too”: 10}
那么则有如下word的向量表示：
John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
likes: [0, 1, 0, 0, 0, 0, 0, 0, 0 ,0]

缺点：
- 向量的维度会随着句子的词的数量类型增大而增大；
- 任意两个词之间都是孤立的，无法表示出词语词之间在语义层面上的相关性，这一点是致命的。

Distributed representation分布表示

核心思想：选择一种方式描述上下文以及选择一种模型刻画某个词（下文称“目标词”）与其上下文之间的关系。
分布表示包括基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示。

猜你喜欢

转载自blog.csdn.net/weixin_38075257/article/details/84667273

词的基本表示方式

【NLP】词的表示方式及word embeddings代码

词的表示

词的向量表示

词的分布表示

paddle词向量的表示

文本表示（词嵌入表示&词袋表示BOW）

文本表示（词和句子的表示方法）

词嵌入，词向量，语言表示

高级词向量表示

FastText词向量表示

wordcloud—词云的表示方法

JAVA进制的表示方式

图的分类及表示方式

二进制表示数的三种基本编码方式：原码，反码与补码。

词的数字化表示方法和词嵌入

自然语言处理——词的表示

GloVe词分布式表示

05词向量表示理论篇

NLP之文本表示-词袋模型

欢简述常见的语言表示模型（词嵌入、句表示、篇章表示）

常见颜色表示方式

时延信号的表示方式

逆波兰式表示方式

python中路径的表示方式

IP地址的表示方式与分类

云图(词云图)实现方式

70个基本的胶水词

css基本关键词

cs224n | 高级词向量表示

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)