词的基本表示方式

词的基本表示方式

词的两种表示方式

One-hot representation

  • 将语料中的词汇去重之后的N个单词按照一定的顺序(字典序、出现顺序等)排列为长度为N的词汇表,则每一个单词都可以表示为一个长度为N的向量。该向量中,除了该词所在的分量为1,其余均为0。

例如,有语料库如下:
John likes to watch movies. Mary likes movies too.
John also likes to watch football games.
假设我们的词汇表排序结果如下:
{“John”: 1, “likes”: 2, “to”: 3, “watch”: 4, “movies”: 5, “also”:6, “football”: 7, “games”: 8, “Mary”: 9, “too”: 10}
那么则有如下word的向量表示:
John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
likes: [0, 1, 0, 0, 0, 0, 0, 0, 0 ,0]

  • 缺点:
    • 向量的维度会随着句子的词的数量类型增大而增大;
    • 任意两个词之间都是孤立的,无法表示出词语词之间在语义层面上的相关性,这一点是致命的。

Distributed representation分布表示

  • 核心思想:选择一种方式描述上下文以及选择一种模型刻画某个词(下文称“目标词”)与其上下文之间的关系。
  • 分布表示包括基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示。

猜你喜欢

转载自blog.csdn.net/weixin_38075257/article/details/84667273