word2vex学习

中文文本转向量

首先介绍One-hot词向量方法：简单来讲，获取所有文本的词生成一个索引序列，一般索引序列的大小就是文本向量的大小，当然也可以去除词频比较低的词，生成一个指定大小的向量。

举个例子：（1）我在回家的路上。（2）我回家之后打游戏。

分词之后生成索引序列为 [回家，我，在，的，路上，之后，打，游戏]

文本（1）转为向量为（1，1，1，1，1，0，0，0）

文本（2）转为向量为（1，1，0，0，0，1，1，1）

One-hot向量存在两大缺陷：（1）词与词之间的关系是相互独立的，仅从向量中看不出两个词是否有关系。

（2）“维度灾难”，随着词数量的增加，生成文本向量的维度也会增加。

下面来介绍一下Word2Vec词向量表示法，它克服了one-hot编码的两大缺陷，优势在于将每一个词映射为一个固定长短的向量。

以下内容还在进一步学习。

Word2Vec算法原理：参考：https://blog.csdn.net/mpk_no1/article/details/72458003

CBOW模型在随机给出周围词向量的情况下，计算为该词的概率。通过使这个概率最大化，不断更新向量和。最终周围词的词向量 = 随机词向量 + 更新后的向量和。