Keras深度学习实战(24)——从零开始构建单词向量

0. 前言

在解决文本相关问题时,传统方法通常需要对单词进行独热编码。但是,如果数据集中具有数千个不同的单词,则生成的独热编码矢量将具有数千个维度,这会导致计算代价十分高昂。此外,在这种情况下,相似的单词并不具备相似的向量。因此,我们需要研究如何对文本数据进行编码,以使相似的数据具有相似的编码向量。

1. 单词向量

1.1 Word2Vec 原理

Word2Vec 是一种可以将相似单词编码为相似向量的方法。在了解 Word2Vec 原理之前,我们首先考虑以下问题,假设我们有以下输入句子:

 

猜你喜欢

转载自blog.csdn.net/LOVEmy134611/article/details/125453305