word2vec原理
2013年Google提出
主要包含两个模型:
- 跳字模型(skip-gram)
- 连续词袋模型(continuous bag of words,简称CBOW)
两种高效训练的方法:
- 负采样(negative sampling)
- 层序softmax(hierarchical softmax)
较好地表达不同词之间的相似和类比关系。
skip-gram: 使用中心词预测背景词
CBOW:使用背景词预测中心词,需要做投影层做平均
优化目标是:最大化给出中心词条件下背景词出现的概率
优化前,每次更新参数需要涉及词典中的全部词汇,复杂度是 O ( ∣ V ∣ ) O(|V|) O(∣V∣)
w2v如何负采样