word2vec----hierarchical softmax

一、输出层结构

注意到,huffman树的每一层,都有参数和激活函数sigmoid存在,实际上是一个神经网络。影响该节点的二分类走向。这和一般的多分类问题中,各种分类是同处于平等的最后一层,是不同的。

二、模型推导

我们重点关注输出层huffman树过程的模型推导。对于每个走到huffman树根节点的x,它要经过l次二分类,最终到达对应的标签,也是是根据上下文得到的词。因此,概率为多个二分类概率的连乘形式:

对该概率值取对数,即得到损失函数。输出层含有大量参数,而且不同词因为分类时走的路径不同,所以对应的参数不完全相同。

猜你喜欢

转载自www.cnblogs.com/mimandehuanxue/p/9024164.html