word2vec中有CBOW和Skip-Gram模型,对于两个模型中的参数如何学习的公式推导,在《word2vec Parameter Learning Explained》中有详细解释,我在阅读1.1节One-word context时对于公式(8)的推导感到不解,花了些时间,原文如下:
“Let us now derive the update equation of the weights between hidden and output layers. Take the derivative of E with regard to
-th unit’s net input
, we obtain
where
will only be 1 when the
-th unit is the output word, otherwise
”
我一开始不明白是怎么推到这一步的,后来发现过程很显然:
论文解惑《word2vec Parameter Learning Explained》1.1--CBOW模型中One-word context情况公式推导问题
猜你喜欢
转载自blog.csdn.net/l1l1l1l/article/details/102914512
今日推荐
周排行