我的理解如图1所示
图一
问题
1加入了注意力机制后有什么不同?
答案:如果没有注意力机制,只有双循环RNN,那么系统结构就对应图一中的下面两层(黑色,灰色部分),系统会直接输出y1,y2,y3,y4。加入注意力机制后,系统不会直接输出y1,y2,y3,y4,而是对每个(i=1,2,3,4)附上权重(),融合后结合s0输出;第二次将y1,y2,y3,y4与权重融合后结合s1输出,后面以此类推。
在训练出权重以后会让(其中i=1,2,3....Ty,本系统中Ty等于4)送入softmax层,最后会得到,并且,这样每翻译一个词系统就会参考原y1y2y3y4的权重,权重越大,则该权重对应的yi对本次翻译的贡献最大,也最重要。(和s1是否相等有待考察,我没有做过实验,但是我觉得应该不相等,前者应该是激活后的向量,后者是未激活的列向量)
由于看懂本文需要明白基本的RNN模型,如果暂时不明白,博主推荐几篇很详细的博文,附链接
https://www.zhihu.com/question/68482809/answer/264632289