5.3.8注意力机制(如图)

我的理解如图1所示

                                                                                 图一

问题

1加入了注意力机制后有什么不同?

答案:如果没有注意力机制,只有双循环RNN,那么系统结构就对应图一中的下面两层(黑色,灰色部分),系统会直接输出y1,y2,y3,y4。加入注意力机制后,系统不会直接输出y1,y2,y3,y4,而是对每个y_{i}(i=1,2,3,4)附上权重(w_{11}w_{12}w_{13}w_{14}),融合后结合s0输出\widehat{y}^{<1>};第二次将y1,y2,y3,y4与权重w_{21}w_{22}w_{23}w_{24}融合后结合s1输出\widehat{y}^{<2>},后面以此类推。

在训练出权重以后会让w_{i1}w_{i2}w_{i3}w_{i4}(其中i=1,2,3....Ty,本系统中Ty等于4)送入softmax层,最后会得到{w_{i1}}'{w_{i2}}'{w_{i3}}'{w_{i4}}',并且\sum_{i}^{j}({w_{ij}}')=1,这样每翻译一个词系统就会参考原y1y2y3y4的权重,权重越大,则该权重对应的yi对本次翻译的贡献最大,也最重要。(\widehat{y}^{<1>}和s1是否相等有待考察,我没有做过实验,但是我觉得应该不相等,前者应该是激活后的向量,后者是未激活的列向量)

由于看懂本文需要明白基本的RNN模型,如果暂时不明白,博主推荐几篇很详细的博文,附链接

https://www.zhihu.com/question/68482809/answer/264632289

https://blog.csdn.net/hpulfc/article/details/80449561

https://blog.csdn.net/hpulfc/article/details/80448570

猜你喜欢

转载自blog.csdn.net/dqefd2e4f1/article/details/85030422