5.3.8注意力机制（如图）

我的理解如图1所示

图一

问题

1加入了注意力机制后有什么不同？

答案：如果没有注意力机制，只有双循环RNN，那么系统结构就对应图一中的下面两层（黑色，灰色部分），系统会直接输出y1,y2,y3,y4。加入注意力机制后，系统不会直接输出y1,y2,y3,y4,而是对每个 $y_{i}$ (i=1,2,3,4)附上权重（ $w_{11}w_{12}w_{13}w_{14}$ ）,融合后结合s0输出 $\widehat{y}^{<1>}$ ;第二次将y1,y2,y3,y4与权重 $w_{21}w_{22}w_{23}w_{24}$ 融合后结合s1输出 $\widehat{y}^{<2>}$ ,后面以此类推。

在训练出权重以后会让 $w_{i1}w_{i2}w_{i3}w_{i4}$ (其中i=1,2,3....Ty,本系统中Ty等于4)送入softmax层，最后会得到 ${w_{i1}}'{w_{i2}}'{w_{i3}}'{w_{i4}}'$ ,并且 $\sum_{i}^{j}({w_{ij}}')=1$ ,这样每翻译一个词系统就会参考原y1y2y3y4的权重，权重越大，则该权重对应的yi对本次翻译的贡献最大，也最重要。（ $\widehat{y}^{<1>}$ 和s1是否相等有待考察，我没有做过实验，但是我觉得应该不相等，前者应该是激活后的向量，后者是未激活的列向量）

由于看懂本文需要明白基本的RNN模型，如果暂时不明白，博主推荐几篇很详细的博文，附链接

https://www.zhihu.com/question/68482809/answer/264632289

https://blog.csdn.net/hpulfc/article/details/80449561

https://blog.csdn.net/hpulfc/article/details/80448570

5.3.8注意力机制（如图）

猜你喜欢