论文笔记：NLP之Attention is all you need

论文笔记：NLP之Attention is all you need. Transformer 的结构与特点

ref：
1.Step-by-step to Transformer：深入解析工作原理（以Pytorch机器翻译为例）

2.How do Transformers Work in NLP? A Guide to the Latest State-of-the-Art Models

1. transformer的自注意力机制实际上是encoder和decoder自身内部分别对于各自语言模型的建模，建立分布找到hidden。

2.Seq2Seq 中的context attention机制是encoder和decoder之间的hidden。

3. Mask：

encoder：self-attention中使用padding mask
decoder：self-attention中使用padding mask和sequence mask
context-attention中使用padding mask

4.Embedding:

wording embedding
position embedding: 对词位置的编码

5. LayerNorm: 在d-model维度上计算平均值和方差，并归一化。

6. multi-head self-attention layer：

在这里插入图片描述
scaled dot-product attention 为了减轻梯度消失问题
multi-head 在初始化Q K V映射矩阵时，做多个线性映射

7.前向传播 position-wise feed forward：为一个全连接层，用relu做激活函数

8. residual connection：目的是减轻梯度消失问题

9.结构上：

encoder：multihead self-attention + feed forward + ResNet
decoder：multihead self-attention + multihead context attention + feed forward + ResNet

10. Limitation:

由于在做数据分割时，把sequence分成了固定长度的片段。不同片段之间可能会失去上下文信息。
一个改进工作为transformer-XL。使用前一片段的hidden作为context信息补入当前训练中。但是我的理解是，这样处理会使Transformer-XL变回RNN类的模型，只能按照时间序列处理数据，前一个数据未完成时无法进入下一训练数据。使得模型的并行性下降。