论文笔记:NLP之Attention is all you need

论文笔记:NLP之Attention is all you need. Transformer 的结构与特点

ref:
1.Step-by-step to Transformer:深入解析工作原理(以Pytorch机器翻译为例)

2.How do Transformers Work in NLP? A Guide to the Latest State-of-the-Art Models

1. transformer的自注意力机制实际上是encoder和decoder自身内部分别对于各自语言模型的建模,建立分布找到hidden。

2.Seq2Seq 中的context attention机制是encoder和decoder之间的hidden。

3. Mask:

encoder:self-attention中使用padding mask
decoder:self-attention中使用padding mask和sequence mask
context-attention中使用padding mask

4.Embedding:

  1. wording embedding
  2. position embedding: 对词位置的编码

5. LayerNorm: 在d-model维度上计算平均值和方差,并归一化。

6. multi-head self-attention layer:

在这里插入图片描述
scaled dot-product attention 为了减轻梯度消失问题
multi-head 在初始化Q K V映射矩阵时,做多个线性映射

7.前向传播 position-wise feed forward:为一个全连接层,用relu做激活函数

8. residual connection:目的是减轻梯度消失问题

9.结构上:

encoder:multihead self-attention + feed forward + ResNet
decoder:multihead self-attention + multihead context attention + feed forward + ResNet

10. Limitation:

由于在做数据分割时,把sequence分成了固定长度的片段。不同片段之间可能会失去上下文信息。
一个改进工作为transformer-XL。使用前一片段的hidden作为context信息补入当前训练中。但是我的理解是,这样处理会使Transformer-XL变回RNN类的模型,只能按照时间序列处理数据,前一个数据未完成时无法进入下一训练数据。使得模型的并行性下降。

猜你喜欢

转载自blog.csdn.net/jxsdq/article/details/105817669