NMT十篇必读论文(一)attention is all you need

清华大学NLP整理的神经机器翻译reading list中提到了十篇必读论文

https://github.com/THUNLP-MT/MT-Reading-List

本文抛弃了惯用的以CNN、RNN作为位置编码的方法,单纯依靠注意力机制以及简单的三角函数进行了位置编码,起到了不错的效果。对应模型为Tensor2Tensor框架下的Transformer模型。

GitHub地址:  https://github.com/tensorflow/tensor2tensor

解释的比较好的博客:

https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/79023069

https://ask.hellobi.com/blog/wenwen/18695

https://blog.csdn.net/qq_41058526/article/details/80783925

https://www.jianshu.com/p/3f2d4bc126e6

https://blog.csdn.net/mijiaoxiaosan/article/details/73251443

清华大学在此基础上提出了一种改进的文档级Transformer模型

Improving the Transformer Translation Model with Document-Level Context

https://github.com/THUNLP-MT/Document-Transformer

将原来Transformer模型的encoder和decoder结构的self-attention之后的输出作为Q,将经过self-attention之后的context embedding作为K,V,分别进行了一次mulit-head self-attention,并进行了些许优化

实验结果表明bleu值提高了

猜你喜欢

转载自blog.csdn.net/weixin_40240670/article/details/85619899