- transformer将句子中所有单词的相互关系都考虑
- 可能局部信息从而丢失很多。
- 可以并行
- decoder中多了mask multi,这样就可以实现从前到后输出
- ------------------------
- 并行是怎么实现的
- 实现细节,为什么要有Q,K,V。这样就可以捕捉些什么呢
- Transformer中Attention机制将任意位置的两个单词的距离转换成了1?
- 使用的position vector知识考虑到单词的绝对位置
- https://zhuanlan.zhihu.com/p/48508221写的很好,https://zhuanlan.zhihu.com/p/44731789
-
Scaled Dot-Product Attention:
Google 论文的主要贡献之一是它表明了内部注意力在机器翻译 (甚至是一般的Seq2Seq任务)的序列编码上是相当重要的,而之前关于 Seq2Seq 的研究基本都只是把注意力机制用在解码端。 - transformer是注意力厉害,然而用在问答系统中,不知道多不多
注意力的厉害模型transformer学习
猜你喜欢
转载自blog.csdn.net/yagreenhand/article/details/84726237
今日推荐
周排行