深度学习之NLP学习笔记(七)— Transformer复杂度分析

复杂度(Complexity)

在这里插入图片描述


Self-Attention复杂度

A t t e n t i o n ( Q , K , V ) = S o f t m a x ( Q K T d ) V Attention(Q,K,V) = Softmax(\frac{QK^{T}}{\sqrt{d}})V Attention(Q,K,V)=Softmax(d QKT)V
在这里插入图片描述


线性Attention

在这里插入图片描述


Transformer应用

在这里插入图片描述


MSA、W-MSA

在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Jeremy_lf/article/details/115874662