课程三学习笔记:视觉问题中的注意力机制
1. Vision Transformer回顾
图像只有变为Seq2eq格式,才能输入到Transformer中去。因此,lmage ——Patch(Image Token)——Patch Embeddings
Embedding定义:从低维到高维的映射。
图像只有变为Seq2eq格式,才能输入到Transformer中去。因此,lmage ——Patch(Image Token)——Patch Embeddings
Embedding定义:从低维到高维的映射。