Paper:Improving Multi-Head Attention with Capsule Networks
通过将输入胶囊乘以表示部分和整体之间的视点不变关系的学习转换矩阵来计算投票:
然后我们计算和更新输出胶囊v,投票,以及它们之间的分配概率c通过特定的路由过程迭代以确保输入发送给一个适当的输出胶囊:
最后,将输出胶囊v串联在一起,送入前馈网络(FFN),该网络由两个线性变换组成,其中ReLU被激活:
我们还添加了层u和v之间的剩余连接。因此,最终的输出是:
其中:
扫描二维码关注公众号,回复:
10194152 查看本文章
Dynamic Routing 在这种方法中,我们将所有这些加权投票向量加起来,得到原始输出胶囊向量:
其中:
是通过计算初始logits 的“routing softmax”来确定的,初始logits 初始化为0。
然后利用原始输出胶囊向量,加上一个压缩函数,使整个模型非线性化: