利用胶囊网络提高多头注意力 - 代码天地

利用胶囊网络提高多头注意力

其他 2020-03-26 17:31:17 阅读次数: 0

Paper：Improving Multi-Head Attention with Capsule Networks

通过将输入胶囊 $u_{i}$ 乘以表示部分和整体之间的视点不变关系的学习转换矩阵 $W_{ij}$ 来计算投票：

然后我们计算和更新输出胶囊v,投票 $\hat{u}$ ,以及它们之间的分配概率c通过特定的路由过程迭代以确保输入发送给一个适当的输出胶囊:

最后，将输出胶囊v串联在一起，送入前馈网络(FFN)，该网络由两个线性变换组成，其中ReLU被激活:

我们还添加了层u和v之间的剩余连接。因此，最终的输出是:

其中：

扫描二维码关注公众号，回复： 10194152 查看本文章

Dynamic Routing 在这种方法中，我们将所有这些加权投票向量加起来，得到原始输出胶囊向量:

其中：

$c_{ij}$ 是通过计算初始logits $b_{ij}$ 的“routing softmax”来确定的，初始logits $b_{ij}$ 初始化为0。

然后利用原始输出胶囊向量 $s_{j}$ ，加上一个压缩函数，使整个模型非线性化:

sliderSun

发布了104 篇原创文章 · 获赞 97 · 访问量 26万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_37947156/article/details/103599179

利用胶囊网络提高多头注意力

注意力机制（四）：多头注意力

Multihead Attention - 多头注意力

MultiHeadAttention多头注意力机制的原理

【NLP】多头注意力概念（02）

【NLP】多头注意力概念（01）

lstm 加多头注意力MultiHeadAttention

代码实现—多头自注意力&多头交叉注意力

【注意力机制】多头注意力、自注意力、层归一化、位置嵌入

Transformer多头注意力机制实现数字预测（pytorch）

【深度学习】多头注意力机制详解

多头注意力机制及其pytorch实现

多头自注意力机制的代码实现

多头注意力机制Multi-head-attention

multi-head_seft-attention（多头自注意力）

多头注意力机制Muiti-headedSelf-attention

多头注意力机制的通俗式理解

【动手深度学习-笔记】注意力机制（三）多头注意力

学习Transformer：自注意力与多头自注意力的原理及实现

一文通透各种注意力：从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA

Transformer中的多头注意力机制-为什么需要多头？

深入理解深度学习——注意力机制（Attention Mechanism）：多头注意力（Multi-head Attention）

【Transformer 相关理论深入理解】注意力机制、自注意力机制、多头注意力机制、位置编码

注意力机制（Attention）、自注意力机制(Self Attention)和多头注意力(Multi-head Self Attention)机制详解

图注意力网络GAT

GAT图注意力网络

【GNN】图注意力网络

图注意力网络（GAT）

区间预测 | MATLAB实现基于QRCNN-LSTM-Multihead-Attention多头注意力卷积长短期记忆神经网络多变量时间序列区间预测

Transformer、多头自注意力机制论文笔记：Attention is all you need

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)