多头注意力机制Multi-head-attention - 代码天地

多头注意力机制Multi-head-attention

企业开发 2023-12-17 00:09:36 阅读次数: 0

import torch
import torch.nn as nn

class Multi_Head_Attention(nn.Module):
    def __init__(self, dim, num_heads=8, attn_drop=0.5, proj_drop=0.5):
        super(Multi_Head_Attention, self).__init__()
        self.dim = dim
        self.num_heads = num_heads

        self.qkv = nn.Linear(dim, dim * 3)

        self.head_dim = dim // num_heads  # d_k
        self.scale = self.head_dim ** -0.5  # 缩放因子根号d_k 防止梯度爆炸
        assert self.scale > 0
        self.softmax = nn.Softmax(dim=-1)
        self.attn_drop = nn.Dropout(attn_drop)

        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)

    def forward(self, x):  # x.shape = (B, N, C,如(64,2,512), N个token，每个token长度C
        B, N, C = x.shape  # C=dim代表每个token长度
        # 对qkv进行划分的同时，对每个q或k或v的每个token进行按头num_heads切分，同时进行维度调整，将qkv划分的维度3调整到最前方
        qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C//self.num_heads).permute(2, 0, 3, 1, 4)
        q, k, v = qkv[0], qkv[1], qkv[2]  # qkv均为(B,num_heads,N,C//num_heads)高位矩阵
        # @或torch.matmul向量乘法可以实现最后两个维度的矩阵乘法(前面的维度是为矩阵的个数)，transpose(-2, -1)交换最后两个维度
        attn = self.softmax((q @ k.transpose(-2, -1)) * self.scale)
        attn = self.attn_drop(attn)
        print(attn.shape)
        res = (attn @ v).transpose(-2, -1).reshape(B, N, C)
        res = self.proj_drop(self.proj(res))

        return res

x = torch.randn(size=(64, 10, 512))
att = Multi_Head_Attention(dim=512)
print(att(x).shape)

猜你喜欢

转载自blog.csdn.net/weixin_54338498/article/details/133689509

多头注意力机制Multi-head-attention

深入理解深度学习——注意力机制（Attention Mechanism）：多头注意力（Multi-head Attention）

注意力机制（Attention）、自注意力机制(Self Attention)和多头注意力(Multi-head Self Attention)机制详解

multi-head_seft-attention（多头自注意力）

Multi-head Self-attention（多头注意力机制）

深入理解深度学习——注意力机制（Attention Mechanism）：带掩码的多头注意力（Masked Multi-head Attention）

注意力机制----Multi-Head Attention 和 transformer

注意力机制——Multi-Head Attention（MHA）

VisionTransformer（二）—— 多头注意力-Multi-Head Attention及其实现

自注意力(Self-Attention)与Multi-Head Attention机制详解

改进YOLOv5系列：结合CVPR2021：多头注意力Efficient Multi-Head Self-Attention

多头注意力机制Muiti-headedSelf-attention

注意力机制之Efficient Multi-Head Self-Attention

Multihead Attention - 多头注意力

知识追踪实战：lstm+ Multi-head Attention注意力机制的学生做题成绩预测实战

Multi-Head-Attention原理及代码实现

注意力机制Attention

attention注意力机制

Attention 注意力机制

Attention,注意力机制

注意力机制（四）：多头注意力

MultiHeadAttention多头注意力机制的原理

Transformer、多头自注意力机制论文笔记：Attention is all you need

通过7个版本的attention的变形，搞懂transformer多头注意力机制

比标准Attention快197倍！Meta推出多头注意力机制“九头蛇”

翻译: 详细图解Transformer多头自注意力机制 Attention Is All You Need

注意力机制-CA注意力-Coordinate attention

Attention注意力机制–原理与应用

（Slide）Attention Mechanism注意力机制

Attention注意力机制介绍

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)