自注意力计算

def self_attention(query, key, value, dropout=None, mask=None):

    d_k = query.size(-1)

    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)

    # mask的操作在QK之后，softmax之前

    if mask is not None:

        mask.cuda()

        scores = scores.masked_fill(mask == 0, -1e9)

    self_attn = F.softmax(scores, dim=-1)

    if dropout is not None:

        self_attn = dropout(self_attn)

    return torch.matmul(self_attn, value), self_attn

多头注意力

# PYthon/PYtorch/你看的这个模型的理论

class MultiHeadAttention(nn.Module):

    def __init__(self):

        super(MultiHeadAttention, self).__init__()

    def forward(self,  head, d_model, query, key, value, dropout=0.1,mask=None):

        """

        :param head: 头数，默认 8

        :param d_model: 输入的维度 512

        :param query: Q

        :param key: K

        :param value: V

        :param dropout:

        :param mask:

        :return:

        """

        assert (d_model % head == 0)

        self.d_k = d_model // head

        self.head = head

        self.d_model = d_model

        self.linear_query = nn.Linear(d_model, d_model)

        self.linear_key = nn.Linear(d_model, d_model)

        self.linear_value = nn.Linear(d_model, d_model)

        # 自注意力机制的 QKV 同源，线性变换

        self.linear_out = nn.Linear(d_model, d_model)

        self.dropout = nn.Dropout(p=dropout)

        self.attn = None

        # if mask is not None:

        #     # 多头注意力机制的线性变换层是4维，是把query[batch, frame_num, d_model]变成[batch, -1, head, d_k]

        #     # 再1，2维交换变成[batch, head, -1, d_k], 所以mask要在第一维添加一维，与后面的self attention计算维度一样

        #     mask = mask.unsqueeze(1)

        n_batch = query.size(0)

        # 多头需要对这个 X 切分成多头

        # query==key==value

        # [b,1,512]

        # [b,8,1,64]

        # [b,32,512]

        # [b,8,32,64]

        query = self.linear_query(query).view(n_batch, -1, self.head, self.d_k).transpose(1, 2)  # [b, 8, 32, 64]

        key = self.linear_key(key).view(n_batch, -1, self.head, self.d_k).transpose(1, 2)  # [b, 8, 32, 64]

        value = self.linear_value(value).view(n_batch, -1, self.head, self.d_k).transpose(1, 2)  # [b, 8, 32, 64]

        x, self.attn = self_attention(query, key, value, dropout=self.dropout, mask=mask)

        # [b,8,32,64]

        # [b,32,512]

        # 变为三维， 或者说是concat head

        x = x.transpose(1, 2).contiguous().view(n_batch, -1, self.head * self.d_k)

        return self.linear_out(x)

03 Transformer 中的多头注意力（Multi-Head Attention）Pytorch代码实现的更多相关文章

【译】在Transformer中加入相对位置信息
目录引言动机解决方案概览注释实现高效实现结果结论参考文献本文翻译自How Self-Attention with Relative Position Representation ...
【注意力机制】Attention Augmented Convolutional Networks
注意力机制之Attention Augmented Convolutional Networks 原始链接:https://www.yuque.com/lart/papers/aaconv 核心内容 ...
【学习笔记】注意力机制（Attention）
前言这一章看啥视频都不好使,啃书就完事儿了,当然了我也没有感觉自己学的特别扎实,不过好歹是有一定的了解了注意力机制由于之前的卷积之类的神经网络,选取卷积中最大的那个数,实际上这种行为是没有目的的 ...
Transformer可解释性：注意力机制注意到了什么？
原创作者 | FLPPED 论文: Self-Attention Attribution: Interpreting Information Interactions Inside Transform ...
第五课第四周笔记3：Multi-Head Attention多头注意力
Multi-Head Attention多头注意力让我们进入并了解多头注意力机制. 符号变得有点复杂,但要记住的事情基本上只是你在上一个视频中学到的自我注意机制的四个大循环. 让我们看一下每次计算自 ...
AAAI2018中的自注意力机制(Self-attention Mechanism)
近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中.随着注意力机制的深入研究,各式各样的attention被研究者们提出,如单个.多个.交互式等等.去年 ...
深入理解BERT Transformer ，不仅仅是注意力机制
来源商业新知网,原标题:深入理解BERT Transformer ,不仅仅是注意力机制 BERT是google最近提出的一个自然语言处理模型,它在许多任务检测上表现非常好. 如:问答.自然语言推断和 ...
Transformer中引用iqd作为数据源的时候数据预览出现乱码
在cognos开发利用transform建模的过程中导入iqd数据源预览乱码问题,下面先描述一下环境操作系统版本: [root@enfo212 ~]# cat /proc/version Linux ...
ICCV2021 | Vision Transformer中相对位置编码的反思与改进
前言在计算机视觉中,相对位置编码的有效性还没有得到很好的研究,甚至仍然存在争议,本文分析了相对位置编码中的几个关键因素,提出了一种新的针对2D图像的相对位置编码方法,称为图像RPE(IRPE). ...
如何诊断RAC系统中的'gc cr multi block request'?
'gc cr multi block request' 是RAC数据库上比较常见的一种等待事件,在RAC 上进行全表扫描(Full Table Scan)或者全索引扫描(Index Fast Full ...

随机推荐

【Uni-App】API笔记 P2
8.路由,跳转一.保留当前页面并跳转到指定页面使用uni.navigateBack可以返回到原页面. uni.navigateTo(OBJECT) OBJECT参数说明参数类型必填默认值 ...
新购的HP品牌台式机（暗影精灵，自带windows10系统，显卡为RTX2080，CPU为i7-10700）安装双系统（Ubuntu系统），不识别显卡，不识别硬盘 —— 解决方案
事件起因是实验室的师弟要弄深度学习,实验室为其新购一台台式机(HP台式机,暗影精灵,自带windows10系统,显卡为RTX2080,CPU为i7-10700),师弟是满心喜悦的在windows系统上 ...
如何使用深度学习技术探测代码逻辑死循环 —— 浪潮集团的“公开号CN117271314A”专利
专利公开号: CN117271314A 新闻链接: https://mbd.baidu.com/newspage/data/landingsuper?context={"nid"% ...
这学校真是“nice”——人还未走，网就先停了
人还没走,手续还没办,网就给我停了,这就要清人了,这学校太"nice"了!!!
Java反射初探123456789
牛逼的框架都反射,不要问我为什么,因为我也不知道可能是因为生成了class文件没法实例化,所以只能反射创建对象,但是在spring中,ioc就是反射实现的控制反转看Spring4.x企业级开发实战 ...
我当年如何入门Linux的？-zdc的那些往事
一.通信当年的疯狂还记得09年初, 山寨机横行, 市场上手机主要还是塞班os, 小灵通还没有退出市场, 基于安卓的智能手机陆续推出. 没有王者荣耀,更没有微信, 小米的米聊还在ppt里: 那个时候网 ...
[粉丝问答16]应届生被放鸽子，怒怼HR！找工作和找对象哪个更残酷？
很多应届生在求职过程中遇到过被放鸽子的情况,但是由于段位不高,资源不够,社会阅历尚浅,很多人都是忍气吐声,但是也不乏有些学生性格刚硬,怒怼的. 比如下面这位学生,竟然直接怼了HR. 0.应届硕士小伙怒 ...
ubuntu16.04/CentOS 7自动以root身份登录桌面
ubuntu16.04 1.首先设置root用户密码: # sudo passwd root 输入普通用户密码,再输入root用户密码: 2.启用登录时的root选项: # 编辑50-ubuntu.c ...
PPT或Visio比较舒适的RGB配色参数
1.187 204 235 2.222 156 83 3.117 156 83 4.64 116 52 5.117 121 74 6.69 137 148 7.182 194 154 8.207 19 ...
二. Spring Boot 中的 “依赖管理和自动配置” 详解透彻到底（附+详细代码流程）
二. Spring Boot 中的 "依赖管理和自动配置" 详解透彻到底(附+详细代码流程) @ 目录二. Spring Boot 中的 "依赖管理和自动配置" ...

03 Transformer 中的多头注意力（Multi-Head Attention）Pytorch代码实现

自注意力计算

多头注意力

03 Transformer 中的多头注意力（Multi-Head Attention）Pytorch代码实现的更多相关文章

随机推荐

热门专题