1. 动机详述

当前的循环网络的逻辑和人类叙述的逻辑一样，都是序列化的：运算是随着符号位置的推进而展开的，即\(t\)时刻的隐含状态\(h_t\)是上一时刻隐含状态\(h_{t-1}\) 和当前时刻输入的函数。

但这种序列化逻辑有个缺点：不利于并行化。特别是当序列较长时，这种缺点被放大。

此时，注意力机制进入了作者的视野。注意力机制已经是很多序列化建模任务和转换（transduction）模型的不可或缺的部分，可以用来建模任意长距离的依赖关系。但是，这种注意力机制是和循环网络同时使用的。

本文提出的转换器，就是要让注意力模型跳出循环网络的框架。此时，转换器就具有了并行化能力。

2. 相关工作

已经有一些工作在尝试减少序列化计算量，如ByteNet和ConvS2S。它们的基础都是卷积神经网络。它们的共同问题：当序列长度增加时，运算量会线性增长或对数增长。

而转换器能做到：让运算量是一个固定的常数，尽管将损失一定性能。

自注意力机制：在单个序列内部，建立不同位置间的注意力机制，并用于建模该序列自身。

【端到端记忆网络：博主没看懂，也没去了解。】

作者声称，转换器是第一个完全基于自注意力机制的转换模型，而无需RNN或卷积结构。

3. 转换器结构

左边是编码器，右边是解码器。

如图左侧，编码器由6个相同的结构（\(N=6\)）组成，每个结构包含2层：1层多头注意力机制（橙色），1层是全连接网络（蓝色）。内部共有两处短连接和层归一化。所有层的输出都是\(d_k = 512\)维。

右侧是解码器。解码器也是由6个相同的结构组成，但每个结构多了一个多头注意力机制（中间那个）。这个模块是对编码器的输出执行的。此外，最下面那个多头注意力模块也被修改了：只对前面的输出执行自注意力机制，而与其后的输出无关。修改方式就是masked。

3.1 注意力机制详解

注意力机制的本质很简单：输入query和一组键-值对；输出被加权组合的值；权值通过query和键的兼容函数计算得到。

3.1.1 放缩的点积注意力机制

作者称提出的注意力机制为：放缩的点积注意力（scaled dot-product attention）。如图左：

query和key点乘，再除以根号下512（放缩），经过softmax后与value相乘，就完成了注意力加权流程。

实操中会将这个过程矩阵化，即先pack成矩阵\(Q\)、\(K\)和\(V\)，然后计算：
\[
\text{Attention} (Q, K, V) = \text{softmax} (\frac{Q K^T}{\sqrt{d_k}}) V
\]

除了这里用到的点积形式，还有一种常用的注意力策略：加性注意力。加性注意力（additive attention）只需要借助单层前向网络计算兼容函数。尽管理论上，加性注意力和点积注意力的计算复杂度接近，但由于矩阵操作有加速算法，因此点积注意力更高效。在性能上，当\(d_k\)较大时，点积注意力不如加性注意力。可能的原因是：当维度较高时，点积结果可能会很大（脚注4），因此softmax函数的梯度很小，导致训练困难。因此，我们将点积结果除以根号512。

3.1.2 多头注意力机制

我们总结一下上一节的放缩点积注意力机制：只有单个注意力函数，输入key和query，输出加权后的value。注意，输入、输出都是\(d_k = 512\)维。

除此之外，作者提出了更进一步的处理，如上图右：我们首先将value、query和key分别线性映射到\(d_k = 64\)、\(d_k\)和\(d_v = 64\)维，然后再通过上一节的注意力机制，处理得到\(d_v\)维的输出。该操作执行\(h = 8\)次，每一次的线性映射函数和注意力函数都不一样。最后，\(h\)个\(d_v\)维输出再经过一次线性映射，得到一个\(d_v\)维最终输出。这就是所谓的multi-head。

多头与之前的“单头”有什么进步呢？博主的想法：

不仅仅是对key、query进行综合处理，还对key、query和value进行单独处理。可能有一些key和query天生就很不引人关注。
执行了8次不同的“单头”，然后最终再加权组合每一次的结果。这实际上允许每一个注意力函数负责8个不同的表示空间。比如有的函数更注意主语，有的函数更注意动词等等。
由于每一次“单头”的维度都降低了，因此总体运算量并没有提高。

我们再回到第一张图。在Transformer中，作者有3处用到多头注意力：

编码器-解码器之间。query来自解码器的上一层，而key和value来自编码器输出。即：让解码器注意输入序列的每一个位置。这是典型的注意力机制。
编码器。此时，key、value和query都来自于上一层。即：让该层注意上一层的每一个位置。
解码器。此时，key、value和query都来自于上一层。即：让该层注意上一层的每一个位置。注意，我们不需要leftward的信息流，因此我们让相关的mask值为负无穷（完全无关）。

3.2 全连接网络

一个全连接网络包含两次映射，ReLU非线性化。输入、输出都是512维，隐含层维度是2048。

Embeddings不懂，不看了。

3.3 编码位置信息

由于Transformer不包含循环和卷积结构，因此我们要特别地编码位置信息。细节略。

其余部分略。

总的来说，谷歌一举打破了原来的固有模型：用RNN或CNN建模序列，而是直接用注意力机制建模序列。这种突破是本文最大的贡献。

Paper | Attention Is All You Need的更多相关文章

[转]NLP Tasks
Natural Language Processing Tasks and Selected References I've been working on several natural langu ...
BERT大火却不懂Transformer？读这一篇就够了原版可视化机器学习可视化神经网络可视化深度学习
https://jalammar.github.io/illustrated-transformer/ The Illustrated Transformer Discussions: Hacker ...
paper 27 ：图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention）
1. 早期C. Koch与S. Ullman的研究工作. 他们提出了非常有影响力的生物启发模型. C. Koch and S. Ullman . Shifts in selective visual ...
[ Continuously Update ] The Paper List of Seq2Seq Tasks ( including Attention Mechanism )
Papers Published in 2017 Convolutional Sequence to Sequence Learning - Jonas Gehring et al., CoRR 20 ...
Paper Reading - Attention Is All You Need ( NIPS 2017 ) ★
Link of the Paper: https://arxiv.org/abs/1706.03762 Motivation: The inherently sequential nature of ...
Paper Reading - Show, Attend and Tell: Neural Image Caption Generation with Visual Attention ( ICML 2015 )
Link of the Paper: https://arxiv.org/pdf/1502.03044.pdf Main Points: Encoder-Decoder Framework: Enco ...
读a paper of ICCV 2017 : Areas of Attention for Image Captioning
前言废话,作者说把代码公布在gitub上,但是迟迟没有公布,我发邮件询问代码情况,邮件也迟迟不回,表示很尴尬..虽然种种这些,但是工作还是好工作,这个没的黑,那我们今天就来详细的介绍这篇文章. 导论: ...
读paper:image caption with global-local attention…
最近的图片caption真的越来越火了,CVPR ICCV ECCV AAAI很多顶级会议都有此类的文章,今天我来讲一篇发表在AAAI的文章,因为我看了大量的论文,最近感觉AAAI越来越水了.所以这篇 ...
Paper | Residual Attention Network for Image Classification
目录 1. 相关工作 2. Residual Attention Network 2.1 Attention残差学习 2.2 自上而下和自下而上 2.3 正则化Attention 最近看了些关于att ...

随机推荐

Android几种多渠道打包
1.什么是多渠道打包在不同的应用市场可能有不同的统计需求,需要为每个应用市场发布一个安装包,这里就引出了Android的多渠道打包.在安装包中添加不同的标识,以此区分各个渠道,方便统计app在市场的 ...
zhy2_rehat6_mysql04 - MHA_故障演示与切换.txt
export LANG=en_US 环境:------------------------------------------ 机器 VPN ip linux 账号/密码manager1 172.28 ...
Nginx基础知识点总结和优化项
1.什么是Nginx? Nginx是一个高性能的HTTP和反向代理服务器,常用于做负载均衡服务器 2.为什么要用Nginx?跨平台.配置简单非阻塞.高并发连接:处理2-3万并发连接数,官方监测能支持5 ...
Appium(二)：Node.js下载与安装、非GUI版本appium下载与安装、GUI版本appium下载与安装
1. 下载并安装Node.JS 进入官网:https://nodejs.org/en/. 由于我们是新手嘛,所以肯定是越稳定越好啦,所以选择下载LTS版本. 进入文件下点击文件就进入安装界面了,点击n ...
（理论知识+HTML+CSS+JavaScript）
今天分享的面试题的答案不确保一定正确,如有错误或有更好的解法,大家可以留言分享你的答案.我在留言区等你更好的答案. 一.理论基础知识部分 1.1.讲讲输入完网址按下回车,到看到网页这个过程中发生了什么 ...
C++入门到理解阶段二基础篇(7)——C++函数
目录函数作用函数定义函数声明函数调用函数值传递函数常见的样式函数的分文件书写函数作用将经常使用的代码封装起来,减少重复代码函数定义 C++ 中的函数定义的一般形式如下: retur ...
Dicom文件支持中文字符
Dicom文件的默认字符集编码为ISO-IR6,这种字符集是不支持中文的,当使用Dicom工具修改病人姓名后,名字会成乱码而无法正常显示,如下图: 知道了原因就知道解决办法了,修改Dicom的字符集( ...
go语言之切片即动态数组
切片和数组的类型有什么不一样,我们可以打印一下,就可以知道两者的区别了,数组是容量的,所以中括号中有容量,切片的动态数组,是没有容量,这是数组和切片最大的区别 test8_4 := [20] int ...
vue获取后端数据放在created还是mounted方法里面？
问题提出: 我们知道一般vue使用ajax或者axios来获取后端数据,并且好像放在created里面和mounted里面都可以获取数据并正确渲染.那么放在created里面和mounted里面有什么 ...
常用类-CSV---OLEDB
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.D ...

Paper | Attention Is All You Need