1. 背景

在机器翻译任务下，RNN、LSTM、GRU等序列模型在NLP中取得了巨大的成功，但是这些模型的训练是通常沿着输入和输出序列的符号位置进行计算的顺序计算，无法并行。

文中提出了名为Transformer的模型架构，完全依赖注意力机制（Attention Mechanisms），构建输入与输出间的依赖关系，并且能够并行计算，使得模型训练速度大大提高，能够在较短的训练时间内达到新的SOTA水平。

2. 模型架构

2.1 编码器（Encoder）与解码器（Decoder）

先放下具体的细节，从上图Transformer的模型架构中可以发现，模型被分为左右两块。

对于左侧的Encoder，实际是有\(N=6\)层相同的Encoder堆叠而成。这N层中，每层都有两个子层分别为：多头注意力层（Muti-Head Attention）、前馈网络层（Feed Forward），两个子层都带有残差连接（Add）和归一化层（Norm）。

因此每一个子层的输出表示为：\({\rm LayerNorm}(x+{\rm SubLayer}(x))\)，\(x\)表示输入，\({\rm SubLayer}(x)\)表示子层（多头注意力层或前馈网络层）的计算结果。

为了实现残差连接，所有子层、嵌入层还有最后的模型输出结果的维度\(d_{model}\)统一设置为\(512\)。

对于右侧的Decoder，同样有着\(N=6\)层相同的Decoder堆叠而成。从上至下看：

第一层前馈网络层与Encoder部分一致；
第二层多头注意力层，参与计算的数据由两部分（K、V）来自Encoder，这两部分的数据是N层的Encoder的运算结果，经过N层计算后输入Decoder，Encoder的这一运算结果会在N层Decoder的每一层多头注意力层参与计算；
第三层是带掩码的多头注意力层，它通过对偏移的输出Embedding添加掩码，确保位置为\(i\)的预测仅依赖于\(i\)之前的数据。

Embedding：就是将现实的信息如文本、音频、图像转化为向量供模型使用，就像它的本意：嵌入进神经网络一样。嵌入层通常为模型的第一层，负责将现实信息转为向量。

Inputs和Outputs：以机器翻译任务：将中文翻译为English为例，Inputs就是“我是一只猫”，Outputs为“I am a cat”即训练的Label，而模型的输出应为模型预测的“我是一只猫”的翻译。

Outputs(shifted right)：在图中，Outputs向右偏移了一位，这是因为在Outputs的第一位插入了Token（词元：文本中的基本单位也可称为“分词”），这个Token为翻译开始符一般为写为<Begin>。在本例中，偏移后的Outputs为“<Begin> I am a cat”，这样做的目的是为了让模型预测的第一个词为“我”，第二个词为“是”，以此类推。

2.2 注意力（Attention）

观察图一，Encoder和Decoder的多头注意力层（包括Decoder中带掩码的多头注意力层）的输入，都是由三部分组成：查询（Query）、键（Key）、值（Value），简称Q、K、V。所谓的“注意力”便是由这三部分经过“注意力函数”计算得到。

关于Q、K、V，不需要太在意它们的名称，它们来自于输入\(X\)和对应的权重矩阵\(W\)的乘积结果，权重矩阵由训练得到：\(Q=XW^Q,\ K=XW^K,\ V=XW^V\)

2.2.1 缩放点积注意力（Scaled Dot-Product Attention）

文中，作者将Transformer中的注意力称为“缩放点积注意力”。输入的组成包括：\(d_k\)维的Q和K，以及\(d_v\)维的V。运算步骤如图2左侧所示：

Q与K进行矩阵相乘（MatMul）；
进行缩放(Scale)，即除\(\sqrt{d_k}\)；
添加掩码（Mask(opt.)），这一步针对Decoder中的Masked Multi-Head Attention层，文中添加掩码的方式是将需要添加掩码的部分设置为\(-\infty\)；
通过Softmax函数计算得到权重；
将权重与V进行矩阵相乘。

之所以要进行缩放文中给出了解释：如果\(d_k\)过大，那么点积\(QK^T\)的值（magnitude）就会过大，导致Softmax函数过于陡峭（因为某一点过大）也就是方差过大。

假设\(q\)和\(k\)是均值为0、方差为1的独立随机变量，当维度为\(d_k\)时，它们的点积为\(q\cdot k=\sum^{d_k}_{i=1}q_ik_i\)，它们的均值为0，方差为\(d_k\)。

这会导致梯度消失，为了避免这种情况需要通过第二步对点积结果进行缩放。

实践中，将多组Q打包为一个矩阵\(Q\)，同理K和V也被打包为矩阵\(K\)和\(V\)。结合上述计算步骤，矩阵运算的结果可以表示为：

\[{\rm Attention}(Q,K,V)={\rm softmax}(\frac{QK^T}{\sqrt{d_k}})V \tag{1}
\]

2.2.2 多头注意力（Multi-Head Attention）

文中，在使用Attention函数前，还对Q、K、V分别进行\(d_k\)、\(d_k\)、\(d_v\)维的线性变换（Linear），如图2右侧从下往上的第一层所示。同时有\(h\)组这样的Q、K、V并行计算，每组得到\(d_v\)维的输出，这也是称为“多头”的原因。将这些输出连接并再进行一次线性变换（Linear）得到最后的输出。

多头注意力使得模型联合关注来自不同位置的信息，弥补单个Attention函数的局限。

\[{\rm MultiHead}(Q,K,V)={\rm Concat}({\rm head}_1,...,{\rm head}_h)W^O \\
{\rm head}_i={\rm Attention}(QW_i^Q,KW_i^K,VW_i^V)
\]

这里的线性变换参数矩阵：\(W_i^Q\in \mathbb{R}^{d_{model}\times d_k},W_i^K\in \mathbb{R}^{d_{model}\times d_k},W_i^V\in \mathbb{R}^{d_{model}\times d_v}\)

文中，\(h=8\)层注意力函数并行计算，其中变量的维度设置为：\(d_k=d_v=d_{model}/h=64\)，由于每个头的维度减少，总的计算成本与之前的单个注意函数相似。

2.3 以位置为单元的前馈神经网络（Position-wise Feed-Forward Networks）

在每一层Encoder和Decoder中，都有一层全连接前馈神经网络，它分别作用于每个位置，进行相同的处理。它包含两个线性变换，中间包含着一层ReLU激活。

\[{\rm FFN}(x)=\max(0,xW_1+b_1)W_2+b_2\tag{2}
\]

不同位置的线性变换方式相同，但层与层之间的参数不同。通常是两个核为1的卷积层，它们输出输出的维度\(d_{model}=512\)，中间的隐藏层维度\(d_{ff}=2048\)

线性层、感知机和前馈神经网络间的关系：一般来说单层的感知机就是一层线性层，而前馈神经网络则是一个更一般的概念，可以包含多个层，每个层可以有不同的结构和激活函数。

2.4 Embeddings与Softmax

与其他处理同一类问题的的模型相同，Transformer需要先用嵌入层（Embedding）将输入输出的词元转化为\(d_{model}=512\)维的向量。在Decoder中，使用线性变换和Softmax函数将模型的输出转化为预测的下一个词元的概率分布。两个嵌入层使用相同的权重矩阵，它们的权重还将乘以\(\sqrt{d_{model}}\)。

2.5 位置编码（Positional Encoding）

Transformer不含卷积和循环，但是序列的绝对位置和相对位置信息不可或缺，因此需要将位置编码添加到Encoder和Decoder的Embedding层之后，位置编码的维度同样是\(d_{model}\)（毕竟同一维度才能相加）。位置编码的计算方式有许多，文中采用了不同频率的余弦、正弦函数计算。

\[\begin{align*}
PE_{(pos,2i)} &= \sin(pos/10000^{2i/d_{model}}) \\
PE_{(pos,2i+1)} &= \cos(pos/10000^{2i/d_{model}})
\end{align*}
\]

其中，\(pos\)是位置，\(i\)表示维度（\(i\le d_{model}\)）。每一个位置编码的维度都对应一个正弦曲线。波长范围为\([2\pi,20000\cdot\pi]\)的几何级数。使用这种编码方式的原因是：对于任何固定的偏移量\(k\)，\(PE_{pos+k}\)可以表示为\(PE_{pos}\)的线性函数。因此，Transformer可以轻松地学习相对位置的偏移量。另外，这种位置编码方法在当模型遇到比训练时更长的序列也能有较好的表现。

3. 为什么是Attention

作者在使用Attention机制时，考虑了以下三个方面：

每一层的总计算复杂度；
能够用于并行计算的计算量；
网络中，向量依赖的路径长度。在机器翻译等序列任务中，这是一项关键。需要考虑当前位置的前向信号和后向信号在网络中的路径长度

第二点已经被多头注意力机制解决。对于第一点与第三点，文中提到在处理长度较大的序列任务时，可以限制注意力的范围，以序列中相应的输出范围为中心，设置大小为\(r\)的邻域，这时，循环层需要的\(O(n)\)的序列操作，在这里只需要\(O(n/r)\)。

参考文献

Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
一文读懂Embedding的概念，以及它和深度学习的关系
Transformer模型详解（图解最完整版）
Transformer 1. Attention中的Q，K，V是什么
1*1的卷积层是怎么实现维度变换的？

详细了解Transformer：Attention Is All You Need的更多相关文章

Transformer —— attention is all you need
https://www.cnblogs.com/rucwxb/p/10277217.html Transformer -- attention is all you need Transformer模 ...
Attention & Transformer
Attention & Transformer seq2seq; attention; self-attention; transformer; 1 注意力机制在NLP上的发展 Seq2Seq ...
Transformer解析与tensorflow代码解读
本文是针对谷歌Transformer模型的解读,根据我自己的理解顺序记录的. 另外,针对Kyubyong实现的tensorflow代码进行解读,代码地址https://github.com/Kyuby ...
【转载】图解Transformer（完整版）！
在学习深度学习过程中很多讲的不够细致,这个讲的真的是透彻了,转载过来的,希望更多人看到(转自-张贤同学-公众号). 前言本文翻译自 http://jalammar.github.io/illustr ...
Paper Reading - Attention Is All You Need ( NIPS 2017 ) ★
Link of the Paper: https://arxiv.org/abs/1706.03762 Motivation: The inherently sequential nature of ...
[NLP] REFORMER: THE EFFICIENT TRANSFORMER
1.现状 (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析层参数设置参数量与占用内存 1 layer 0.5Bill ...
王树森Transformer学习笔记
目录 Transformer Attention结构 Self-Attention结构 Multi-head Self-Attention BERT:Bidirectional Encoder Rep ...
学一学Transfomer
017年,Google发表论文<Attention is All You Need>,提出经典网络结构Transformer,全部采用Attention结构的方式,代替了传统的Encode ...
CVPR2020|3D-VID:基于LiDar Video信息的3D目标检测框架
作者:蒋天园 Date:2020-04-18 来源:3D-VID:基于LiDar Video信息的3D目标检测框架|CVPR2020 Brief paper地址:https://arxiv.org/p ...
Deformable 可变形的DETR
Deformable 可变形的DETR This repository is an official implementation of the paper Deformable DETR: Defo ...

随机推荐

Codeforces 1326A Bad Ugly Numbers （思维）
Codeforces 1326A Bad Ugly Numbers 看完题目,第一直觉,质数肯定满足题意,再看数据范畴,\(1≤n≤10^5\), 质数线性筛仅能做到 n=7 的情况,即处理到1000 ...
Codeforces Round #707 (Div. 2, based on Moscow Open Olympiad in Informatics Editorial
Codeforces Round #707 (Div. 2, based on Moscow Open Olympiad in Informatics) Problem 1501A. Alexey a ...
vue 状态管理一、状态管理概念和基本结构
系列导航 vue 状态管理一.状态管理概念和基本结构 vue 状态管理二.状态管理的基本使用 vue 状态管理三.Mutations和Getters用法 vue 状态管理四.Action用法 ...
Jenkins安装完成后，一直停留在页面Please wait while Jenkins is getting ready to work...的解决方法
一.打开jenkins一直显示如下页面:
01_设计一个有getMin功能的栈
01_设计一个有getMin功能的栈 [题目] 实现一个特殊的栈,在实现栈的基本功能的基础上,再实现返回栈中最小元素的操作. [要求] pop.push.getMin操作的时间复杂度都是O(1) 设计 ...
ACP 知识点总结
记录下学习ACP过程不断遇到的且需要记录的知识点: 在阿里云专有网络VPC创建之后,路由器也是随着VPC一起自动创建,所以不需要手动创建,这个时候需要继续创建交换机才能在交换机种创建其他云产品. 7层 ...
Redis 集群模式搭建
本文为博主原创,未经允许不得转载: 目录: 1. 哨兵模式与集群模式对比 2. Redis 集群架构搭建 3. 集群原理分析 4. 集群元数据维护方式对比 5. redis 分布式寻址 6. 集群选举 ...
java占位符%d，%s等的使用
(转载自:http://www.cnblogs.com/happyday56/p/3996498.html) String类的format()方法用于创建格式化的字符串以及连接多个字符串对象.熟悉C语 ...
Java之利用openCsv导出csv文件
当时导入的时候用的openCsv,那么导出的时候自然也是用这个,查了好多资料才找到解决方案,下面记录一下实现过程. 1.Controller层: /** * 导出csv文件 */ @RequestMa ...
9 时序数据库M3DB架构与原理
一.M3DB介绍 M3DB是Uber开源的一款分布式时序数据库,已在Uber内部使用多年.M3DB有以下特性: 分布式的时序数据库,可以水平扩展存储. 支持Pormetheus的查询语言PromQL, ...

详细了解Transformer：Attention Is All You Need