1. 背景

在机器翻译任务下，RNN、LSTM、GRU等序列模型在NLP中取得了巨大的成功，但是这些模型的训练是通常沿着输入和输出序列的符号位置进行计算的顺序计算，无法并行。

文中提出了名为Transformer的模型架构，完全依赖注意力机制（Attention Mechanisms），构建输入与输出间的依赖关系，并且能够并行计算，使得模型训练速度大大提高，能够在较短的训练时间内达到新的SOTA水平。

2. 模型架构

2.1 编码器（Encoder）与解码器（Decoder）

先放下具体的细节，从上图Transformer的模型架构中可以发现，模型被分为左右两块。

对于左侧的Encoder，实际是有\(N=6\)层相同的Encoder堆叠而成。这N层中，每层都有两个子层分别为：多头注意力层（Muti-Head Attention）、前馈网络层（Feed Forward），两个子层都带有残差连接（Add）和归一化层（Norm）。

因此每一个子层的输出表示为：\({\rm LayerNorm}(x+{\rm SubLayer}(x))\)，\(x\)表示输入，\({\rm SubLayer}(x)\)表示子层（多头注意力层或前馈网络层）的计算结果。

为了实现残差连接，所有子层、嵌入层还有最后的模型输出结果的维度\(d_{model}\)统一设置为\(512\)。

对于右侧的Decoder，同样有着\(N=6\)层相同的Decoder堆叠而成。从上至下看：

第一层前馈网络层与Encoder部分一致；
第二层多头注意力层，参与计算的数据由两部分（K、V）来自Encoder，这两部分的数据是N层的Encoder的运算结果，经过N层计算后输入Decoder，Encoder的这一运算结果会在N层Decoder的每一层多头注意力层参与计算；
第三层是带掩码的多头注意力层，它通过对偏移的输出Embedding添加掩码，确保位置为\(i\)的预测仅依赖于\(i\)之前的数据。

Embedding：就是将现实的信息如文本、音频、图像转化为向量供模型使用，就像它的本意：嵌入进神经网络一样。嵌入层通常为模型的第一层，负责将现实信息转为向量。

Inputs和Outputs：以机器翻译任务：将中文翻译为English为例，Inputs就是“我是一只猫”，Outputs为“I am a cat”即训练的Label，而模型的输出应为模型预测的“我是一只猫”的翻译。

Outputs(shifted right)：在图中，Outputs向右偏移了一位，这是因为在Outputs的第一位插入了Token（词元：文本中的基本单位也可称为“分词”），这个Token为翻译开始符一般为写为<Begin>。在本例中，偏移后的Outputs为“<Begin> I am a cat”，这样做的目的是为了让模型预测的第一个词为“我”，第二个词为“是”，以此类推。

2.2 注意力（Attention）

观察图一，Encoder和Decoder的多头注意力层（包括Decoder中带掩码的多头注意力层）的输入，都是由三部分组成：查询（Query）、键（Key）、值（Value），简称Q、K、V。所谓的“注意力”便是由这三部分经过“注意力函数”计算得到。

关于Q、K、V，不需要太在意它们的名称，它们来自于输入\(X\)和对应的权重矩阵\(W\)的乘积结果，权重矩阵由训练得到：\(Q=XW^Q,\ K=XW^K,\ V=XW^V\)

2.2.1 缩放点积注意力（Scaled Dot-Product Attention）

文中，作者将Transformer中的注意力称为“缩放点积注意力”。输入的组成包括：\(d_k\)维的Q和K，以及\(d_v\)维的V。运算步骤如图2左侧所示：

Q与K进行矩阵相乘（MatMul）；
进行缩放(Scale)，即除\(\sqrt{d_k}\)；
添加掩码（Mask(opt.)），这一步针对Decoder中的Masked Multi-Head Attention层，文中添加掩码的方式是将需要添加掩码的部分设置为\(-\infty\)；
通过Softmax函数计算得到权重；
将权重与V进行矩阵相乘。

之所以要进行缩放文中给出了解释：如果\(d_k\)过大，那么点积\(QK^T\)的值（magnitude）就会过大，导致Softmax函数过于陡峭（因为某一点过大）也就是方差过大。

假设\(q\)和\(k\)是均值为0、方差为1的独立随机变量，当维度为\(d_k\)时，它们的点积为\(q\cdot k=\sum^{d_k}_{i=1}q_ik_i\)，它们的均值为0，方差为\(d_k\)。

这会导致梯度消失，为了避免这种情况需要通过第二步对点积结果进行缩放。

实践中，将多组Q打包为一个矩阵\(Q\)，同理K和V也被打包为矩阵\(K\)和\(V\)。结合上述计算步骤，矩阵运算的结果可以表示为：

\[{\rm Attention}(Q,K,V)={\rm softmax}(\frac{QK^T}{\sqrt{d_k}})V \tag{1}
\]

2.2.2 多头注意力（Multi-Head Attention）

文中，在使用Attention函数前，还对Q、K、V分别进行\(d_k\)、\(d_k\)、\(d_v\)维的线性变换（Linear），如图2右侧从下往上的第一层所示。同时有\(h\)组这样的Q、K、V并行计算，每组得到\(d_v\)维的输出，这也是称为“多头”的原因。将这些输出连接并再进行一次线性变换（Linear）得到最后的输出。

多头注意力使得模型联合关注来自不同位置的信息，弥补单个Attention函数的局限。

\[{\rm MultiHead}(Q,K,V)={\rm Concat}({\rm head}_1,...,{\rm head}_h)W^O \\
{\rm head}_i={\rm Attention}(QW_i^Q,KW_i^K,VW_i^V)
\]

这里的线性变换参数矩阵：\(W_i^Q\in \mathbb{R}^{d_{model}\times d_k},W_i^K\in \mathbb{R}^{d_{model}\times d_k},W_i^V\in \mathbb{R}^{d_{model}\times d_v}\)

文中，\(h=8\)层注意力函数并行计算，其中变量的维度设置为：\(d_k=d_v=d_{model}/h=64\)，由于每个头的维度减少，总的计算成本与之前的单个注意函数相似。

2.3 以位置为单元的前馈神经网络（Position-wise Feed-Forward Networks）

在每一层Encoder和Decoder中，都有一层全连接前馈神经网络，它分别作用于每个位置，进行相同的处理。它包含两个线性变换，中间包含着一层ReLU激活。

\[{\rm FFN}(x)=\max(0,xW_1+b_1)W_2+b_2\tag{2}
\]

不同位置的线性变换方式相同，但层与层之间的参数不同。通常是两个核为1的卷积层，它们输出输出的维度\(d_{model}=512\)，中间的隐藏层维度\(d_{ff}=2048\)

线性层、感知机和前馈神经网络间的关系：一般来说单层的感知机就是一层线性层，而前馈神经网络则是一个更一般的概念，可以包含多个层，每个层可以有不同的结构和激活函数。

2.4 Embeddings与Softmax

与其他处理同一类问题的的模型相同，Transformer需要先用嵌入层（Embedding）将输入输出的词元转化为\(d_{model}=512\)维的向量。在Decoder中，使用线性变换和Softmax函数将模型的输出转化为预测的下一个词元的概率分布。两个嵌入层使用相同的权重矩阵，它们的权重还将乘以\(\sqrt{d_{model}}\)。

2.5 位置编码（Positional Encoding）

Transformer不含卷积和循环，但是序列的绝对位置和相对位置信息不可或缺，因此需要将位置编码添加到Encoder和Decoder的Embedding层之后，位置编码的维度同样是\(d_{model}\)（毕竟同一维度才能相加）。位置编码的计算方式有许多，文中采用了不同频率的余弦、正弦函数计算。

\[\begin{align*}
PE_{(pos,2i)} &= \sin(pos/10000^{2i/d_{model}}) \\
PE_{(pos,2i+1)} &= \cos(pos/10000^{2i/d_{model}})
\end{align*}
\]

其中，\(pos\)是位置，\(i\)表示维度（\(i\le d_{model}\)）。每一个位置编码的维度都对应一个正弦曲线。波长范围为\([2\pi,20000\cdot\pi]\)的几何级数。使用这种编码方式的原因是：对于任何固定的偏移量\(k\)，\(PE_{pos+k}\)可以表示为\(PE_{pos}\)的线性函数。因此，Transformer可以轻松地学习相对位置的偏移量。另外，这种位置编码方法在当模型遇到比训练时更长的序列也能有较好的表现。

3. 为什么是Attention

作者在使用Attention机制时，考虑了以下三个方面：

每一层的总计算复杂度；
能够用于并行计算的计算量；
网络中，向量依赖的路径长度。在机器翻译等序列任务中，这是一项关键。需要考虑当前位置的前向信号和后向信号在网络中的路径长度

第二点已经被多头注意力机制解决。对于第一点与第三点，文中提到在处理长度较大的序列任务时，可以限制注意力的范围，以序列中相应的输出范围为中心，设置大小为\(r\)的邻域，这时，循环层需要的\(O(n)\)的序列操作，在这里只需要\(O(n/r)\)。

参考文献

Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
一文读懂Embedding的概念，以及它和深度学习的关系
Transformer模型详解（图解最完整版）
Transformer 1. Attention中的Q，K，V是什么
1*1的卷积层是怎么实现维度变换的？

详细了解Transformer：Attention Is All You Need的更多相关文章

Transformer —— attention is all you need
https://www.cnblogs.com/rucwxb/p/10277217.html Transformer -- attention is all you need Transformer模 ...
Attention & Transformer
Attention & Transformer seq2seq; attention; self-attention; transformer; 1 注意力机制在NLP上的发展 Seq2Seq ...
Transformer解析与tensorflow代码解读
本文是针对谷歌Transformer模型的解读,根据我自己的理解顺序记录的. 另外,针对Kyubyong实现的tensorflow代码进行解读,代码地址https://github.com/Kyuby ...
【转载】图解Transformer（完整版）！
在学习深度学习过程中很多讲的不够细致,这个讲的真的是透彻了,转载过来的,希望更多人看到(转自-张贤同学-公众号). 前言本文翻译自 http://jalammar.github.io/illustr ...
Paper Reading - Attention Is All You Need ( NIPS 2017 ) ★
Link of the Paper: https://arxiv.org/abs/1706.03762 Motivation: The inherently sequential nature of ...
[NLP] REFORMER: THE EFFICIENT TRANSFORMER
1.现状 (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析层参数设置参数量与占用内存 1 layer 0.5Bill ...
王树森Transformer学习笔记
目录 Transformer Attention结构 Self-Attention结构 Multi-head Self-Attention BERT:Bidirectional Encoder Rep ...
学一学Transfomer
017年,Google发表论文<Attention is All You Need>,提出经典网络结构Transformer,全部采用Attention结构的方式,代替了传统的Encode ...
CVPR2020|3D-VID:基于LiDar Video信息的3D目标检测框架
作者:蒋天园 Date:2020-04-18 来源:3D-VID:基于LiDar Video信息的3D目标检测框架|CVPR2020 Brief paper地址:https://arxiv.org/p ...
Deformable 可变形的DETR
Deformable 可变形的DETR This repository is an official implementation of the paper Deformable DETR: Defo ...

随机推荐

POJ - 1113 Wall (凸包模板） Graham Scan 算法实现
Description Once upon a time there was a greedy King who ordered his chief Architect to build a wall ...
共享内存原理与VCS监控采集实战
作者:cluo 一.前言共享内存广泛用于Redis,Kafka,RabbitMQ 等高性能组件中,本文主要提供一个共享内存在广告埋点数据采集的实战场景. 二.共享内存原理 1.原理在Linux中, ...
数字孪生智慧物流之 Web GIS 地图应用
前言随着数字经济时代的来临,新一轮全球化进程速度加快,在大数据.人工智能.物联网等高新技术深度融合下,加快催化智慧物流发展,引领物流行业划入全新时代. 从物流运输到货物分拣再到站点配送,图扑软件数据 ...
使用 Serverless Devs 插件快速部署前端应用
作者| 邓超 Serverless Devs 开源贡献者背景我们在上文 [Aliyun] [FC] 如何使用 @serverless-devs/s 部署静态网站到函数计算中,详细的介绍了如何通 ...
wireshark 报文颜色
在使用wireshark抓包分析的过程中,默认会对不同的包进行着色,截图如下: 对不同的颜色有了解,可快速的过滤包或分析请求. 菜单栏选择视图-->着色规则,即可看到不同颜色代表的含义: 大致可 ...
3 分钟了解 NVIDIA 新出的 H200
英伟达在 2023 年全球超算大会上发布了备受瞩目的新一代 AI 芯片--H200 Tensor Core GPU.相较于上一代产品 H100,H200 在性能上实现了近一倍的提升,内存容量翻倍,带宽 ...
有趣的Shell脚本学习
有趣的Shell脚本学习倒计时脚本 #!/bin/bash echo 20秒倒计时开始: tput sc # 循环40秒 for count in `seq 0 20` do tput rc tpu ...
tikv-ctl的简单学习
tikv-ctl的简单学习摘要最近在学习使用 tidb. 有一个场景,单独使用了tikv作为键值对的数据库. 但是比较不幸.总是出现宕机的情况因为这个环境是单独使用tikv 二进制进行安装的没 ...
[转帖]Percolator - 分布式事务的理解与分析
https://zhuanlan.zhihu.com/p/261115166 Percolator - 分布式事务的理解与分析概述一个web页面能不能被Google搜索到,取决于它是否被Googl ...
[转帖]【dperf系列-5】使用dperf进行性能测试（初级）
https://zhuanlan.zhihu.com/p/451341132 dperf是一款高性能的开源网络压力测试仪,是Linux基金会旗下的DPDK官方生态项目.本文介绍如利用dperf在两台物 ...

详细了解Transformer：Attention Is All You Need