1. 前言

谷歌在2017年发表了一篇论文名字教Attention Is All You Need，提出了一个只基于attention的结构来处理序列模型相关的问题，比如机器翻译。传统的神经机器翻译大都是利用RNN或者CNN来作为encoder-decoder的模型基础，而谷歌最新的只基于Attention的Transformer模型摒弃了固有的定式，并没有用任何CNN或者RNN的结构。该模型可以高度并行地工作，所以在提升翻译性能的同时训练速度也特别快。

2. Transformer模型结构

Transformer的主体结构图：

2.1 Transformer的编码器解码器

模型分为编码器和解码器两个部分。

编码器由6个相同的层堆叠在一起，每一层又有两个支层。第一个支层是一个多头的自注意机制，第二个支层是一个简单的全连接前馈网络。在两个支层外面都添加了一个residual的连接，然后进行了layer nomalization的操作。模型所有的支层以及embedding层的输出维度都是$d_{model}$。
解码器也是堆叠了六个相同的层。不过每层除了编码器中那两个支层，解码器还加入了第三个支层，如图中所示同样也用了residual以及layer normalization。具体的细节后面再讲。

2.2 输入层

编码器和解码器的输入就是利用学习好的embeddings将tokens（一般应该是词或者字符）转化为d维向量。对解码器来说，利用线性变换以及softmax函数将解码的输出转化为一个预测下一个token的概率。

2.3 位置向量

由于模型没有任何循环或者卷积，为了使用序列的顺序信息，需要将tokens的相对以及绝对位置信息注入到模型中去。论文在输入embeddings的基础上加了一个“位置编码”。位置编码和embeddings由同样的维度都是$d_{model}$所以两者可以直接相加。有很多位置编码的选择，既有学习到的也有固定不变的。

2.4 Attention模型

2.4.1 Scaled attention

论文中用的attention是基本的点乘的方式，就是多了一个所谓的scale。输入包括维度为$d_k$的queries以及keys，还有维度为$d_v$的values。计算query和所有keys的点乘，然后每个都除以$\sqrt{d_k}$（这个操作就是所谓的Scaled）。之后利用一个softmax函数来获取values的权重。
实际操作中，attention函数是在一些列queries上同时进行的，将这些queries并在一起形成一个矩阵$Q$同时keys以及values也并在一起形成了矩阵$K$以及$V$。则attention的输出矩阵可以按照下述公式计算：

\[
Attention(Q,K,V) = softmax({QK^T\over {\sqrt {d_k}}})V
\]

2.4.2 Multi-Head Attention

本文结构中的Attention并不是简简单单将一个点乘的attention应用进去。作者发现先对queries，keys以及values进行$h$次不同的线性映射效果特别好。学习到的线性映射分别映射到$d_k$，$d_k$以及$d_v$维。分别对每一个映射之后的得到的queries，keys以及values进行attention函数的并行操作，生成$dv$维的output值。具体结构和公式如下。

\[
MultiHead(Q,K,V) = Concat(head_1,...,head_h)
\]

\[
where: head_i = Attention(Q{W_i}^Q,K{W_i}^K,V{W_i}^V)
\]

2.4.3 模型中的attention

Transformer以三种不同的方式使用了多头attention。

在encoder-decoder的attention层，queries来自于之前的decoder层，而keys和values都来自于encoder的输出。这个类似于很多已经提出的seq2seq模型所使用的attention机制。
在encoder含有self-attention层。在一个self-attention层中，所有的keys,values以及queries都来自于同一个地方，本例中即encoder之前一层的的输出。
类似的，decoder中的self-attention层也是一样。不同的是在scaled点乘attention操作中加了一个mask的操作，这个操作是保证softmax操作之后不会将非法的values连到attention中。

2.4.4 Feed Foreword

每层由两个支层，attention层就是其中一个，而attention之后的另一个支层就是一个前馈的网络。公式描述如下。
\[
FFN(x) = max(0,xW_1 + b_1)W_2 + b_2
\]

3. 总结

模型的整体框架基本介绍完了，其最重要的创新应该就是Self-Attention和Multi-Head Attention的架构。在摒弃传统CNN和RNN的情况下，还能提高表现，降低训练时间。Transformer用于机器翻译任务，表现极好，可并行化，并且大大减少训练时间。并且也给我们开拓了一个思路，在处理问题时可以增加一种结构的选择。

2. Attention Is All You Need（Transformer）算法原理解析的更多相关文章

3. ELMo算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
4. OpenAI GPT算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
5. BERT算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
PhotoShop算法原理解析系列 - 像素化---》碎片。
接着上一篇文章的热度,继续讲讲一些稍微简单的算法吧. 本文来讲讲碎片算法,先贴几个效果图吧: 这是个破坏性的滤镜,拿美女来说事是因为搞图像的人90%是男人,色色的男人. 关于碎 ...
PhotoShop算法原理解析系列 - 风格化---》查找边缘。
之所以不写系列文章一.系列文章二这样的标题,是因为我不知道我能坚持多久.我知道我对事情的表达能力和语言的丰富性方面的天赋不高.而一段代码需要我去用心的把他从基本原理-->初步实现-->优化 ...
FastText算法原理解析
1. 前言自然语言处理(NLP)是机器学习,人工智能中的一个重要领域.文本表达是 NLP中的基础技术,文本分类则是 NLP 的重要应用.fasttext是facebook开源的一个词向量与文本分类工 ...
LRU算法原理解析
LRU是Least Recently Used的缩写,即最近最少使用,常用于页面置换算法,是为虚拟页式存储管理服务的. 现代操作系统提供了一种对主存的抽象概念虚拟内存,来对主存进行更好地管理.他将主存 ...
最全排序算法原理解析、java代码实现以及总结归纳
算法分类十种常见排序算法可以分为两大类: 非线性时间比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn),因此称为非线性时间比较类排序. 线性时间非比较类排序:不通过 ...
[阅读笔记]Attention Is All You Need - Transformer结构
Transformer 本文介绍了Transformer结构, 是一种encoder-decoder, 用来处理序列问题, 常用在NLP相关问题中. 与传统的专门处理序列问题的encoder-deco ...

随机推荐

scanf清除缓存区
为什么需要清除scanf缓存区呢?看一个例子: int main() { int a,b; scanf("%d",&a); scanf("%d",&am ...
用python批量生成简单的xml文档
最近生成训练数据时,给一批无效的背景图片生成对应的xml文档,我用python写了一个简单的批量生成xml文档的demo,遇见了意外的小问题,记录一下. 报错问题为:ImportError: No m ...
跳过从Win7/8升级，直接格式化全新安装 Windows 10 并自动永久激活系统的方法教程
跳过升级,直接激活全新 Win10 的方法步骤教程: 下载 Windows 10 系统的 ISO 镜像在你当前的 Win7 / Win 8 / 8.1 系统中,使用 DaemonTools 或右键选 ...
bzoj4503: 两个串 bitset
目录题目链接题解代码题目链接 bzoj4503: 两个串题解暴一发bitset f[i][j] 表示 S[1..i] 是否有个后缀能匹配 T[1..j] 那么假设 S[i+1] 能匹配 T ...
Codeforces.700E.Cool Slogans(后缀自动机线段树合并 DP)
题目链接 $Description$ 给定一个字符串$s[1]$.一个字符串序列$s[\ ]$满足$s[i]$至少在$s[i-1]$中出现过两次($i\geq 2$).求最大的 ...
[POI2010]GRA-The Minima Game
OJ题号:洛谷3507 思路: 如果选了$k_i$,那么你的对手就可以选上所有$\geq{k_i}$的数.那么他其中获得的分数也一定$\geq{k_i}$. 如果你选了$k_i$以及所有$\geq{k ...
angular.js--------demo1
<!doctype html><html ng-app> <head> <meta charset="utf-8"> </he ...
Putty 工具使用
如何使用Putty远程(SSH)管理Linux VPS Putty是一个免费的.Windows 32平台下的telnet.rlogin和ssh客户端,但是功能丝毫不逊色于商业的telnet类工具.用它 ...
Need help with git commit - Error : "error: cannot run gpg: No such file or directory error: could not run gpg. fatal: failed to write commit object"support (self.git)
参考:https://www.reddit.com/r/git/comments/4jflp1/need_help_with_git_commit_error_error_cannot_run/ It ...
Unterminated <c:forEach tag
c:forEach tag意思是这一块有语法错误

2. Attention Is All You Need（Transformer）算法原理解析

1. 语言模型