1. 前言

谷歌在2017年发表了一篇论文名字教Attention Is All You Need，提出了一个只基于attention的结构来处理序列模型相关的问题，比如机器翻译。传统的神经机器翻译大都是利用RNN或者CNN来作为encoder-decoder的模型基础，而谷歌最新的只基于Attention的Transformer模型摒弃了固有的定式，并没有用任何CNN或者RNN的结构。该模型可以高度并行地工作，所以在提升翻译性能的同时训练速度也特别快。

2. Transformer模型结构

Transformer的主体结构图：

2.1 Transformer的编码器解码器

模型分为编码器和解码器两个部分。

编码器由6个相同的层堆叠在一起，每一层又有两个支层。第一个支层是一个多头的自注意机制，第二个支层是一个简单的全连接前馈网络。在两个支层外面都添加了一个residual的连接，然后进行了layer nomalization的操作。模型所有的支层以及embedding层的输出维度都是\(d_{model}\)。
解码器也是堆叠了六个相同的层。不过每层除了编码器中那两个支层，解码器还加入了第三个支层，如图中所示同样也用了residual以及layer normalization。具体的细节后面再讲。

2.2 输入层

编码器和解码器的输入就是利用学习好的embeddings将tokens（一般应该是词或者字符）转化为d维向量。对解码器来说，利用线性变换以及softmax函数将解码的输出转化为一个预测下一个token的概率。

2.3 位置向量

由于模型没有任何循环或者卷积，为了使用序列的顺序信息，需要将tokens的相对以及绝对位置信息注入到模型中去。论文在输入embeddings的基础上加了一个“位置编码”。位置编码和embeddings由同样的维度都是\(d_{model}\)所以两者可以直接相加。有很多位置编码的选择，既有学习到的也有固定不变的。

2.4 Attention模型

2.4.1 Scaled attention

论文中用的attention是基本的点乘的方式，就是多了一个所谓的scale。输入包括维度为\(d_k\)的queries以及keys，还有维度为\(d_v\)的values。计算query和所有keys的点乘，然后每个都除以\(\sqrt{d_k}\)（这个操作就是所谓的Scaled）。之后利用一个softmax函数来获取values的权重。
实际操作中，attention函数是在一些列queries上同时进行的，将这些queries并在一起形成一个矩阵\(Q\)同时keys以及values也并在一起形成了矩阵\(K\)以及\(V\)。则attention的输出矩阵可以按照下述公式计算：

\[
Attention(Q,K,V) = softmax({QK^T\over {\sqrt {d_k}}})V
\]

2.4.2 Multi-Head Attention

本文结构中的Attention并不是简简单单将一个点乘的attention应用进去。作者发现先对queries，keys以及values进行\(h\)次不同的线性映射效果特别好。学习到的线性映射分别映射到\(d_k\)，\(d_k\)以及\(d_v\)维。分别对每一个映射之后的得到的queries，keys以及values进行attention函数的并行操作，生成\(dv\)维的output值。具体结构和公式如下。

\[
MultiHead(Q,K,V) = Concat(head_1,...,head_h)
\]

\[
where: head_i = Attention(Q{W_i}^Q,K{W_i}^K,V{W_i}^V)
\]

2.4.3 模型中的attention

Transformer以三种不同的方式使用了多头attention。

在encoder-decoder的attention层，queries来自于之前的decoder层，而keys和values都来自于encoder的输出。这个类似于很多已经提出的seq2seq模型所使用的attention机制。
在encoder含有self-attention层。在一个self-attention层中，所有的keys,values以及queries都来自于同一个地方，本例中即encoder之前一层的的输出。
类似的，decoder中的self-attention层也是一样。不同的是在scaled点乘attention操作中加了一个mask的操作，这个操作是保证softmax操作之后不会将非法的values连到attention中。

2.4.4 Feed Foreword

每层由两个支层，attention层就是其中一个，而attention之后的另一个支层就是一个前馈的网络。公式描述如下。
\[
FFN(x) = max(0,xW_1 + b_1)W_2 + b_2
\]

3. 总结

模型的整体框架基本介绍完了，其最重要的创新应该就是Self-Attention和Multi-Head Attention的架构。在摒弃传统CNN和RNN的情况下，还能提高表现，降低训练时间。Transformer用于机器翻译任务，表现极好，可并行化，并且大大减少训练时间。并且也给我们开拓了一个思路，在处理问题时可以增加一种结构的选择。

2. Attention Is All You Need（Transformer）算法原理解析的更多相关文章

3. ELMo算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
4. OpenAI GPT算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
5. BERT算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
PhotoShop算法原理解析系列 - 像素化---》碎片。
接着上一篇文章的热度,继续讲讲一些稍微简单的算法吧. 本文来讲讲碎片算法,先贴几个效果图吧: 这是个破坏性的滤镜,拿美女来说事是因为搞图像的人90%是男人,色色的男人. 关于碎 ...
PhotoShop算法原理解析系列 - 风格化---》查找边缘。
之所以不写系列文章一.系列文章二这样的标题,是因为我不知道我能坚持多久.我知道我对事情的表达能力和语言的丰富性方面的天赋不高.而一段代码需要我去用心的把他从基本原理-->初步实现-->优化 ...
FastText算法原理解析
1. 前言自然语言处理(NLP)是机器学习,人工智能中的一个重要领域.文本表达是 NLP中的基础技术,文本分类则是 NLP 的重要应用.fasttext是facebook开源的一个词向量与文本分类工 ...
LRU算法原理解析
LRU是Least Recently Used的缩写,即最近最少使用,常用于页面置换算法,是为虚拟页式存储管理服务的. 现代操作系统提供了一种对主存的抽象概念虚拟内存,来对主存进行更好地管理.他将主存 ...
最全排序算法原理解析、java代码实现以及总结归纳
算法分类十种常见排序算法可以分为两大类: 非线性时间比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn),因此称为非线性时间比较类排序. 线性时间非比较类排序:不通过 ...
[阅读笔记]Attention Is All You Need - Transformer结构
Transformer 本文介绍了Transformer结构, 是一种encoder-decoder, 用来处理序列问题, 常用在NLP相关问题中. 与传统的专门处理序列问题的encoder-deco ...

随机推荐

uva 674 Coin Change 换钱币【完全背包】
题目链接:https://vjudge.net/contest/59424#problem/A 题目大意: 有5种硬币, 面值分别为1.5.10.25.50,现在给出金额,问可以用多少种方式组成该面值 ...
Spring框架学习07——基于传统代理类的AOP实现
在Spring中默认使用JDK动态代理实现AOP编程,使用org.springframework.aop.framework.ProxyFactoryBean创建代理是Spring AOP 实现的最基 ...
安卓，网页控件，显示网页 Android, web controls, display web pages
安卓,网页控件,显示网页Android, web controls, display web pages 作者:韩梦飞沙 Author:han_meng_fei_sha 邮箱:313134555@qq ...
洛谷P2982 [USACO10FEB]慢下来Slowing down(线段树 DFS序区间增减单点查询)
To 洛谷.2982 慢下来Slowing down 题目描述 Every day each of Farmer John's N (1 <= N <= 100,000) cows con ...
BZOJ.3620.似乎在梦中见过的样子(KMP)
题目链接 /* 896kb 6816ms A+B+A是KMP的形式,于是固定左端点,对于每个位置i,若fail[i]所能到的点k中(k=fail[fail[fail[...]]]),有满足len(l~ ...
使用HttpClient请求，问题记录
上篇博客说到使用单例HttpClient,以GET请求方法为例.可以看到对于Http请求头中Authorization参数,会根据传入的accessToken是否为空来判断是否添加此请求头. publ ...
dhtmlxTreeGrid
最终效果(只添加了一级子树,可以根据需求增加级数,方法在后面). HTML和js代码 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Tran ...
通过html页面打开Android本地的app
http://www.cnblogs.com/yejiurui/p/3413796.html 一.通过html页面打开Android本地的app 1.首先在编写一个简单的html页面 <html ...
android_双击退出
/** * 设置高速双击退出程序 */ @Override public boolean onKeyDown(int keyCode, KeyEvent event) { // TODO Auto-g ...
vim less vi 不显示富文本 ESC
如图: 使用 less -r xxx.log 即可显示如下

2. Attention Is All You Need（Transformer）算法原理解析

1. 语言模型