1. 前言

近年来，NLP领域发展迅速，而机器翻译是其中比较成功的一个应用，自从2016年谷歌宣布新一代谷歌翻译系统上线，神经机器翻译（NMT，neural machine translation）就取代了统计机器翻译（SMT，statistical machine translation），在翻译质量上面获得了大幅的提高。目前神经机器翻译模型主要分为三种：

一种是以rnn为基础的模型，一般是LSTM+attention，顺序处理输入信息。
一种是以cnn为基础的模型，今天要讲的Fairseq就属于这种
一种是完全依靠attention的模型，如谷歌的transformer

2. Fairseq背景

Fairseq 这个翻译模型由Facebook AI实验室在2017年提出，和以往以RNN为基础的翻译模型相比，采用了以cnn为主的模型结构。

RNN的链式结构，能够很好地应用于处理序列信息。但是，RNN也存在着劣势：一个是由于RNN运行时是将序列的信息逐个处理，不能实现并行操作，导致运行速度慢；另一个是传统的RNN并不能很好地处理句子中的结构化信息，或者说更复杂的关系信息。

相比之下，CNN的优势就凸显出来。文章提到用CNN做seq-seq这种翻译任务有3个好处：

通过卷积的叠加可以精确地控制上下文的长度，因为卷积之间的叠加可以通过公式直接计算出感受野是多少，从而知道上下文的长度，RNN虽然理论上有长时记忆的功能，但是在实际的训练过程中，间隔较远的时候，很难学到这种词与词之间的联系。
卷积可以进行并行计算，而RNN模型是时序的，只有前一帧得出结果才能进行后续的计算。
对于输入的一个单词而言，输入CNN网络，所经过的卷积核和非线性计算数量都是固定的，不过对于输入RNN的单词而言，第一个单词要经过n次unit的计算和非线性，但是最后一个单词只经过1次，文章说固定队输入所施加的非线性计算会有助于训练。

3. 模型

模型结构如下图所示：

3.1 Position Embedding

输入除了词向量之外，还加入了位置信息，最后的输入向量为词向量加上位置向量。

词向量:\(w=(w_1,w_2,...w_n)\)

位置向量:\(p=(p_1,p_2,...p_n)\)

最终输入的向量：\(e=(w_1+p_1,w_2+p_2,...w_n+p_n)\)

3.2 Convolutional Block Structure

encoder 和 decoder 都是由l层卷积层构成，encoder输出为\(z^l\)，decoder输出为\(h^l\)。由于卷积网络是层级结构，通过层级叠加能够得到远距离的两个词之间的关系信息。

这里把一次“卷积计算+非线性计算”看作一个单元Convolutional Block，这个单元在一个卷积层内是共享的。

卷积计算：卷积核的大小为\(W^{kd*2d}\)，其中\(d\)为词向量长度，\(k\)为卷积窗口大小，每次卷积生成两列\(d\)维向量
非线性计算：非线性部分采用的是门控结构 gated linear units（GLU）。
encoder的残差连接：把当前层的输入与输出相加，残差的和输入到下一层conv_block网络中。

\[
h_i^l=v(W^l[h_{i-\frac{k}{2}}^{l-1},...,h_{i+\frac{k}{2}}^{l-1}]+b^l_w)+h_i^{l-1}
\]

decoder的残差连接：首先把当前层的输出和encoder的输出做attention计算，结果记为\(c_i\)，再将当前层的输出和\(c_i\)相加，再将结果和当前层的输入相加，最后的残差的和输入到下一层conv_block网络中。

\[
h_i^l=[v(W^l[h_{i-\frac{k}{2}}^{l-1},...,h_{i+\frac{k}{2}}^{l-1}]+b^l_w)+c_i]+h_i^{l-1}
\]

输出：decoder的最后一层卷积层的最后一个单元输出经过softmax得到下一个目标词的概率。

\[
p = softmax(Wh^L+b)
\]

3.3 Multi-step Attention

原理与传统的attention相似，attention权重由decoder的当前输出\(h_i\)和encoder的的所有输出\(z_i\)共同决定，利用该权重对encoder的输出进行加权，得到了表示输入句子信息的向量\(c_i\)，\(c_i\)和\(h_i\)相加组成新的\(h_i\)。计算公式如下:
\[
d^l_i=W^l_dh^l_i+b_d^l+g_i
\]
\[
a^l_{ij}=\frac{exp(d_i^lz_j^u)}{\sum_{j=1}^mexp(d_i^lz_j^u)}
\]
\[
c^l_{i}=\sum_{j=1}^ma_{ij}^l(z_j^u+e_j)
\]
这里\(a_{ij}^l\)是权重信息，采用了向量点积的方式再进行softmax操作，这里向量点积可以通过矩阵计算，实现并行计算。

最终得到\(c_i\)和\(h_i\)相加组成新的\(h_i\)。如此，在每一个卷积层都会进行 attention 的操作，得到的结果输入到下一层卷积层，这就是多跳注意机制multi-hop attention。这样做的好处是使得模型在得到下一个主意时，能够考虑到之前的已经注意过的词。

4. 总结

将CNN成功应用于seq2seq任务中，发挥了CNN并行计算和层级结构的优势。CNN的并行计算明显提高了运行速度，同时CNN的层级结构方便模型发现句子中的结构信息。

同时模型中的一些细节处理，比如非线性部分采用的是门控结构 gated linear units（GLM），多跳注意机制multi-hop attention，都是模型效果提升的关键。

Facebook的Fairseq模型详解(Convolutional Sequence to Sequence Learning)的更多相关文章

ASP.NET Core的配置（2）：配置模型详解
在上面一章我们以实例演示的方式介绍了几种读取配置的几种方式,其中涉及到三个重要的对象,它们分别是承载结构化配置信息的Configuration,提供原始配置源数据的ConfigurationProvi ...
ISO七层模型详解
ISO七层模型详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在我刚刚接触运维这个行业的时候,去面试时总是会做一些面试题,笔试题就是看一个运维工程师的专业技能的掌握情况,这个很 ...
28、vSocket模型详解及select应用详解
在上片文章已经讲过了TCP协议的基本结构和构成并举例,也粗略的讲过了SOCKET,但是讲解的并不完善,这里详细讲解下关于SOCKET的编程的I/O复用函数. 1.I/O复用:selec函数在介绍so ...
第94天：CSS3 盒模型详解
CSS3盒模型详解盒模型设定为border-box时 width = border + padding + content 盒模型设定为content-box时 width = content所谓定 ...
JVM的类加载过程以及双亲委派模型详解
JVM的类加载过程以及双亲委派模型详解这篇文章主要介绍了JVM的类加载过程以及双亲委派模型详解,类加载器就是根据指定全限定名称将 class 文件加载到 JVM 内存,然后再转化为 class 对象 ...
云时代架构阅读笔记六——Java内存模型详解（二）
承接上文:云时代架构阅读笔记五——Java内存模型详解(一) 原子性.可见性.有序性 Java内存模型围绕着并发过程中如何处理原子性.可见性和有序性这三个特征来建立的,来逐个看一下: 1.原子性(At ...
css 06-CSS盒模型详解
06-CSS盒模型详解 #盒子模型 #前言盒子模型,英文即box model.无论是div.span.还是a都是盒子. 但是,图片.表单元素一律看作是文本,它们并不是盒子.这个很好理解,比如说,一张 ...
图解机器学习 | LightGBM模型详解
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/34 本文地址:http://www.showmeai.tech/article-det ...
flink内存模型详解与案例
任务提交时的一些yarn设置(通用客户端模式) 指定并行度 -p 5 \ 指定yarn队列 -Dyarn.appl ...

随机推荐

Runway for Mac（UML 流程图绘图工具）破解版安装
1.软件简介 Runway 是 macOS 系统上一款强大实用的软件开发工具,Runway for Mac 是一个界面简单功能强大的UML设计师.此外,Runway for Mac 带给你所有你 ...
Spring MVC @PathVariable被截断
一.问题描述一个控制器提供RESTful访问信息: @RequestMapping(method = RequestMethod.GET, value = Routes.BLAH_GET + &qu ...
MongoDB 学习笔记（1）
数据库一个mongodb中可以建立多个数据库. MongoDB的默认数据库为"db",该数据库存储在data目录中. MongoDB的单个实例可以容纳多个独立的数据库,每一个都有 ...
Oracle数据库中number类型在java中的使用
1)如果不指定number的长度,或指定长度n>18 id number not null,转换为pojo类时,为java.math.BigDecimal类型 2)如果number的长度在10 ...
另辟蹊径直取通州的“墨迹天气”APP应用的成功故事
一个天气应用,曾被认为是要挑战国家气象局,网站也莫名其妙地被封,两个合伙人先后离开.创始人金犁是如何把这么一款工具类应用做到人所共知的? 采访 | 郑江波翟文婷文 | 翟文婷出生时间:1982年 ...
swagger配置和简单使用
说明:本地环境idea + maven3.5 + springboot2.0.0 + springfox-swagger2 2.8.0 + springfox-swagger-ui 2.8.0 + ...
Matlab之视角旋转函数[转]
Matlab中有两个视角旋转函数:view和rotate,下面详细介绍: view: 一: view(az,el):az是方位角,el是仰角,单位均是度.具体: 以x轴从左到右(即从小到大)平行放置在 ...
shell编程入门（一）
运行Linux程序有三种方法: (1).使文件具有可执行权限,直接运行文件. (2).直接调用命令解释器执行程序(Linux shell是一种解释型语言). (3).使用source执行文件第一种: ...
好的 IOS 学习网站
http://www.objc.io/contributors.html codeproject. http://www.codeproject.com/KB/iPhone/
【Android开发】Android应用程序目录结构
原文:http://android.eoe.cn/topic/summary Android开发之旅:组件生命周期吴秦 Android开发之旅:HelloWorld项目的目录结构 * HelloWor ...

Facebook的Fairseq模型详解(Convolutional Sequence to Sequence Learning)