完全基于卷积神经网络的seq2seq

本文参考文献：

Gehring J, Auli M, Grangier D, et al. Convolutional Sequence to Sequence Learning[J]. arXiv preprint arXiv:1705.03122, 2017.

被引次数：13

Dauphin Y N, Fan A, Auli M, et al. Language modeling with gated convolutional networks[J]. arXiv preprint arXiv:1612.08083, 2016.

被引次数：24

今天要讲的一个模型是由Facebook人工智能研究院提出来的完全基于卷积神经网络的seq2seq框架，seq2seq我在之前的推送中已经讲过好多次了，传统的seq2seq模型是基于RNN来实现的，特别是LSTM，这就带来了计算量复杂的问题。Facebook作出大胆改变，将编码器、解码器、注意力机制甚至是记忆单元全部替换成卷积神经网络，想法是不是简单粗暴？虽然单层CNN只能看到固定范围的上下文，但是将多个CNN叠加起来就可以很容易将有效的上下文范围放大。Facebook将此模型成功地应用到了英语-法语机器翻译、英语-德语机器翻译，不仅刷新了二者前期的记录，而且还将训练速度提高了一个数量级，无论是GPU还是CPU上。

在详细开始介绍Facebook的conv seq2seq模型之前，我们需要回顾一下Gated CNN，这个同样是Facebook在去年底提出来的用于语言建模的模型。

用于语言建模的Gated CNN模型如下图所示，可以看到，最上层的word embedding操作与传统的语言建模没有区别，紧接着就是对这些embedding向量划分时间窗并做卷积操作，注意这里使用了两个卷积神经网络，这两个神经网络中的其中一个通过激活函数一个与另外一个进行相乘，得到最终的输出。说到这里，应该有读者已经发现了其中一个卷积神经网络的功能就是充当了闸门的作用，即控制着多少有用的信息作为最终的输出。同时，实验结果也表明Gated CNN在WikiText-103上取得了较好的效果。

在conv seq2seq这篇文章中，也使用了Gated CNN以及Residual connection，文中的模型结构图如下所示，下面我来仔细说明一下这里的计算细节。

对于编码器，原始的单词首先需要经过embedding层得到其相应的embedding向量，然后将embedding向量作为Gated CNN的输入，这里需要注意的是，为了保证经过卷积操作之后与之前的输入长度一致，卷积需要做pad操作。模型中有两个地方都使用到了GLU(Gated Linear Unit)，我在图中已经用红色字眼标出，编码器的embedding和解码器的embedding分别通过各自的GLU单元得到各自的分布式状态，将两个状态矩阵进行点乘即可得到注意力权重，图中已用红色字体Attention标出，具体的注意力权重的计算如下公式所示：

注意到图中编码器的embedding和编码器的状态进行相加，并且乘上注意力权重，得到的结果文中称之为条件输入c，这里我们可以对比传统的注意力机制，传统的注意力机制是直接将注意力权重和编码器的状态进行相乘，而这里引入了embedding量，文中解释是因为embedding可以在做预测的时候可以结合具体元素的信息，增加了位置感，条件输入c的计算如下图公式所示：

将条件输入c加上解码器的状态，即可得到输出序列的概率，以上就是conv seq2seq的模型结构。作者最终在机器翻译上相比其他RNN的模型速度提高了近10倍！

完全基于卷积神经网络的seq2seq的更多相关文章

深度学习项目——基于卷积神经网络（CNN）的人脸在线识别系统
基于卷积神经网络(CNN)的人脸在线识别系统本设计研究人脸识别技术,基于卷积神经网络构建了一套人脸在线检测识别系统,系统将由以下几个部分构成: 制作人脸数据集.CNN神经网络模型训练.人脸检测.人脸 ...
【RS】Automatic recommendation technology for learning resources with convolutional neural network - 基于卷积神经网络的学习资源自动推荐技术
[论文标题]Automatic recommendation technology for learning resources with convolutional neural network ( ...
基于卷积神经网络的人脸识别项目_使用Tensorflow-gpu+dilib+sklearn
https://www.cnblogs.com/31415926535x/p/11001669.html 基于卷积神经网络的人脸识别项目_使用Tensorflow-gpu+dilib+sklearn ...
基于卷积神经网络的面部表情识别(Pytorch实现)----台大李宏毅机器学习作业3(HW3)
一.项目说明给定数据集train.csv,要求使用卷积神经网络CNN,根据每个样本的面部图片判断出其表情.在本项目中,表情共分7类,分别为:(0)生气,(1)厌恶,(2)恐惧,(3)高兴,(4)难过 ...
Pytorch实现基于卷积神经网络的面部表情识别(详细步骤)
文章目录一.项目背景二.数据处理 1.标签与特征分离 2.数据可视化 3.训练集和测试集三.模型搭建四.模型训练五.完整代码一.项目背景数据集cnn_train.csv包含人类面部表情的图 ...
基于卷积神经网络CNN的电影推荐系统
本项目使用文本卷积神经网络,并使用MovieLens数据集完成电影推荐的任务. 推荐系统在日常的网络应用中无处不在,比如网上购物.网上买书.新闻app.社交网络.音乐网站.电影网站等等等等,有人的地方 ...
基于卷积神经网络的手写数字识别分类(Tensorflow)
import numpy as np import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_dat ...
使用Python+TensorFlow2构建基于卷积神经网络（CNN）的ECG心电信号识别分类（二）
心律失常数据库目前,国际上公认的标准数据库包含四个,分别为美国麻省理工学院提供的MIT-BIH(Massachusetts Institute of Technology-Beth Israel H ...
基于 SoC 的卷积神经网络车牌识别系统设计（0）摘要
NOTES:现如今,芯片行业无比火热啊,无论是前景还是钱景,国家芯片战略的发布,公司四五十万的年薪,着实令人非常的向往,为了支持芯片设计者,集成了工作.科研.竞赛于一体的<基于 SoC 的卷积 ...

随机推荐

iOS开发微信支付的介绍与实现
1.前期准备 1) 到微信开放平台注册账号需要登录邮箱验证填写您的商户信息 2) 进入管理中心 --- 移动应用 --- 创建移动应用 --- 根据页面完善应用资料 3) 审核过后,通过应用详情页 ...
MacOS中创建Sublime Text3快捷方式返回Operation not permitted的原因及解决
在类Unix系统中我们可以很随心的添加一些程序在终端里快捷方法,比如将一些常用的工具放在/usr/bin下面 Sublime Text3是一个小巧精致而又功能强大的程序,而且本猫也安装了Swift语言 ...
Elasticsearch vs Solr 搜索引擎对比和选型
前言全文搜索属于最常见的需求,开源的 Elasticsearch 是目前全文搜索引擎的首选. 基于Lucene它可以快速地储存.搜索和分析海量数据.维基百科.Stack Overflow.Githu ...
【清单】值得「等待」的12个指示加载状态的 js 库
以下优选 GitHub 上高 star 的指示加载状态的 JavaScript 库.另外这里还有10个有意思的 JavaScript 实战小项目供大家学习. 上期入口:一份数据分析学习清单.xls M ...
16 Windows编程——系统内置窗口子类型之edit、ComboBox、ownerbutton、listbox
edit类型的子窗口 ES_MULTILINE:多行输入文本框窗口的消息: WL_COMMAND: EN_CHANGE:当edit窗口内的文本内容改变的时候,edit子窗口给父窗口发送一个WL_CO ...
STM32复位及通过函数判断是何种条件出发的复位
STM32F10xxx支持三种复位形式,分别为系统复位.上电复位和备份区域复位. 一.系统复位: 系统复位将复位所有寄存器至它们的复位状态. 当发生以下任一事件时,产生一个系统复位: 1. NRST引 ...
markdown demo 学习
## <center>2019-05-08 12:05 DDoS攻击检测报告</center> ## - **MME ID**: 1123424 - **DDoS攻击类型**: ...
某网站的videojs的配置及操作
某网站的videojs的配置及操作一.总结一句话总结: 多参照参照别人的例子就好,省事 1.videojs如何获取用户当前视频的位置? this.currentTime() 2.回到视频开始处? ...
【二叉搜索树】PAT-天梯赛- L2-004. 这是二叉搜索树吗？
大致题意: 一棵二叉搜索树可被递归地定义为具有下列性质的二叉树:对于任一结点, 其左子树中所有结点的键值小于该结点的键值: 其右子树中所有结点的键值大于等于该结点的键值: 其左右子树 ...
logstash可以考虑在项目中用起来
在用Node.js开发项目的时候,我们常用 log4js 模块来进行日志的记录,可以通过配置 log4js 的 Appenders 将日志输出到Console.File和GELF等不同的地方. log ...

完全基于卷积神经网络的seq2seq

完全基于卷积神经网络的seq2seq的更多相关文章

随机推荐

热门专题