对Neural Machine Translation by Jointly Learning to Align and Translate论文的详解

读论文
Neural Machine Translation by Jointly Learning to Align and Translate

这个论文是在NLP中第一个使用attention机制的论文。他们把attention机制用到了神经网络机器翻译（NMT）上。NMT其实就是一个典型的sequence to sequence模型，也就是一个encoder to decoder模型，传统的NMT使用两个RNN，一个RNN对源语言进行编码，将源语言编码到一个固定维度的中间向量，然后在使用一个RNN进行解码翻译到目标语言。

直接来看这个模型

$c_{i} = \sum_{j=1}^{T_{x}}\alpha_{i,j}h_{j}$

$\alpha_{i,j} = \frac{exp(e_{i,j})}{\sum_{k=1}^{T_{x}}exp(e_{i,k})}$

$e_{ij} = a(s_{i-1},h_{j})$

我们使用一个前馈神经网络来对对齐网络模型$a$进行参数化。（在这里有一个知识点需要取了解什么是前馈神经网络）。对于这个前馈神经网络模型，是整体模型的一部分，所以参数会随着整体模型的其他部分异同进行训练更新，而不是单独把这个模型拿出来训练。

值得注意的是这个对齐模型并不是一个隐变量（什么是隐变量在这里有一个解释。这个对齐模型是一个软对齐模型，允许损失函数的梯度进行反向传播并更新(这里我并没有看懂，为啥软对齐模型可以达到这个效果)。换句话讲，这个对齐模型可以和整个翻译模型一起进行训练更新。

我们把计算隐层状态权重和的过程可以理解为一个求期望隐层状态表达的过程。
我们可以把$\alpha_{i,j}或者是说与它相关$当做是一个概率。这个概率的含义就是目标单词$y_{i}$和源单词$x_{j}$对齐的概率。或者说，目标单词$y_{i}$是从源单词$x_{j}$翻译过来的概率带下。然后对于目标单词$y_{i}$来说的，它的环境向量$c_{i}$是一个期望中的表达，这个表达是基于annotations（这里指的是所有的隐层状态）和相对应的$\alpha_{ij}$的结合计算。

$\alpha_{i,j}$或者$e_{i,j}$反应出的是$h_{j}$和上一层隐层状态$s_{i-1}$对于下一个隐层状态$s_{i}$和下一个单元输出$y_{i}$

解码器应用这个attention机制，从而决定在原始句子中的哪个部分需要花费更多的注意力。通过使用这个机制，编码器消除了一个负担，这个负担就是不得不把所有的原始句子信息经过神经网络由一个固定长度的向量表达。其实用了这个机制，长度也是固定的，只不过对于现在这个机制，这个向量会针对不同的目标单词有着不同的环境向量。

我自己有一个思考，在整个模型训练完成之后，我们得到的应该是一个权重矩阵C。为什么这么说呢，因为针对每个目标单词，我们都有一行的权重（其中这一行的每一个权重值代表的是输入句子中的每个单词的重要程度）。

对于这个权重矩阵$C_{i}$是权重矩阵的一行，表示对于目标单词$y_{i}$输入句子每个单词对应的重要程度。

对于$\alpha_{i.j}$,它表示的是一个单词的重要程度，是$C_{i}$中的一个具体单词的重要程度。

现在我自己有一种感觉，就是说，这个权重矩阵，学习的重要程度，从现在我直观感受来说，它是一种两种翻译语言的语法关系。是输入句子一个位置对输出句子中的一个位置的影响程度，这个并没有体现出意思之间的对应的关系。

我们使用的是只有一层的多层感知机来计算$a(s_{i-1},h_{j})=v_{a}^Ttanh(W_{a}s_{i-1}+U_{a}h_{j}$

(其实这里并没有搞清楚为啥是一个多层感知机模式。多层感知机其实是一个最简单的神经网络模型，如果看做是一个多层感知机，那么输入是$s_{i-1}$和$h_{j}$,怎么会有两个输入呢？)

在原始论文中，作者说$U_{a}h_{j}$并没有依赖于$i$，那么我们可以提前将这个东西算出来减少计算消耗。（那么这一步提前算出来是怎么实现的呢？）

对Neural Machine Translation by Jointly Learning to Align and Translate论文的详解的更多相关文章

神经机器翻译 - NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 综述背景及问题背景: 翻译: 翻译模型学习条件分布 ...
[笔记] encoder-decoder NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
原文地址 :[1409.0473] Neural Machine Translation by Jointly Learning to Align and Translate (arxiv.org) ...
课程五(Sequence Models)，第三周（Sequence models & Attention mechanism） —— 1.Programming assignments：Neural Machine Translation with Attention
Neural Machine Translation Welcome to your first programming assignment for this week! You will buil ...
Sequence Models Week 3 Neural Machine Translation
Neural Machine Translation Welcome to your first programming assignment for this week! You will buil ...
Effective Approaches to Attention-based Neural Machine Translation(Global和Local attention)
这篇论文主要是提出了Global attention 和 Local attention 这个论文有一个译文,不过我没细看 Effective Approaches to Attention-base ...
On Using Very Large Target Vocabulary for Neural Machine Translation Candidate Sampling Sampled Softmax
[softmax分类器的加速器] https://www.tensorflow.org/api_docs/python/tf/nn/sampled_softmax_loss This is a fas ...
【转载 | 翻译】Visualizing A Neural Machine Translation Model（神经机器翻译模型NMT的可视化）
转载并翻译Jay Alammar的一篇博文:Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models Wi ...
Learning Cocos2d-x for WP8（5）——详解Menu菜单
原文:Learning Cocos2d-x for WP8(5)--详解Menu菜单 C#(wp7)兄弟篇Learning Cocos2d-x for XNA(5)——详解Menu菜单菜单是游戏必不 ...
Introduction to Neural Machine Translation - part 1
The Noise Channel Model $p(e)$: the language Model $p(f|e)$: the translation model where, $e$: ...

随机推荐

jwt-simple过期时间不对问题
今天用node写后台,登录认证使用了token,然后就使用了简单的jwt-simple,但是发现设置的过期时间不对,一直没有提示过期,但是明明是已经过期了的时间,于是检查了下jwt-simple的源代 ...
轻松解决 Eclipse Indigo 3.7 中文字体偏小，完美 Consolas 微软雅黑混合字体！（转）
在 Windows 7 下初始后化,发现界面变化不大,但中文字体却面目全非,小得根本看不见,而且也看起来很不爽.其实这是 Eclipse 的默认字体换了,以前的一直是 Courier New ,这次e ...
selenium Element not found in the cache - perhaps the page has changed since it was looked up接解决
selenium Element not found in the cache - perhaps the page has changed since it was looked up.这个问题爆出 ...
hermite 相关算法整理
设f(x)f(x)在节点a≤x0,x1,⋯,xn≤ba≤x0,x1,⋯,xn≤b处的函数值为f0,f1,...,fnf0,f1,...,fn,设P(x)为f(x)P(x)为f(x)在区间[a,b][a ...
php的yii框架开发总结8
EMailer是一个简单的封装PHPMailer类.利用这个扩展可以实现发邮件的功能. 下载地址:http://www.yiiframework.com/extension/mailer/ 下载解压把 ...
hive数据仓库建设
hive数据仓库建设 1.设计原生日志表原生日志表用来存放上报的原始日志,数据经过清洗加工后会进入到各个日志表中. 1.1 创建数据库 #创建数据库 $hive>create database ...
【Tim Sweeney】Why C++ for Unreal 4?
The first three generations of the Unreal Engine included a sandboxed scripting language, UnrealScri ...
前端高质量知识(三)-JS变量对象详解
在JavaScript中,我们肯定不可避免的需要声明变量和函数,可是JS解析器是如何找到这些变量的呢?我们还得对执行上下文有一个进一步的了解. 在上一篇文章中,我们已经知道,当调用一个函数时(激活), ...
【CCPC-Wannafly Winter Camp Day4 (Div1) C】最小边覆盖（简单题）
点此看题面大致题意: 给你一个边集的子集,问你这可不可能是这张图的最小边覆盖. 大致思路考虑到,如果一条边连接的两个点度数都大于等于$2$,则这条边完全可以删去. 因此,我们只要判断是否存在这 ...
【洛谷2605】[ZJOI2010] 基站选址（线段树维护DP）
点此看题面大致题意: 有$n$个村庄,每个村庄有$4$个属性:$D_i$表示与村庄$1$的距离,$C_i$表示建立基站的费用,$S_i$表示能将其覆盖的建基站范围,\(W_i ...

对Neural Machine Translation by Jointly Learning to Align and Translate论文的详解

对Neural Machine Translation by Jointly Learning to Align and Translate论文的详解的更多相关文章

随机推荐

热门专题