深度学习之seq2seq模型以及Attention机制

RNN，LSTM，seq2seq等模型广泛用于自然语言处理以及回归预测，本期详解seq2seq模型以及attention机制的原理以及在回归预测方向的运用。

1. seq2seq模型介绍

　　seq2seq模型是以编码（Encode）和解码（Decode）为代表的架构方式，seq2seq模型是根据输入序列X来生成输出序列Y，在翻译，文本自动摘要和机器人自动问答以及一些回归预测任务上有着广泛的运用。以encode和decode为代表的seq2seq模型，encode意思是将输入序列转化成一个固定长度的向量，decode意思是将输入的固定长度向量解码成输出序列。其中编码解码的方式可以是RNN,CNN等。

图1. encode和decode框架

上图为seq2seq的encode和decode结构，采用CNN/LSTM模型。在RNN中，当前时间的隐藏状态是由上一时间的状态和当前时间的输入x共同决定的，即

【编码阶段】

　　得到各个隐藏层的输出然后汇总，生成语义向量

　　也可以将最后的一层隐藏层的输出作为语义向量C

【解码阶段】　

　　这个阶段，我们要根据给定的语义向量C和输出序列y₁,y₂,…y_t−1来预测下一个输出的单词y_t，即

　　也可以写做

　　其中g（）代表的是非线性激活函数。在RNN中可写成 y_t=g(y_t₋₁,h_t,C) ，其中h为隐藏层的输出。

以上就是seq2seq的编码解码阶段，seq2seq模型的抽象框架可描述为下图：

图2. seq2seq抽象框架图

2.Attention机制在seq2seq模型中的运用

2.1 自然语言处理中的Attention机制

　　由于encoder-decoder模型在编码和解码阶段始终由一个不变的语义向量C来联系着，编码器要将整个序列的信息压缩进一个固定长度的向量中去。这就造成了（1）语义向量无法完全表示整个序列的信息，（2）最开始输入的序列容易被后输入的序列给覆盖掉，会丢失许多细节信息。在长序列上表现的尤为明显。

　　Attention模型的引入：

　　相比于之前的encoder-decoder模型，attention模型最大的区别就在于它不在要求编码器将所有输入信息都编码进一个固定长度的向量之中。相反，此时编码器需要将输入编码成一个向量的序列，而在解码的时候，每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。这样，在产生每一个输出的时候，都能够做到充分利用输入序列携带的信息。而且这种方法在翻译任务中取得了非常不错的成果。

　　下图为seq2seq模型加入了Attention注意力机制

图3. Attention注意力机制的seq2seq模型

【seq2seq的attention解码过程】

　　现在定义条件概率：

　　上式 s_i表示解码器 i 时刻的隐藏状态。计算公式为：

　　注意这里的条件概率与每个目标输出 y_i相对应的内容向量 c_i有关。在sea2seq模型中，只有一个语义向量C。‘s’为隐藏层输出，相当于上面提到的h。

　　关键问题是语义向量 C 怎么得到？　　

　　c_i是由编码时的隐藏向量序列(h₁,…,h_T_x)按权重相加得到的。

　　将隐藏向量序列按权重相加，表示在生成第j个输出的时候的注意力分配是不同的。αij的值越高，表示第i个输出在第j个输入上分配的注意力越多，在生成第i个输出的时候受第j个输入的影响也就越大。

　　这意味着在生成每个单词Yi的时候，原先都是相同的中间语义表示C会替换成根据当前生成单词而不断变化的Ci。理解AM模型的关键就是这里，即由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的Ci

　　如何得到 α_ij的权重值？

　　由第i-1个输出隐藏状态 s_i−1和输入中各个隐藏状态共同决定的，即：

　　s_i−1先跟每个h分别计算得到一个数值，然后使用softmax函数得到i时刻的输出在Tx个输入隐藏状态中的注意力分配向量。这个分配向量也就是计算c_i的权重。

图4. 　　分配概率（权值）的计算

　　图4 显示的是Attention模型在计算α_ij的概率分配过程。

对于采用RNN的Decoder来说，如果要生成yi单词，在时刻i，我们是可以知道在生成Yi之前的隐层节点i时刻的输出值Hi的，而我们的目的是要计算生成Yi时的输入句子单词“Tom”、“Chase”、“Jerry”对Yi来说的注意力分配概率分布，那么可以用i时刻的隐层节点状态Hi去一一和输入句子中每个单词对应的RNN隐层节点状态hj进行对比，即通过函数F(hj,Hi)来获得目标单词Yi和每个输入单词对应的对齐可能性，这个F函数在不同论文里可能会采取不同的方法，然后函数F的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配概率分布数值。图4显示的是当输出单词为“汤姆”时刻对应的输入句子单词的对齐概率。绝大多数AM模型都是采取上述的计算框架来计算注意力分配概率分布信息，区别只是在F的定义上可能有所不同。

公式汇总：

【Attention机制类别】

　　Attention机制大的方向可分为 Soft Attention 和 Hard Attention 。

Soft Attention通常是指以上我们描述的这种全连接(如MLP计算Attention 权重)，对每一层都可以计算梯度和后向传播的模型；不同于Soft attention那样每一步都对输入序列的所有隐藏层hj(j=1….Tx) 计算权重再加权平均的方法，Hard Attention是一种随机过程，每次以一定概率抽样，以一定概率选择某一个隐藏层 hj*，在估计梯度时也采用蒙特卡罗抽样Monte Carlo sampling的方法。

图5. Soft Attention 模型

图6. Hard Attention

考虑到计算量，attention的另一种替代方法是用强化学习（Reinforcement Learning）来预测关注点的大概位置。这听起来更像是人的注意力，这也是Recurrent Models of Visual Attention文中的作法。然而，强化学习模型不能用反向传播算法端到端训练，因此它在NLP的应用不是很广泛（我本人反而觉得这里有突破点，数学上的不可求解必然会得到优化，attention model在RL领域的应用确实非常有趣）

参考资料：http://blog.csdn.net/u014595019/article/details/52826423

　　　　　http://blog.csdn.net/wuzqChom/article/details/75792501

　　　　　http://blog.csdn.net/mpk_no1/article/details/72862348

　　　　　http://www.deepnlp.org/blog/textsum-seq2seq-attention/

　　　　　http://blog.csdn.net/malefactor/article/details/50550211

　　　　　http://blog.csdn.net/xbinworld/article/details/54607525

2.2 计算机视觉中的Attention机制

未完待续...

http://blog.csdn.net/sinat_33761963/article/details/53521206　　　　　

深度学习之seq2seq模型以及Attention机制的更多相关文章

深度学习的seq2seq模型——本质是LSTM，训练过程是使得所有样本的p(y1,...,yT‘|x1,...,xT)概率之和最大
from:https://baijiahao.baidu.com/s?id=1584177164196579663&wfr=spider&for=pc seq2seq模型是以编码(En ...
时间序列深度学习：seq2seq 模型预测太阳黑子
目录时间序列深度学习:seq2seq 模型预测太阳黑子学习路线商业中的时间序列深度学习商业中应用时间序列深度学习深度学习时间序列预测:使用 keras 预测太阳黑子递归神经网络设置.预处 ...
深度学习教程 | Seq2Seq序列模型和注意力机制
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...
Seq2Seq模型与 Attention 策略
Seq2Seq模型传统的机器翻译的方法往往是基于单词与短语的统计,以及复杂的语法结构来完成的.基于序列的方式,可以看成两步,分别是 Encoder 与 Decoder,Encoder 阶段就是将输入 ...
【转】[caffe]深度学习之图像分类模型AlexNet解读
[caffe]深度学习之图像分类模型AlexNet解读原文地址:http://blog.csdn.net/sunbaigui/article/details/39938097 本文章已收录于: ...
[caffe]深度学习之图像分类模型VGG解读
一.简单介绍 vgg和googlenet是2014年imagenet竞赛的双雄,这两类模型结构有一个共同特点是go deeper.跟googlenet不同的是.vgg继承了lenet以及alexnet ...
深度学习之 seq2seq 进行英文到法文的翻译
深度学习之 seq2seq 进行英文到法文的翻译 import os import torch import random source_path = "data/small_vocab_ ...
深度学习 vs. 概率图模型 vs. 逻辑学
深度学习 vs. 概率图模型 vs. 逻辑学摘要:本文回顾过去50年人工智能(AI)领域形成的三大范式:逻辑学.概率方法和深度学习.文章按时间顺序展开,先回顾逻辑学和概率图方法,然后就人工智能和机器 ...
Seq2Seq模型与注意力机制
Seq2Seq模型基本原理核心思想:将一个作为输入的序列映射为一个作为输出的序列编码输入解码输出解码第一步,解码器进入编码器的最终状态,生成第一个输出以后解码器读入上一步的输出,生成当前步 ...

随机推荐

126邮箱发送邮件python实现
126邮箱发送邮件python实现 from email.mime.text import MIMEText from email.utils import formataddr import smt ...
解决VMware下安装Ubuntu 16.04 不支持1920X1080分辨率的问题
解决方法: flashmx@ubuntu:~$ cvt # 192.07M9) hsync: 67.16 kHz; pclk: 173.00 MHz Modeline -hsync +vsync fl ...
C# XML序列化方法和常用特性
/* C#对象XML序列化(一):序列化方法和常用特性 .Net Framework提供了对应的System.Xml.Seriazliation.XmlSerializer负责把对象序列化到XML,和 ...
C#-WinForm 串口通信
//C# 的串口通信,是采用serialPort控件,下面是对serialPort控件(也是串口通信必备信息)的配置如下代码: serialPort1.PortName = commcomboBox1 ...
C#打印机操作类
using System; using System.Collections.Generic; using System.Text; namespace MacPrinter { public cla ...
javascript-OOP基础详解
前言 S N 今天给大家详解一下面向对象编程(简称OOP)基础,OOP 语言使我们有能力定义自己的对象和变量类型 .对象拥有属性和方法 . 所以今天就给大家详解对象和类 . 1-1简介 ...
【特效】页面滚动到相应位置运行css3动画
请到我的个人博客网站上浏览此文章,欢迎评论和建议. 文章链接:http://www.xiaoxianworld.com/archives/87 现在css3动画很常见了,实际项目中经常应用,特别是那种 ...
java中==与equel的区别
值类型是存储在内存中的堆栈(以后简称栈),而引用类型的变量在栈中仅仅是存储引用类型变量的地址,而其本身则存储在堆中. ==操作比较的是两个变量的值是否相等,对于引用型变量表示的是两个变量在堆中存储的地 ...
uva1629,Cake Slicing,记忆化搜索
同上个题一样,代码相似度极高,或者说可以直接用一个模板吧 dp[i,j,p,q]表示一块长为j-i+1,宽为q-p+1,左上角在位置(i,j)上的蛋糕,dp[]表示当前状态下的最优值,然后对该块蛋糕枚 ...
MySQL中字段类型为timestamp的小坑
之前遇到过一个MySQL的字段为timestamp类型的小坑. MySQL中一个字段存储时间类型数据的时候,该字段的类型如果为timestamp类型的话,最多只能存储到2038-01-19 11:14 ...

深度学习之seq2seq模型以及Attention机制

深度学习之seq2seq模型以及Attention机制的更多相关文章

随机推荐

热门专题