seq2seq+attention解读

1什么是注意力机制？

Attention是一种用于提升Encoder + Decoder模型的效果的机制。

2.Attention Mechanism原理

要介绍Attention Mechanism结构和原理，首先需要介绍下Seq2Seq模型的结构。Seq2Seq模型，想要解决的主要问题是，如何把机器翻译中，变长的输入X映射到一个变长输出Y的问题，其主要结构如图3所示。

图3 传统的Seq2Seq结构

从图中可以看出，seq2seq模型分为两个阶段：编码阶段和解码阶段。

编码阶段：

把一个变长的输入序列x1，x2，x3....xt输入RNN,LSTM或GRU模型，然后将得到各个隐藏层的输出进行汇总，生成语义向量：

也可以将最后的一层隐藏层的输出作为语义向量C ：

这里的语义向量c有两个作用：1、做为decoder模型预测y1的初始向量。2、做为语义向量，指导y序列中每一个step的y的产出。

解码阶段：

Decoder主要是基于语义向量c和上一步的输出yi-1解码得到该时刻t的输出yi：

yi=g(yi-1，Si，C）

其中Si为隐藏层的输出。其中g代表的是非线性激活函数。

直到碰到结束标志（<EOS>）,解码结束。

以上就是seq2seq的编码解码阶段。从上面可以看出，该模型存在两个明显的问题：

1、把输入X的所有信息有压缩到一个固定长度的隐向量C。当输入句子长度很长，特别是比训练集中最初的句子长度还长时，模型的性能急剧下降。

2、把输入X编码成一个固定的长度，对于句子中每个词都赋予相同的权重，这样做是不合理的，比如，在机器翻译里，输入的句子与输出句子之间，往往是输入一个或几个词对应于输出的一个或几个词。因此，对输入的每个词赋予相同权重，这样做没有区分度，往往是模型性能下降。

因此，需要引入Attention Mechanism来解决这个问题。

我们将解码yi时的公式改为如下形式：

yi=g(yi-1，Si，Ci）

即不同时刻的输出y使用不同的语义向量。

其中，si是decoder中RNN在在i时刻的隐状态，其计算公式为：

这里的语义向量ci的计算方式，与传统的Seq2Seq模型直接累加的计算方式不一样，这里的ci是一个权重化（Weighted）之后的值，其表达式如公式5所示：

其中，i表示decoder端的第i个词，hj表示encoder端的第j个词的隐向量，aij表示encoder端的第j个词与decoder端的第i个词之间的权值，表示源端第j个词对目标端第i个词的影响程度，aij的计算公式如公式6所示：

在公式6中，aij是一个softmax模型输出，概率值的和为1。eij用于衡量encoder端的位置j个词，对于decoder端的位置i个词的影响程度，换句话说：decoder端生成位置i的词时，有多少程度受encoder端的位置j的词影响。eij的计算方式有很多种，不同的计算方式，代表不同的Attention模型，最简单且最常用的的对齐模型是dot product乘积矩阵，即把解码端的输出隐状态ht与编码端的输出隐状态hs进行矩阵乘。常见的对齐计算方式如下：

常见的计算方式有以上几种方式。点乘（Dot product），权值网络映射（General）和concat映射几种方式。

seq2seq+attention解读的更多相关文章

DL4NLP —— seq2seq+attention机制的应用：文档自动摘要（Automatic Text Summarization）
两周以前读了些文档自动摘要的论文,并针对其中两篇( [2] 和 [3] )做了presentation.下面把相关内容简单整理一下. 文本自动摘要(Automatic Text Summarizati ...
seq2seq attention
1.seq2seq:分为encoder和decoder a.在decoder中,第一时刻输入的是上encoder最后一时刻的状态,如果用了双向的rnn,那么一般使用逆序的最后一个时刻的输出(网上说实验 ...
深度学习中的序列模型演变及学习笔记（含RNN/LSTM/GRU/Seq2Seq/Attention机制）
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...
Tensorflow Seq2seq attention decode解析
tensorflow基于 Grammar as a Foreign Language实现,这篇论文给出的公式也比较清楚. 这里关注seq2seq.attention_decode函数, 主要输入 de ...
seq2seq&attention图解
NLP Attention
一.概述自动摘要可以从很多角度进行分类,例如单文档摘要/多文档摘要.单语言摘要/跨语言摘要等.从技术上说,普遍可以分为三类: i. 抽取式摘要(extractive),直接从原文中抽取一些句子组成摘 ...
attention 汇总（持续）
Seq2seq Attention Normal Attention 1. 在decoder端,encoder state要进行一个线性变换,得到r1,可以用全连接,可以用conv,取决于自己,这里 ...
Attention & Transformer
Attention & Transformer seq2seq; attention; self-attention; transformer; 1 注意力机制在NLP上的发展 Seq2Seq ...
NLP之基于Seq2Seq和注意力机制的句子翻译
Seq2Seq(Attention) @ 目录 Seq2Seq(Attention) 1.理论 1.1 机器翻译 1.1.1 模型输出结果处理 1.1.2 BLEU得分 1.2 注意力模型 1.2.1 ...

随机推荐

编程范式 --- 函数式编程（Funtional Programming，简称FP）
函数式编程(Funtional Programming,简称FP)是一种编程范式,也就是如何编写程序的方法论主要思想:把计算过程尽量分解成一系列可复用函数的调用主要特征:函数是"第一等公 ...
Spring boot 梳理 - 配置eclipse集成maven，并开发Spring boot hello
@RestController @EnableAutoConfiguration public class App { @RequestMapping("/hello") publ ...
xampp修改mysql 启动脚本
打开xmapp,点击mysql对应的config按钮进入my.ini文件,如图所示: 修改mysqld服务的port参数3306为你想要设置的port,如图2所示: 重新启动mysql服务即可用客户端 ...
jedis 2.9版本部分属性变更
1.控制一个pool可分配多少个jedis实例 “maxActive” -> “maxTotal” 2.最大建立连接等待时间.如果超过此时间将接到异常.设为-1表示无限制. “maxWait” ...
安装/删除MySQL数据库
MySQL的数据存储目录为data,data目录通常在C:\Documents and Settings\All Users\Application Data\MySQL\MySQL Server 5 ...
一个网站完整的SEO优化方案，方法，怎么做seo优化？
SEO优化主要分为站内优化,站外优化.如果非得说一套完整的SEO优化方案,那就是需要4名专业人员:前端人员,内容编辑,网络推广人员,和数据分析人员.那以下就详细介绍这四个岗位各自负责的工作有哪些: 一 ...
C语言复习————基本数据类型、运算符和表达式
数据类型/运算符/表达式主要分两部分介绍,第一部分介绍常用的数据类型,例如:常量和变量/整型/实型/字符型:第二部分介绍算数运算符和算数表达式以及赋值运算符和逗号运算符. 一. 常用的数据类型 1. ...
Spring Boot(四) Mybatis-MySql
Spring Boot(四) Mybatis-MySql 0.准备数据库表 -- ---------------------------- -- Table structure for person ...
Spring Boot 2.x 基础案例：整合Dubbo 2.7.3+Nacos1.1.3（最新版）
1.概述本文将介绍如何基于Spring Boot 2.x的版本,通过Nacos作为配置与注册中心,实现Dubbo服务的注册与消费. 整合组件的版本说明: Spring Boot 2.1.9 Dubb ...
Linux Shell 基础知识（二）
1.本文知识结构 2.文件的查询与检索 2.1. cd 目录切换找到文件/目录位置:cd 切换到上一个工作目录: cd - 切换到home目录: cd or cd ~ 显示当前路径: pwd 更改当 ...

seq2seq+attention解读

seq2seq+attention解读的更多相关文章

随机推荐

热门专题