深度学习之Attention Model（注意力模型）

1、Attention Model 概述

　　深度学习里的Attention model其实模拟的是人脑的注意力模型，举个例子来说，当我们观赏一幅画时，虽然我们可以看到整幅画的全貌，但是在我们深入仔细地观察时，其实眼睛聚焦的就只有很小的一块，这个时候人的大脑主要关注在这一小块图案上，也就是说这个时候人脑对整幅图的关注并不是均衡的，是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。

　　人脑的注意力模型，说到底是一种资源分配模型，在某个特定时刻，你的注意力总是集中在画面中的某个焦点部分，而对其它部分视而不见。

2、Encoder-Decoder框架

　所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。seq2seq问题简单的说，就是根据一个输入序列x，来生成另一个输出序列y。常见的应用有机器翻译，文档提取，问答系统等。Encoder-Decoder模型中的编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。

　　Encoder-Decoder（编码-解码）是深度学习中非常常见的一个模型框架，比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的；比如这两年比较热的image caption的应用，就是CNN-RNN的编码-解码框架；再比如神经网络机器翻译NMT模型，往往就是LSTM-LSTM的编码-解码框架。因此，准确的说，Encoder-Decoder并不是一个具体的模型，而是一类框架。Encoder和Decoder部分可以是任意的文字，语音，图像，视频数据，模型可以采用CNN，RNN，BiRNN、LSTM、GRU等等。所以基于Encoder-Decoder，我们可以设计出各种各样的应用算法。

　　Encoder-Decoder框架可以看作是一种文本处理领域的研究模式，应用场景异常广泛，下图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示：

　　对于句子对<X,Y>，我们的目标是给定输入句子X，期待通过Encoder-Decoder框架来生成目标句子Y。X和Y可以是同一种语言，也可以是两种不同的语言。而X和Y分别由各自的单词序列构成：

　　Encoder顾名思义就是对输入句子X进行编码，将输入句子通过非线性变换转化为中间语义表示C：

　　对于解码器Decoder来说，其任务是根据句子X的中间语义表示C和之前已经生成的历史信息y₁, y₂….y_i-1来生成i时刻要生成的单词y_i

3、Attention Model

　　在Encoder-Decoder框架中，在预测每一个y_i时对应的语义编码c都是一样的，也就意味着无论句子X中的每个单词对输出Y中的每一个单词的影响都是相同的。这样就会产生两个弊端：一是语义向量无法完全表示整个序列的信息，再者就是先输入的内容携带的信息会被后输入的信息稀释掉，或者说，被覆盖了。输入序列越长，这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息，那么解码的准确度自然也就要打个折扣了。

　　为了解决上面的弊端，就需要用到我们的Attention Model（注意力模型）来解决该问题。在机器翻译的时候，让生成词不是只能关注全局的语义编码向量c，而是增加了一个“注意力范围”，表示接下来输出词时候要重点关注输入序列中的哪些部分，然后根据关注的区域来产生下一个输出。模型结构如下：

　　此时生成目标句子单词的过程就成了下面的形式：

　　比如输入的是英文句子：Tom chase Jerry，Encoder-Decoder框架逐步生成中文单词：“汤姆”，“追逐”，“杰瑞”。在没加入Attention Model之前，生成的语义编码C是一致的，而加入之后，对应的语义编码可能如下：

　　其中，f2函数代表Encoder对输入英文单词的某种变换函数，比如如果Encoder是用的RNN模型的话，这个f2函数的结果往往是某个时刻输入xi后隐层节点的状态值；g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数，一般的做法中，g函数就是对构成元素加权求和，也就是常常在论文里看到的下列公式：

　　假设C_i中那个i就是上面的“汤姆”，那么T_x就是3，代表输入句子的长度，h₁=f(“Tom”)，h₂=f(“Chase”)，h₃=f(“Jerry”)，对应的注意力模型权值分别是0.6, 0.2, 0.2，所以g函数就是个加权求和函数。如果形象表示的话，翻译中文单词“汤姆”的时候，数学公式对应的中间语义表示Ci的形成过程类似下图：

　　这里还有一个问题：生成目标句子某个单词，比如“汤姆”的时候，你怎么知道AM模型所需要的输入句子单词注意力分配概率分布值呢？就是说“汤姆”对应的概率分布：

　　此时的Encoder和Decoder都采用RNN模型，我们来看看现在的Encoder-Decoder模型结构：

　　用下图可以较为便捷地说明注意力分配概率分布值的通用计算过程：

　　对于采用RNN的Decoder来说，如果要生成yi单词，在时刻t = i，我们是可以知道在生成Y_i之前的隐层节点t = i时刻的输出值Hⁱ的，而我们的目的是要计算生成Y_i时的输入句子单词“Tom”、“Chase”、“Jerry”对Y_i来说的注意力分配概率分布，那么可以用t = i时刻的隐层节点状态H_i去一一和输入句子中每个单词对应的RNN隐层节点状态h_j进行对比，即通过函数F(h_j, H_i)来获得目标单词Y_i和每个输入单词对应的对齐可能性，这个F函数在不同论文里可能会采取不同的方法，然后函数F的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配概率分布数值。绝大多数AM模型都是采取上述的计算框架来计算注意力分配概率分布信息，区别只是在F的定义上可能有所不同。

4、论文中模型简述

　　论文中的模型结构图如下：

　　Encoder层：采用了双向的RNN网络，最后隐层的输出是两个向量的拼接 $h_t = [\leftarrow{h_t}, \rightarrow{h_t}]$ 。

　　Attention层：

　　其中

　　在上面公式中 $h_j$ 是Encoder层的隐层第 $j$ 时刻的输出，$s_{i-1}$ 是Decoder层第 $i-1$ 时刻隐层的输出。可以发现在计算 $c_i$ 的模型实际上是一个线性模型，而且 $c_i$ 事实上是Encoder层中各时刻隐层的输出的加权平均值。

　　Decoder层：采用了单向的RNN模型，第 $i$ 时刻的隐层的输出是 $s_i$ 。第 $i$ 时刻的输出和 $s_i, y_{i-1}, c_i$ 有关

　　因此引入Attention 机制，在机器翻译中，模型会自己去学得在不同时刻不同的权重系数 $a_{ij}$ 。

　　Attention 模型在深度学习中的应用越来越重要，这种切合人的大脑活动的模型也能更真实的模拟人的大脑。在机器翻译中，在传统的Encoder-Decoder 框架中，随着翻译的句子的增长，翻译的质量会下降（以人脑为例，句子太长，人也是无法记住整个句子然后进行翻译的，而是会分成小段，逐个的翻译）。这是因为，将一个长的句子编码成一个定长的向量很容易丢失句子中的信息。Attention 模型就能很好的解决该问题，每一时刻的翻译都只关注与之相关较大的部分，因此Attention 能提高长句子的翻译质量。除了在机器翻译中的应用，在文本分类以及其他的领域都有着广泛的应用。

深度学习之Attention Model（注意力模型）的更多相关文章

深度学习方法（九）：自然语言处理中的Attention Model注意力模型
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.NET/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 上一篇博文深度学习方法(八):Enc ...
模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用
模型汇总24 - 深度学习中Attention Mechanism详细介绍:原理.分类及应用 lqfarmer 深度学习研究员.欢迎扫描头像二维码,获取更多精彩内容. 946 人赞同了该文章 Atte ...
NLP与深度学习（四）Transformer模型
1. Transformer模型在Attention机制被提出后的第3年,2017年又有一篇影响力巨大的论文由Google提出,它就是著名的Attention Is All You Need[1]. ...
NLP与深度学习（六）BERT模型的使用
1. 预训练的BERT模型从头开始训练一个BERT模型是一个成本非常高的工作,所以现在一般是直接去下载已经预训练好的BERT模型.结合迁移学习,实现所要完成的NLP任务.谷歌在github上已经开放 ...
【神经网络与深度学习】Caffe Model Zoo许多训练好的caffemodel
Caffe Model Zoo 许多的研究者和工程师已经创建了Caffe模型,用于不同的任务,使用各种种类的框架和数据.这些模型被学习和应用到许多问题上,从简单的回归到大规模的视觉分类,到Siames ...
深度学习之加载VGG19模型分类识别
主要参考博客: https://blog.csdn.net/u011046017/article/details/80672597#%E8%AE%AD%E7%BB%83%E4%BB%A3%E7%A0% ...
深度学习之加载VGG19模型获取特征图
1.加载VGG19获取图片特征图 # coding = utf-8 import tensorflow as tf import numpy as np import matplotlib.pyplo ...
<A Decomposable Attention Model for Natural Language Inference>（自然语言推理）
http://www.xue63.com/toutiaojy/20180327G0DXP000.html 本文提出一种简单的自然语言推理任务下的神经网络结构,利用注意力机制(Attention Mec ...
深度学习教程 | Seq2Seq序列模型和注意力机制
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...

随机推荐

JS基础(一)dom小实例
DOM的新增示例 <script language="JavaScript"> window.onload = function(){ //createDocument ...
js中字符串和数组的使用
函数: 函数在调用的时候,会形成一个私有作用域,内部的变量不会被外面访问,这种保护机制叫闭包.这就意味着函数调用完毕,这个函数形成的栈内存会被销毁. 但有时候我们不希望他被销毁. 函数归属谁跟它在哪调 ...
C#设计模式之十三模板方法模式（Template Method Pattern）【行为型】
一.引言 “结构型”的设计模式已经写完了,从今天我们开始讲“行为型”设计模式.现在我们开始讲[行为型]设计模式的第一个模式,该模式是[模板方法],英文名称是:Template Method Patte ...
hihoCoder编程练习赛72
题目1 : 玩具设计师时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述小Ho作为Z国知名玩具品牌AKIRE的首席设计师,对玩具零件的挑剔程度已经到了叹为观止的地步.所有 ...
掌握PHP垃圾回收机制
php的垃圾回收机制可以简单总结为引用计数写时复制 COW机制, 本文主要和大家分享掌握php垃圾回收机制的知识,希望能帮助到大家. 引用计数基本知识官网的解答如下每个php变量存在一个叫”z ...
Laravel 系列入门教程（一）【最适合中国人的 Laravel 教程】
热烈庆祝 Laravel 5.5 LTS 发布! 实际上 Laravel 上一个 LTS 选择 5.1 是非常不明智的,因为 5.2 增加了许许多多优秀的特性.现在好了,大家都用最新的长期支持版本 5 ...
Space Time Varying Color Palette
PDF Space Time Varying Color Palettes from Bo Zhou
button改变某div内文字内容的显示
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Python 魔法方法简介
1.什么是魔法方法? 魔法方法就是可以给你的类增加魔力的特殊方法,如果你的对象实现(重载)了这些方法中的某一个,那么这个方法就会在特殊的情况下被 Python 所调用,你可以定义自己想要的行为,而这一 ...
使用Visual Studio Team Services持续集成（三）——使用工件
使用Visual Studio Team Services持续集成(三)--使用工件工件是应用程序的可部署组件.Visual Studio Team Services有能力在构建过程中显式地管理工件 ...

深度学习之Attention Model（注意力模型）

深度学习之Attention Model（注意力模型）的更多相关文章

随机推荐

热门专题