attention 介绍

前言

这里学习的注意力模型是我在研究image caption过程中的出来的经验总结，其实这个注意力模型理解起来并不难，但是国内的博文写的都很不详细或说很不明确，我在看了 attention-mechanism后才完全明白。得以进行后续工作。

这里的注意力模型是论文 Show,Attend and Tell:Neural Image Caption Generation with Visual Attention里设计的，但是注意力模型在大体上来讲都是相通的。

先给大家介绍一下我需要注意力模型的背景。

I是图片信息矩阵也就是[224,224,3]，通过前面的cnn也就是所谓的sequence-sequence模型中的encoder，我用的是vgg19，得到a，这里的a其实是[14*14,512]=[196,512]，很形象吧，代表的是图片被分成了这么多个区域，后面就看我们单词注意在哪个区域了，大家可以先这么泛泛理解。通过了本文要讲的Attention之后得到z。这个z是一个区域概率，也就是当前的单词在哪个图像区域的概率最大。然后z组合单词的embedding去训练。

好了，先这么大概理解一下这张图就好。下面我们来详细解剖attention，附有代码~

attention的内部结构是什么？

这里的c其实一个隐含输入，计算方式如下

首先我们这么个函数：

def _get_initial_lstm(self, features):

    with tf.variable_scope('initial_lstm'):

        features_mean = tf.reduce_mean(features, 1)

        w_h = tf.get_variable('w_h', [self.D, self.H], initializer=self.weight_initializer)

        b_h = tf.get_variable('b_h', [self.H], initializer=self.const_initializer)

        h = tf.nn.tanh(tf.matmul(features_mean, w_h) + b_h)

        w_c = tf.get_variable('w_c', [self.D, self.H], initializer=self.weight_initializer)

        b_c = tf.get_variable('b_c', [self.H], initializer=self.const_initializer)

        c = tf.nn.tanh(tf.matmul(features_mean, w_c) + b_c)

        return c, h

上面的c你可以暂时不用管，是lstm中的memory state，输入feature就是通过cnn跑出来的a,我们暂时考虑batch=1,就认为这个a是一张图片生成的。所以a的维度是[1，196,512]

y向量代表的就是feature。

下面我们打开这个黑盒子来看看里面到底是在做什么处理。

上图中可以看到

这里的tanh不能替换成ReLU函数，一旦替换成ReLU函数，因为有很多负值就会消失，会很影响后面的结果，会造成最后Inference句子时，不管你输入什么图片矩阵的到的句子都是一样的。不能随便用激活函数！！！ReLU是能解决梯度消散问题，但是在这里我们需要负值信息，所以只能用tanh

c和y在输入到tanh之前要做个全连接，代码如下。

        w = tf.get_variable('w', [self.H, self.D], initializer=self.weight_initializer)

        b = tf.get_variable('b', [self.D], initializer=self.const_initializer)

        w_att = tf.get_variable('w_att', [self.D, 1], initializer=self.weight_initializer)

        h_att = tf.nn.relu(features_proj + tf.expand_dims(tf.matmul(h, w), 1) + b)    # (N, L, D)

这里的features_proj是feature已经做了全连接后的矩阵。并且在上面计算h_att中你可以看到一个矩阵的传播机制，也就是relu函数里的加法。features_proj和后面的那个维度是不一样的。

def _project_features(self, features):

    with tf.variable_scope('project_features'):

        w = tf.get_variable('w', [self.D, self.D], initializer=self.weight_initializer)

        features_flat = tf.reshape(features, [-1, self.D])

        features_proj = tf.matmul(features_flat, w)

        features_proj = tf.reshape(features_proj, [-1, self.L, self.D])

        return features_proj

然后要做softmax了，这里有个点，因为上面得到的m的维度是[1,196,512],1是代表batch数量。经过softmax后想要得到的是维度为[1,196]的矩阵也就是每个区域的注意力权值。所以

out_att = tf.reshape(tf.matmul(tf.reshape(h_att, [-1, self.D]), w_att), [-1, self.L])   # (N, L)

alpha = tf.nn.softmax(out_att)

最后计算s就是一个相乘。

context = tf.reduce_sum(features * tf.expand_dims(alpha, 2), 1, name='context')   #(N, D)

这里也是有个传播的机制，features维度[1,196,512]，后面那个维度[1,196,1]。

最后给个完整的注意力模型代码。

    def _attention_layer(self, features, features_proj, h, reuse=False):

        with tf.variable_scope('attention_layer', reuse=reuse):

            w = tf.get_variable('w', [self.H, self.D], initializer=self.weight_initializer)

            b = tf.get_variable('b', [self.D], initializer=self.const_initializer)

            w_att = tf.get_variable('w_att', [self.D, 1], initializer=self.weight_initializer)

            h_att = tf.nn.relu(features_proj + tf.expand_dims(tf.matmul(h, w), 1) + b)    # (N, L, D)

            out_att = tf.reshape(tf.matmul(tf.reshape(h_att, [-1, self.D]), w_att), [-1, self.L])   # (N, L)

            alpha = tf.nn.softmax(out_att)

            context = tf.reduce_sum(features * tf.expand_dims(alpha, 2), 1, name='context')   #(N, D)

            return context, alpha

如果大家想研究整个完整的show-attend-tell模型，可以去看看github链接

以上我们讲的是soft_attention，还有一个hard_attention。hard_attention比较不适合于反向传播，其原理是取代了我们之前将softmax后的所有结果相加，使用采样其中一个作为z。反向传播的梯度就不好算了，这里用蒙特卡洛采样方式。

ok，回到我们的image_caption中，看下图

这个图其实不太准确，每一个z其实还会用tf.concat连接上当前这个lstm_cell的单词embedding输入。也就是维度变成[512]+[512]=[1024]

这样就可以结合当前单词和图像区域的关系了，我觉得注意力模型还是很巧妙的。

新浪微博
微信
Twitter
Facebook

赞 | 1收藏 | 2

https://segmentfault.com/a/1190000011744246

attention 介绍的更多相关文章

6. 从Encoder-Decoder(Seq2Seq)理解Attention的本质
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
机器翻译注意力机制及其PyTorch实现
前面阐述注意力理论知识,后面简单描述PyTorch利用注意力实现机器翻译 Effective Approaches to Attention-based Neural Machine Translat ...
Attention注意力机制介绍
什么是Attention机制 Attention机制通俗的讲就是把注意力集中放在重要的点上,而忽略其他不重要的因素.其中重要程度的判断取决于应用场景,拿个现实生活中的例子,比如1000个人眼中有100 ...
模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用
模型汇总24 - 深度学习中Attention Mechanism详细介绍:原理.分类及应用 lqfarmer 深度学习研究员.欢迎扫描头像二维码,获取更多精彩内容. 946 人赞同了该文章 Atte ...
Seq2Seq和Attention机制入门介绍
1.Sequence Generation 1.1.引入在循环神经网络(RNN)入门详细介绍一文中,我们简单介绍了Seq2Seq,我们在这里展开一下一个句子是由 characters(字) 或 w ...
关于ArcGIS API for JavaScript中basemap的总结介绍（一）
实际上basemap这个概念并不只在arcgis中才有,在Python中有一个matplotlib basemap toolkit(https://pypi.python.org/pypi/basem ...
（转）注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用本文转自:http://www.cnblogs.com/robert-dlut/p/5952032.html 近年来,深度 ...
论文笔记之：Deep Attention Recurrent Q-Network
Deep Attention Recurrent Q-Network 5vision groups 摘要:本文将 DQN 引入了 Attention 机制,使得学习更具有方向性和指导性.(前段时间做 ...
注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了 ...

随机推荐

docker简单搭建gitlab
docker启动非常简单: docker run --detach --hostname 192.168.0.33 --publish 443:443 --publish 80:80 \ --publ ...
[程序员代码面试指南]数组和矩阵问题-找到无序数组中最小的k个数(堆排序)
题目链接 https://www.nowcoder.com/practice/6a296eb82cf844ca8539b57c23e6e9bf?tpId=13&tqId=11182&t ...
android 7.0+ FileProvider 访问隐私文件相册、相机、安装应用的适配
从 Android 7.0 开始,Android SDK 中的 StrictMode 策略禁止开发人员在应用外部公开 file:// URI.具体表现为,当我们在应用中使用包含 file:// URI ...
Visual Studio Installer 使用案例
1.创建自定义操作一步:新建“安装程序类”文件 2.重写函数: public override void Install(IDictionary stateSaver) { base.Install ...
Linux驱动之LCD驱动编写
在Linux驱动之内核自带的S3C2440的LCD驱动分析这篇博客中已经分析了编写LCD驱动的步骤,接下来就按照这个步骤来字尝试字节编写LCD驱动.用的LCD屏幕为tft屏,每个像素点为16bit.对 ...
盯着这where or 终于出了点感觉
AND 和 OR 运算符 AND 和 OR 可在 WHERE 子语句中把两个或多个条件结合起来. 如果第一个条件和第二个条件都成立,则 AND 运算符显示一条记录. 如果第一个条件和第二个条件中只要有 ...
Subplot 分格显示
1.subplot2grid 使用import导入matplotlib.pyplot模块, 并简写成plt. 使用plt.figure()创建一个图像窗口 import matplotlib.pypl ...
makefile入门-初步了解
自己开始学习makefile是由于VScode配置工程文件,看别人的配置不是很懂,于是决定入门学习下makefile. 先来说说makefile是做什么用的:makefile可以实现工程的自动化编译, ...
Cannot retrieve metalink for repository: epel/x86_64. Please verify its path and try again
虚拟机恢复快照后,使用yum安装软件,提示下面的信息,开始以为是yum源的问题或者DNS的问题,但是无果,最后再看一下服务器的时间,坑了,还原快照,时间变成以前的了. [root@localhost ...
[Javasript] 同时实现单击和双击事件
在同一个元素上同时绑定单击和双击事件: JavaScript <script type="text/javascript"> var timer = 0; var de ...

attention 介绍

前言

attention的内部结构是什么？

attention 介绍的更多相关文章

随机推荐

热门专题