论文分享NO.4（by

论文分享第四期-2019.04.16

Residual Attention Network for Image Classification，CVPR 2017，RAN

核心：将注意力机制与ResNet结合，用于图像分类。论文设计了一个注意力模块（Attention Module），通过级联该模块（即增加模型深度），网络可以学到细粒度的特征图谱（fined-grained feature maps），因为随着层数的加深，来自不同模块的注意力感知特征可以自适应地改变。

除了注意机制带来的更具判别性的特征，RAN还具有其他特性：

增加注意模块数量可以提升性能，因为能广泛地捕捉不同类型的注意力
以端到端的训练方式与最先进的深层网络结构相结合。显著减少了计算

论文将自己的贡献总结为三点：

堆叠的网络结构（stacked network structure）：将多个注意力模块级联，处在不同网络深度的注意力模块捕捉不同类型的注意力
注意力残差训练（attention residual learning）：直接堆叠注意力模块（没有加和的操作）会导致模型性能显著下降。因此提出类似于残差学习的训练方法，注意力模块的输出加上输入的特征，使模型学到具有残差性质的注意力
自底向上-自顶向下的前馈注意力（bottom-up top-down）：即编码-解码的结构得到注意力图谱

注意力模块的网络结构（Attention Module）：

如上图所示，是RAN网络的注意里模块的结构。先通过一个残差单元，然后分为主干分支（trunk branch）和掩码分支（mask branch），再将两个分支的输出依通道逐像素点乘，在与主干分支的输出依通道逐像素求和，最后通过一个残差单元，即得到该深度处的、结合了注意力机制的特征图谱。输出公式如公式（1）。

对于论文中自述的贡献2，将此公式与ResNet中残差训练的公式对比（公式2），ResNet中网络学到的是残差函数F_i,c(x)，而RAN中的两个分支都是需要学习的，F_i,c(x)是主干分支的输出特征图谱；代表残差概念的是两个分支输出的点乘，也就是两个分支合起来的作用相当于ResNet中的残差函数，所以但就mask分支得到的并不是残差，而是一种掩码。但是mask分支输出的掩码，也有其作用，论文中总结为两点：

具有前向推理中的特征选择功能；
在反向传播时还具有梯度更新滤波的作用。掩码分支(mask branch)可以阻止错误的梯度来更新主干分支(trunk branch)，使模型对噪声标签具有更好的鲁棒性。

论文中所提到的直接堆叠，应该是指没有上图中加和的操作。简单地直接堆叠注意模块会使性能显著下降，论文中解释的原因：1.在0和1之间不断与mask进行点积，会使更深层的特征数值降低。2.soft mask可能会破坏主干分支的好的特性，如残差单元的恒等映射。

对于论文中自述的贡献3，即mask分支中的编码-解码的结构，在图像分割的全卷积网络FCN、人体姿态估计的沙漏网络中都有体现，这种结构现在看来已经很普遍了，不算是很大的创新点。在本论文中还引入了跳转连接，但是该跳转连接经过了一个残差单元，这在其他一些结构中是没有的。处在网络浅层的注意力模型中，跳转连接较多，随着网络加深，这种跳转连接逐渐减少直至没有。

RAN网络的整体结构（Residual Attention Network）：

上述整体结构对应于自述贡献1，处在不同网络深度中的注意力模型，会捕捉不同类型的注意力。

现在就有一个最核心的疑问：这样的卷积网络结构为什么就具有捕捉注意力的能力呢？到底什么是注意力机制，设计带有注意力机制的网络结构，其应该具有什么样的特点？或是说共性

论文分享NO.4（by_xiaojian）的更多相关文章

论文分享NO.3（by_xiaojian）
论文分享第三期-2019.03.29 Fully convolutional networks for semantic segmentation,CVPR 2015,FCN 一.全连接层与全局平均池 ...
论文分享NO.2（by_xiaojian）
论文分享第二期-2019.03.26 NIPS2015,Spatial Transformer Networks,STN,空间变换网络
论文分享NO.1（by_xiaojian）
论文分享第一期-2019.03.14: 1. Non-local Neural Networks 2018 CVPR的论文 2. Self-Attention Generative Adversar ...
[论文分享] DHP: Differentiable Meta Pruning via HyperNetworks
[论文分享] DHP: Differentiable Meta Pruning via HyperNetworks authors: Yawei Li1, Shuhang Gu, etc. comme ...
论文分享|《Universal Language Model Fine-tuning for Text Classificatio》
https://www.sohu.com/a/233269391_395209 本周我们要分享的论文是<Universal Language Model Fine-tuning for Text ...
Graph Transformer Networks 论文分享
论文地址:https://arxiv.org/abs/1911.06455 实现代码地址:https://github.com/ seongjunyun/Graph_Transformer_Netwo ...
AAAI 2020论文分享：通过识别和翻译交互打造更优的语音翻译模型
2月初,AAAI 2020在美国纽约拉开了帷幕.本届大会百度共有28篇论文被收录.本文将对其中的机器翻译领域入选论文<Synchronous Speech Recognition and Spe ...
[论文分享]Channel Pruning via Automatic Structure Search
authors: Mingbao Lin, Rongrong Ji, etc. comments: IJCAL2020 cite: [2001.08565v3] Channel Pruning via ...
DNN论文分享 - Item2vec: Neural Item Embedding for Collaborative Filtering
前置点评: 这篇文章比较朴素,创新性不高,基本是参照了google的word2vec方法,应用到推荐场景的i2i相似度计算中,但实际效果看还有有提升的.主要做法是把item视为word,用户的行为序列 ...

随机推荐

BZOJ 4326 NOIP2015 运输计划 (二分+树上差分)
4326: NOIP2015 运输计划 Time Limit: 30 Sec Memory Limit: 128 MBSubmit: 1930 Solved: 1231[Submit][Statu ...
CodeForces 518B Tanya and Postcard （题意，水题）
题意:给定两个字符串,然后从第二个中找和第一个相同的,如果大小写相同,那么就是YAY,如果大小写不同,那就是WHOOPS.YAY要尽量多,其次WHOOPS也要尽量多. 析:这个题并不难,难在读题懂题意 ...
(转)SQL Server内存遭遇操作系统进程压榨案例
原文地址:http://www.cnblogs.com/zc_0101/p/3592259.html 场景: 最近一台DB服务器偶尔出现CPU报警,我的邮件报警阈(请读yù)值设置的是15%,开始时没 ...
javascript 区分对象类型
在 JavaScript 里使用 typeof 来判断数据类型,只能区分基本类型,即 “number”,”string”,”undefined”,”boolean”,”object” 五种.对于数组. ...
JVM GC 机制与性能优化
目录(?)[+] 1 背景介绍与C/C++相比,JAVA并不要求我们去人为编写代码进行内存回收和垃圾清理.JAVA提供了垃圾回收器(garbage collector)来自动检测对象的作用域),可自 ...
[Yii2]yiisoft/yii2 2.0.2 requires bower-asset/jquery 2.1.*@stable | 1.11.*@stable -> no matching package found
composer require "dektrium/yii2-user:0.9.*@dev" 一直安装失败,提示:Your requirements could not be r ...
使用Emit实现给实体赋值
Dapper.net的速度很快,最近看源码,原来他orm的实现是通过编写大量IL代码实现的. 使用DynamicMethod,自己编织一个给实体赋值的方法.这种写法效率很高,接近直接对属性赋值.比使用 ...
CSS链接的样式a:link,a:visited,a:hover,a:active
a :link(未被访问)a:hover(鼠标悬停)a:visited(访问过:真正到达那个页面)a:active(鼠标点击与释放之间.对无href属性的a对象无作用) 这几个元素,定义CSS时候的顺 ...
Ubuntu16.04 - 怎么能够更好设置PATH变量，便于管理？
“/etc/profile”是linux里面的全局变量设置文件,加入这里的PATH变量,全局都可以使用,非常方便.加入时候很简单了,直接在PATH末尾加入":+要加入的变量"就可以 ...
3D-2D:PnP
PnP(Perspective-n-Point):当知道n个3D空间点及其投影位置时,估计相机位姿. 2D-2D的对极几何方法需要八个或八个以上的点对(以八点法为例),且存在着初始化.纯旋转和尺度的问 ...

论文分享NO.4（by_xiaojian）

注意力模块的网络结构（Attention Module）：

RAN网络的整体结构（Residual Attention Network）：

论文分享NO.4（by_xiaojian）的更多相关文章

随机推荐

热门专题