Inside-Outside Net (ION)

论文:Inside-Outside Net: Detecting Objects in Context with Skip Pooling and
Recurrent Neural Networks
发表时间:2016
发表作者:(Cornell University)Sean Bell, C. Lawrence Zitnick,(Microsoft Research)Kavita Bala, Ross Girshick
论文链接:论文链接

本文主要关注目标检测过程中的上下文信息以及多尺度信息两个方面,提出了Inside-Outside Net:
Inside Net: 采用skiping pooling的方式连接不同卷积层输出的feature map,实现多尺度特征的融合
Outside Net: 采用IRNN的结构,整合contextual infomation
在2016年提出的网络中,精度是最高的,超过Faster-RCNN\HyperNet\MRCNN.

  • VOC2007, with a mAP of 79.2%,
  • VOC 2012, with a mAP of 76.4%,
  • COCO, with a mAP of 24.9%.

框架

ION整体框架

采用的是Fast RCNN的基本框架(VGG),通过SS和EB提取Proposal,对于每一个ROI,提取conv3/conv4/conv5对应的特征,fix到固定的长度;
然后将conv5输出的feature map输入到两个IRNN单元提取上下文信息。同样,在输出的context feature map上提取ROI对应的特征,fix到固定长度。
然后将multi-scale特征和context特征先normalize/scale(不同feature map激活值不一样,会导致unstable learning),然后concate到一起。通过1*1卷积进行降维。输出到分类器去进行cls和reg.

spatial Recurrent Neural Network (RNNs)

RNNs在每一层空间上,通过水平或者垂直的四个方向进行提取上下文信息。使用两个RNNs,保证可以获取整张image的信息。
对比其他common methods for adding contextual information: 还有 global average pooling 和 additional convolutional layers,都很相似。

skip pooling

将multi-scale的feature maps经过roi-pooling layer之后pooling到7x7大小的feature maps,将从不同scale pooled得到的feature maps进行concatenate,然后再利用 1x1Conv layer将feature maps resize到512x7x7的大小。

context features with IRNNs

对于一个feature maps,有四个独立的RNN对其进行上下左右四个方向的移动。

ION2

总结:
(1)paper 使用了multi-scale 进行object detection,在浅层Conv层对其feature maps进行roi-pooling, 增强了对small object的detect能力。
(2)使用了RNN对其周围的region的信息,增强feature信息,促进classification。

Paper Reading:ION的更多相关文章

  1. Paper Reading: Stereo DSO

    开篇第一篇就写一个paper reading吧,用markdown+vim写东西切换中英文挺麻烦的,有些就偷懒都用英文写了. Stereo DSO: Large-Scale Direct Sparse ...

  2. [Paper Reading]--Exploiting Relevance Feedback in Knowledge Graph

    <Exploiting Relevance Feedback in Knowledge Graph> Publication: KDD 2015 Authors: Yu Su, Sheng ...

  3. Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection

    Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11  19:47:46   CVPR 20 ...

  4. Paper Reading: In Defense of the Triplet Loss for Person Re-Identification

    In Defense of the Triplet Loss for Person Re-Identification  2017-07-02  14:04:20   This blog comes ...

  5. Paper Reading - Attention Is All You Need ( NIPS 2017 ) ★

    Link of the Paper: https://arxiv.org/abs/1706.03762 Motivation: The inherently sequential nature of ...

  6. Paper Reading - Convolutional Sequence to Sequence Learning ( CoRR 2017 ) ★

    Link of the Paper: https://arxiv.org/abs/1705.03122 Motivation: Compared to recurrent layers, convol ...

  7. Paper Reading - Deep Captioning with Multimodal Recurrent Neural Networks ( m-RNN ) ( ICLR 2015 ) ★

    Link of the Paper: https://arxiv.org/pdf/1412.6632.pdf Main Points: The authors propose a multimodal ...

  8. Paper Reading - Deep Visual-Semantic Alignments for Generating Image Descriptions ( CVPR 2015 )

    Link of the Paper: https://arxiv.org/abs/1412.2306 Main Points: An Alignment Model: Convolutional Ne ...

  9. Paper Reading - Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation ( CVPR 2015 )

    Link of the Paper: https://ieeexplore.ieee.org/document/7298856/ A Correlative Paper: Learning a Rec ...

随机推荐

  1. 【c# 学习笔记】使用virtual和override关键字实现方法重写

    只有基类成员声明为virtual或abstract时,才能被派生类重写:而如果子类想改变虚方法的实现行为,则必须使用override关键字. public class Animal { private ...

  2. java面试考点-面试准备

    面试前准备 了解应试公司相关信息及岗位信息 系统复习基础知识 对原公司负责项目进行梳理 阅读常规框架源码 学习典型架构案例 针对招聘文案准备加分项 相关技能 基础知识:进程/线程,TCP协议,HTTP ...

  3. CMake生成VS2010工程相对路径和绝对路径问题说明

    CMake生成VS2010工程相对路径和绝对路径问题说明 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 主要是使用CMake生成的VS2010的工程,最好不 ...

  4. TCP调试助手,十六进制发送或者字符串形式发送的理解

    "无论创作还是欣赏,都是对法则和规律的逃逸,自由是艺术的源泉"-- 黑格尔 TCP调试助手中,在发送时可以选择十六进制发送或者字符串形式发送! 其实,两者最终调用的都是系统的soc ...

  5. redis 持久化 ——RDB

    文章目录 RDB 关于 fork dump.rdb 文件 如何触发 RDB 快照 如何恢复 优势 劣势 停掉 RDB RDB redis database 的简写 : 在指定时间间隔后,将内存中的数据 ...

  6. PAT(B) 1020 月饼(Java)

    题目链接:1020 月饼 (25 point(s)) 分析 将月饼(库存量,总售价,单价)封装成MoonCake类 Scanner会超时,用BufferedReader类读取数据 读取的时候用字符串数 ...

  7. java运算符那些事

    && 逻辑与 &&先运算&&左边的算式,如果为假,则直接停止,后面不管有多少运算式都不再运算,如果为真则继续判断后面的式子,只有所有的条件全部成立,才会 ...

  8. Nuget常用命令(转)

    转自:https://www.cnblogs.com/xcsn/p/6259853.html CMD将nuget升级到最新版本:nuget update -self 一.安装 1.安装指定版本类库in ...

  9. Asp.net core 学习笔记 2.2 migration to 3.0

    Ef core 3.0 一些要注意的改变 refer : https://docs.microsoft.com/en-us/ef/core/what-is-new/ef-core-3.0/breaki ...

  10. log4j2.xml配置,导致启动报错

    项目中遇到问题,当使用tomcat启动时,没问题:当使用内置tomcat启动时却报错,找不到日志路径. 变量位置: <properties> <property name=" ...