Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection

作者和相关链接

- 论文下载
- Chenyi Chen , Ming-Yu Liu， Jianxiong Xiao
- 所有作者的简单信息

方法概括
- 这篇文章主要讨论针对小目标的目标检测
- 文章为了证明：对传统的R-CNN style的方法进行改进，可以用于小目标检测，并且性能比DPM方法好
  - 整个检测流程：
  1. 用改进版的RPN（修改了anchor的尺度，称为modified RPN）提取候选区域；
  2. 用改进版的CNN（结合了上下文信息的CNN模型，base的CNN可以用AlexNet或者VGG，称为ContextNet）对候选区域进行分类。（不做box regression）
创新点和贡献
- 文章从三个角度对比了小目标检测的方法：
  1. 候选区域生成：传统RPN vs.modified RPN（更好！）
  2. 上采样策略：上采样比例小+去掉全连接 vs.上采样比例大+保留全连接（更好！）
  3. 是否使用上下文信息：不适用上下文 vs. 使用上下文（更好！）
- 文章的贡献在于：
  1. 提出了一个专门针对小目标的目标检测benchmark库；
  2. 提出了一个把传统R-CNN方法进行改进用于小目标检测的思路和流程
- 小目标的难点：
  1. 一张图中小目标比大目标往往更多
  2. 小目标的像素少（信息少）
  3. 目前针对小目标的研究非常有限，大部分文献都是针对VOC库中的大目标
方法细节
- 小目标benchmark库的建立
  - 小目标的定义？
    - 现实生活中的目标的物理大小相对较小，比如，鼠标，插孔，盘子等等，即实际大小也比较小
    - 在图像中所占整张图像的比例小

- - 大库（包含大，小目标）如何做成小库（仅包含小库）？
    - 使用Microsoft COCO和SVN库的子集
    - 只挑选了10类
    - 去掉10类中目标比较大的（即使是鼠标类，在有的图像中鼠标也很大，把这些样本去掉）
  - 数据库大小
    - 4925张图像，8393个目标（train：test = 2:1）
    - 具体的类别，图像数，相对面积分布如下表：

- - 评估标准（mAP，和普通的多类目标检测一样）
    - 单类的PR曲线（调整IOU的阈值）
    - 单类的average precision：（PR曲线求积分，面积）
    - 多类的mAP：每类的average precision直接取平均
- 针对R-CNN style方法进行修改得小目标检测方法和流程
  - 候选区域生成
    - 本文方法（modified RPN）：普通的RPN修改了anchor大小修改 + feature map选择
    - anchor 大小修改：128^2， 256^2，512^2 → 16^2， 40^2， 100^2
    - feature map选择：conv5 → conv4_3
    - 初始RPN的anchor 和流程如下：

- - - 拿来对比的两种方法：DPM（据说在R-CNN出现之前最好的方法，HOG+SVM），原始的RPN（用来检测大目标的）
    - 实验对比结果

实验结论：修改anchor尺度（modefied RPN）比DPM好，比原始RPN好！

- - 上采样策略
    - 本文方法（full AlexNet）：直接把modefied RPN得到的候选区域resize成分类要用的CNN的原始输入图像（AlexNet是227，VGG是224）
    - 对比的方法（Partial AlexNet）：把候选区域resize成67*67，输入到分类要用的CNN（因为AlexNet和VGG有全连接层，所以只能处理固定成规定大小的图像，但是如果把全连接层去掉，只取卷积层，就能用于处理大小和规定的固定大小不一样的输入图像），最后接个分类层
    - 实验对比结果：
      - 因为候选区域的大小很小，如果用full AlexNet（全连接层），则必须resize成227或者224，都是放大了好几倍，所以作者考虑到这样的放大可能引入了artificats，这个部分的实验就是在证明即使这样放大的效果也比不用整个网络只用全卷积层得到的效果更好。作者认为，第一，因为输入图像大小变小了，所以相同的感受野大小（网络结构相同）对小图而言，可能就是对应了原图的很大部分，属于coarse的scale，而对于大图，因为只对应原图的一小部分，所以更加fine，细节更多，信息更丰富；第二，从得到的特征来看，小图的feature更短，大图的feature更长（只考虑卷积层）。

实验结论：取整个（包括fc层）分类网络（Full AlexNet）比只取卷积部分的网络（Partial AlexNet）好

- - 上下文信息的结合
    - 本文方法（Context-AlexNet）网络结果如下图：
      - 网络结构分为两部分，front-end和back-end。
      - front-end由两个并行的CNN组成，一个以proposal region直接作为输入，经过6个conv层（Alex或者VGG）+1个fc层，得到4096维的特征；另一个以proposal region为中心，在原图上取4倍的proposal region的一个context region作为输入，经过6个conv层+1个fc层，得到4096维的特征
      - back-end以front-end的两个4096的特征串起来作为输入，经过2个fc层+1个softmax层得到每个proposal region的分类信息。

- - 对比的方法（Baseline AlexNet）：普通的AlexNet，没有context信息。另外，作者对比了上下文的尺度大小（放大3倍还是7倍）

- - 实验对比结果

实验结论：用了上下文（ContextNet）比不用上下文（Baseline AlexNet）好！7倍和3倍差别不大！

实验结果
- 最终的mAP上和其他方法的对比（比DPM，AlexNet R-CNN，和VGG R-CNN都好）

- 最终的mAP上AlexNet和VGG的对比（VGG好，层数更深），不同proposal个数对比（取300好，false positive少）

总结与收获点
1. 做小目标的几个思路：专门建立小目标库，对小目标大小进行统计分析，对网络进行修改（卷积核大小，anchor大小），利用目标周围的上下文信息

论文阅读（Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection）的更多相关文章

论文阅读笔记六十三：DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling（CVPR2017）
论文原址:https://arxiv.org/abs/1703.10295 github:https://github.com/lachlants/denet 摘要本文重新定义了目标检测,将其定义为 ...
论文阅读 | RefineDet：Single-Shot Refinement Neural Network for Object Detection
论文链接:https://arxiv.org/abs/1711.06897 代码链接:https://github.com/sfzhang15/RefineDet 摘要 RefineDet是CVPR ...
三维目标检测论文阅读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection
题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection 来自:Uber: Ming Liang Note: 没有代码,主要看思想吧 ...
论文阅读笔记五十七:FCOS: Fully Convolutional One-Stage Object Detection(CVPR2019)
论文原址:https://arxiv.org/abs/1904.01355 github: tinyurl.com/FCOSv1 摘要本文提出了一个基于全卷积的单阶段检测网络,类似于语义分割,针对每 ...
【CV论文阅读】：Rich feature hierarchies for accurate object detection and semantic segmentation
R-CNN总结不总结就没有积累 R-CNN的全称是 Regions with CNN features.它的主要基础是经典的AlexNet,使用AlexNet来提取每个region特征,而不再是传统 ...
论文阅读：EGNet: Edge Guidance Network for Salient Object Detection
论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Zhao_EGNet_Edge_Guidance_Network_for_Sali ...
论文阅读笔记五十八:FoveaBox: Beyond Anchor-based Object Detector（CVPR2019）
论文原址:https://arxiv.org/abs/1904.03797 摘要 FoveaBox属于anchor-free的目标检测网络,FoveaBox直接学习可能存在的图片种可能存在的目标,这期 ...
【论文笔记】YOLOv4: Optimal Speed and Accuracy of Object Detection
论文地址:https://arxiv.org/abs/2004.10934v1 github地址:https://github.com/AlexeyAB/darknet 摘要: 有很多特征可以提高卷积 ...
论文阅读（Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction）
Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录作者和相关链接方法概括创新 ...

随机推荐

HTML5新增的标签
结构性元素<header><footer>定义页眉(与<head>不一样)和页脚 <section>定义section<article> 定 ...
C++STL 常用函数用法
学完c++快一年了,感觉很有遗憾,因为一直没有感觉到c++的强大之处,当时最大的感觉就是这个东西的输入输出比C语言要简单好写. 后来我发现了qt,opencv,opengl,原来,c++好玩的狠. 在 ...
wordexpress
登陆数据库:mysql -uroot -p 创建数据库:CREATE DATABASE wordpress; 创建数据库用户:CREATE USER wordpress@localhost IDENT ...
C++11 auto and decltype
1.auto关键字 C++新标准引入auto关键词,此auto与之前C语言的auto意义已经不一样了. 这里的auto是修饰未知变量的类型,编译器会通过此变量的初始化自动推导变量的类型. 例如:aut ...
如何使用sysdba身份通过jdbc连接oracle？
Class.forName("oracle.jdbc.driver.OracleDriver").newInstance(); Properties conProps = new ...
一个人java深入理解java logback配置
http://blog.csdn.net/initphp/article/category/1230072/2
简单查询（select）
在数据库中,字符串进行运算时,会将字符串内容转化为数字进行运算查询语法:select 列 from 表 where 条件 order by 排序 asc:升序 ...
清理session的案例
and OPNAME ='Sort Output'; and OPNAME ='Sort Output'; and OPNAME ='Sort Output' ); select 'alter sys ...
Docker compose学习笔记
一.compose compose 作用你的应用可能需要很多个服务,比如web服务,数据库服务,缓存服务等等.我们可以把这些服务放到单独的容器里面,如果手工去配置这些服务会有些麻烦,docker c ...
一步一步来做WebQQ机器人-(五)(发送消息||完结)
× 本篇主要是: 发送QQ消息(to:好友,群),以及对小黄鸡抓包利用它的语言库本文是WebQQ流程的最后一章最后一章内容不多但我还是啰嗦,可能对大部分人都已知晓的流程方法我也会介绍一下前面几个 ...

论文阅读（Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection）

Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection

目录

作者和相关链接

论文下载

Chenyi Chen , Ming-Yu Liu， Jianxiong Xiao

所有作者的简单信息

方法概括

创新点和贡献

方法细节

小目标benchmark库的建立

小目标的定义？

大库（包含大，小目标）如何做成小库（仅包含小库）？

数据库大小

评估标准（mAP，和普通的多类目标检测一样）

针对R-CNN style方法进行修改得小目标检测方法和流程

候选区域生成

实验结论：修改anchor尺度（modefied RPN） 比DPM好，比原始RPN好！

上采样策略

实验结论：取整个（包括fc层）分类网络（Full AlexNet）比只取卷积部分的网络（Partial AlexNet）好

上下文信息的结合

实验结论：用了上下文（ContextNet）比不用上下文（Baseline AlexNet）好！7倍和3倍差别不大！

实验结果

总结与收获点

论文阅读（Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection）的更多相关文章

随机推荐

热门专题

实验结论：修改anchor尺度（modefied RPN）比DPM好，比原始RPN好！