AAAI2019 | 基于区域分解集成的目标检测论文解读

Object Detection based on Region Decomposition and Assembly

作者 | 文永亮

学校 | 哈尔滨工业大学（深圳）

研究方向 | 目标检测、GAN

推荐理由：

这是一篇发表于AAAI2019的paper，文章提出了一种R-DAD的方法来对RCNN系列的目标检测方法进行改进。

研究动机：

目前主流的目标检测算法分为1 stage和2 stage的，而2 stage的目标检测方法以Faster-RCNN为代表是需要RPN（Region Proposals Network）生成RoI(Region of Interests感兴趣区域)的，文章认为正是因为被遮挡了的或者不精确的Region Proposals导致目标检测算法的不准确。作者的想法动机其实很简单，就是假如一辆车的左边被人遮挡了，那么这辆车的右边带来的信息其实才是更可信的。基于这个想法，文章提出R-DAD（Region Decomposition and Assembly Detector），即区域分解组装检测器，来改善生成的Region Proposals。

R-DAD的网络结构：

文章以Faster-RCNN的网络结构为例，修改成它提出的R-DAD结构：

R-DAD网络架构主要分成两个模块MRP和RDA：

MRP（Multi-Scale Region Proposal）模块，用来改善RPN生成的Region Proposals的准确率。

图一：MRP模块，框内分别对应S=0.7,1,1.2的Region Proposals

MRP表面意思就是生成多尺度的Region Proposal，方法很简单，就是使用传统的RPN生成一些建议框，然后用不同的缩放因子（文章使用了5种缩放因子作为一组s=[0.5,0.7,1,1.2,1.5]）对生成出的建议框进行不同比例的缩小放大从而提高Region Proposals的多样性。如图一，生成了不同尺度的区域，有一些仅仅是局部有一些是大于目标本身的，但是这也带来了一个问题，就是原来的Region Proposals已经可以说是极大的数量了，再乘以五倍，想要网络能够完全利用这些建议框是不切实际的，作者最后还添加了RoI的采样层，对分数低的和跟ground truth重叠率低的进行了筛选。

由MRP网络生成的各种Region Proposals可以进一步适应目标之间因为空间变化所导致的特征变化，提高结构的鲁棒性。
RDA（Region Decomposition and Assembly）模块，作者也称它为mutil-region-based appearance model，即基于多区域的外观模型，它可以同时描述一个物体的全局外观和局部外观，RDA分为目标分解和目标区域集成的两部分，目标分解如图二所示，把一个目标分为上下左右四个方向的分解部分

一般会先用线性插值两倍上采样之后再分解，后面作者给出了表格表示这样效果更好。左右刚好是特征图的左右一半，上下也同理，都会送入RAB模块，RAB模块如图三所示：

图三：RAB模块

其实就是下面这个函数：

其中p代表着上下左右的每一个部分或者组合后的部分如左-右(l/r)、下-上(b/u)和comb（l/r与b/u的组合），*是卷积操作，f()是ReLU单元。最后再取max，是为了融合了和的信息，生成同样大小的。最后就是代表着全局信息的scale为1生成的Region Proposals，一起送进RAB模块。这样整个网络结构就可以做到既捕捉到局部信息的同时，也不丢失全局信息。

RAB模块是一个类似maxout的单元，理论上它可以逼近任何连续的函数，所以我们使用RAB而不是直接使用ReLU。这表明可以通过配置不同的分层地组合RAB模块来表示各种各样的目标特征。

损失函数：

对每一个框(box)d，我们都会通过IoU筛选出跟GT(ground truth)最匹配的d*，如果d跟任何的d*的IoU超过0.5，给予正标签，若在0.1到0.5之间的，给予负标签。R-DAD的输出层对每一个框d都有四个参数化坐标和一个分类标签。对于box regression来说，我们与以往目标检测的参数化一致如下：

同理，是用来评估预测框和GT的差距的。

跟训练RPN网络相似，R-DAD也需要最小化分类损失和回归损失，如下：

实验结果：

文章中做了各种设置的组合，关于MRP里缩放因子的组合、是否有RDA模块以及是否上采样，得分如下表所示：

与Faster-RCNN对比，作者使用了VOC07trainval和VOC12trainval数据集训练，再在VOC07test上测试，并且用了不同的特征提取器(VGG、ZF、Res101)，得分均比Faster-RCNN高。

在速度方面均比Faster-RCNN慢。

与没有上下区域分解集成的R-DAD对比，有上下分解集成的误判率低很多，因为它在复杂情形下被遮挡物体会更有选择地相信得到的信息。

R-DAD的优点：

1.文章提出因为我们最大化目标在横向空间位置上局部特征的语义响应，与使用支持小区域的最大池化相比，在没有深层次结构的情况下，我们可以改善特征位置的空间不变性。我的理解就是作者取了上下左右四个方向的特征模板，最后对四个方向进行了融合语义信息，利用了横向空间上的空间不变性，揭示了不同方向上的语义关系。

2.在复杂场景下，如有目标对象被另一目标对象遮挡时，通过左右上下模板筛选出来的特征是更符合真实场景的，这样的Region Proposals也更加可信。

3.同时描述了全局特征和局部特征的语义信息，在RAB的组装上具有很强的可操作性，通过配置分层式地组装RAB模块，以及修改特征模板，特征的表达会更加灵活。

点评：

这个区域分解集成的算法令我觉得跟以前传统的人脸识别算法提取Haar-like特征有点异曲同工之处，同样都是把特征图分成上下两部分，然后做特征提取操作，都是定义了特定的特征模板，这就很容易理解为什么作者要做multi scale的操作了，因为在以前使用Haar/SIFT/HoG的时候，往往都需要使用muti scale来检测。

但是R-DAD为什么对特征只分成上下各一半，左右各一半这种特征模板，文章并没有给出令人信服的理由。尽管如此，这也是一个对目标检测的改进方向，通过MRP和RDA模块代替了之前的单纯的RPN网络，而且在不使用FPN(Feature Pyramid Networks)的情况下取得了不错的mAP，这样看来R-DAD是2 stage目标检测系列的另一种技巧，综合了横向空间上的语义信息。

AAAI2019 | 基于区域分解集成的目标检测论文解读的更多相关文章

目标检测论文解读5——YOLO v1
背景之前热门的目标检测方法都是two stage的,即分为region proposal和classification两个阶段,本文是对one stage方法的初次探索. 方法首先看一下模型的网络 ...
目标检测论文解读1——Rich feature hierarchies for accurate object detection and semantic segmentation
背景在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红 ...
目标检测论文解读10——DSSD
背景 SSD算法在检测小目标时精度并不高,本文是在在SSD的基础上做出一些改进,引入卷积层,能综合上下文信息,提高模型性能. 理解 Q1:DSSD和SSD的区别有哪些? (1)SSD是一层一层下采样, ...
目标检测论文解读13——FPN
引言对于小目标通常需要用到多尺度检测,作者提出的FPN是一种快速且效果好的多尺度检测方法. 方法 a,b,c是之前的方法,其中a,c用到了多尺度检测的思想,但他们都存在明显的缺点. a方法:把每图片 ...
目标检测论文解读9——R-FCN
背景基于ResNet 101的Faster RCNN速度很慢,本文通过提出Position-sensitive score maps(位置敏感分值图)来给模型加速. 方法首先分析一下,为什么基于R ...
目标检测论文解读12——RetinaNet
引言这篇论文深刻分析了one-stage的模型精度比two-stage更差的原因,并提出Focal Loss提高精度. 思路在论文中,作者指出,造成one-stage模型精度差的原因主要是:正负样 ...
目标检测论文解读11——Mask R-CNN
目的让Faster R-CNN能做实例分割的任务. 方法模型的结构图如下. 与Faster R-CNN相比,主要有两点变化. (1) 用RoI Align替代RoI Pool. 首先回顾一下RoI ...
目标检测论文解读6——SSD
背景 R-CNN系列算法检测速度不够快,YOLO v1检测准确率较低,而且无法检测到密集目标. 方法 SSD算法跟YOLO类似,都属于one stage的算法,即通过回归算法直接从原图得到预测结果,为 ...
目标检测论文解读4——Faster R-CNN
背景 Fast R-CNN中的region proposal阶段所采用的SS算法成为了检测网络的速度瓶颈,本文是在Fast R-CNN基础上采用RPN(Region Proposal Networks ...

随机推荐

faceswap linux安裝教程
http://www.mamicode.com/info-detail-2602743.html https://blog.csdn.net/sinat_26918145/article/detail ...
区间桂林电子科技大学第三届ACM程序设计竞赛
链接:https://ac.nowcoder.com/acm/contest/558/E 来源:牛客网时间限制:C/C++ 1秒,其他语言2秒空间限制:C/C++ 262144K,其他语言5242 ...
[PHP-Debug] 使用 php -l 调试 PHP 错误遇到的坑
有时候,因为系统代码的增加,造成很多文件的相互关联,又或者某些第三接口(微信等),你必须要在线上调试. 线上环境,我们都是设置 “ini_set('display_errors' , false)” ...
EJB、RMI、XMLRPC、Hessian、Thrift 、Protobuf
Java中实现分布式的方式有:EJB.RMI.XMLRPC.Web Service.Hessian.Thrift .Protobuf.NIO(Netty.Mina) EJB 优势:可扩展性好,安全性强 ...
Android-Java-进程与线程
1.进程:什么是进程: Mac操作系统,Windows操作系统 ...... 等等,都是由多个进程来运行(系统进程,普通进程,等) 操作系统最小的控制单元是进程,一个应用就是一个进程进程全称为:操 ...
Android开发消除横向排列的多个Button之间的空隙
一.问题重述摘要里描述的可能不太清楚,问题如下图: 如何消除Button1和Button2之间的空隙,以及Button与左右边界之间的空隙? 二.问题根源这里出现的空隙其实是Button的背景图片 ...
C#: 获取当前路径不要用Environment.CurrentDirectory
网上大把文章写到C#获取当前路径的方法如下: // 获取程序的基目录. System.AppDomain.CurrentDomain.BaseDirectory // 获取模块的完整路径. Syste ...
数据导出之winform导出word（三）
本篇文章补充讲解上篇文章中word模板的制作. ① 新建一个word文档 ② 定位到要插入书签的位置 ③ 菜单栏 “插入” -> “书签”,输入书签名,点击“添加” 可以多处位置使用同样的书签名 ...
Kotlin 基本语法
常量 val a: Int = 5 变量 var a: Int = 5 Any:匹配任何类型 ?:nullable,比如 a?.toString,如果 a 为 null 不会出错. 函数基本结构 fu ...
jzoj5805
#include<bits/stdc++.h> using namespace std; int x,n,pp,ct[10000]; long double f[210][(1<&l ...

AAAI2019 | 基于区域分解集成的目标检测 论文解读

AAAI2019 | 基于区域分解集成的目标检测 论文解读的更多相关文章

随机推荐

热门专题

AAAI2019 | 基于区域分解集成的目标检测论文解读

AAAI2019 | 基于区域分解集成的目标检测论文解读的更多相关文章