摘要

虽然低 IoU 阈值,如 0.5,会产生噪声检测(noisy detections),但是,随着 IoU 阈值的增加,检测性能往往会下降。造成这种情况的主要因素有两个:1)由于在训练过程中正样本呈指数下降,过少的正样本导致网络训练期间过拟合。2)dismatch:检测器在最优的 IoU 与输入预测的 IoU 之间会产生mismatch。由此,我们提出了多阶段的目标检测器结构:Cascade R-CNN 来解决 IoU 选择的问题。它由一系列不断增加 IoU 阈值的检测器组成,可以逐步的更接近目标的预测。。检测器是逐步训练的,前一个检测器输出一个良好的数据分布并作为输入,用于训练下一个更高质量的检测器。逐步改进的重采样保证了所有检测器都有一组相同大小的正样本,从而减少了过拟合问题。在 inference 阶段使用级联的检测器结构可以合理的提高了 IOU 的阈值而不会出现 mismatch 问题。

1,介绍

Cascade RCNN 是作者 Zhaowei Cai2018 年发表的论文 Cascade R-CNN: Delving into High Quality Object Detection.

目标检测是一个复杂的问题,需要解决两个主要任务。首先,检测器必须解决识别问题,区分前景目标和背景目标,并为其分配匹配的类别标签。其次,探测器必须解决定位问题,为不同的目标分配精确的 bounding box。许多目标探测器都是基于两阶段网络框架 Faster R-CNN 的。双阶段检测网络是一个多任务学习问题,包括目标的分类和边界回归。与物体识别不同的是,定义正/负样本需要一个 IoU 阈值。通常使用的 IOU 阈值 u=0.50.5IOU 的设置是相当低的。检测的目标经常包含很多噪声,如图 (a)所示。IOU 阈值取0.5,会有很多假的预测信息也都包含在内,从而会产生很多错误的预测信息。

1.1,Faster RCNN 回顾

先回顾下 Faster RCNN 的结构,下图是 Faster RCNN 的结构图。

training 阶段和 inference 阶段的不同在于,inference 阶段不能对 proposala 进行采样(因为不知道 gt,自然无法计算 IoU),所以 RPN 网络输出的 300 RoIs(Proposals)会直接输入到 RoI pooling 中,之后通过两个全连接层分别进行类别分类和 bbox 回归。

值得注意的是,Faster RCNN 网络在 RPNFast RCNN 阶段都需要计算 IoU,用于判定 positivenegative。前者是生成 256Proposal 用于 RPN 网络训练,后者是生成 128RoIs(可以理解为 RPN 网络优化后的 Proposals)用于 Fast RCNN 训练。

1.2,mismatch 问题

training 阶段和 inference 阶段,bbox 回归器的输入 proposals 分布是不一样的,training 阶段的输入proposals 质量更高(被采样过,IoU > threshold),inference 阶段的输入 proposals 质量相对较差(没有被采样过,可能包括很多 IoU < threshold 的),这就是论文中提到 mismatch 问题,这个问题是固有存在的,但通常 threshold0.5 时,mismatch 问题还不会很严重。

2,实验分析

2.1,改变IoU阈值对Detector性能的影响

从上图可以看出:

  • 同一个 detector 通常只会在一个小范围的 IoU 阈值 内性能最好,比如 IoU 阈值为 0.5 的 detector,在输入 proposalgt 的阈值为 0.55-0.6 范围内,其性能最好。阈值为 0.6 的 detector 则在 0.6~0.75 阈值范围内性能最佳。
  • 几乎所有的检测器输出框的 IoU 都好于输入 proposal 的 IoU(红绿蓝三条曲线都在灰色对角线上方)。

2.2,提高IoU阈值的影响

主要是分析对提高 IoU 阈值对 RPN 输出 Proposal 数量的影响,实验结果如下图所示。

上图纵坐标表示 RPN 输出 proposal 在各个 IoU 范围内的数量。

  • 第一张图表示级联结构的第一级,可以等同为没有级联结构的 RCNN 网络。从图中可以看出,随着 IoU 的增加,IoU 在 0.6,0.7 及以上范围内的 proposal 数量越来越少。虽然这样产生更高精度的 proposal,但是也带来了两个问题:

    • 过拟合
    • 更严重的 mismatch 问题RCNN 结构本身就存在这个问题,IoU 阈值的提高又加剧了这个问题。
  • 第二、三图表示有级联结构的 RCNN,从图中可以看出,随着 stage 的加深,相应区域的依然拥有大量的 proposal,因此不会出现严重的过拟合的现象。

2.3,和Iterative BBox比较

Iterative BBoxH 位置都是共享的,而且 3 个分支的 IoU 阈值都取 0.5Iterative BBox 存在两个问题:

  • 单一阈值 0.5 是无法对所有 proposal 取得良好效果。
  • 此外,detector 会改变样本的分布,使用同一个共享的 H 对检测是有影响的。作者做了下面的实验证明样本分布在各个stage 的变化。

红色表示离群点。

  • 从上图可以看出,没经过一次回归,样本都会更靠近 gt,即输出的样本分布会逐渐变化,使用同一个阈值 0.5 的条件下,后面两个 stage 就会有较多的离群点,使用共享的 Head 网络权重是无法满足输入的变化的。
  • 从上图还可以看出,每个阶段设置不同的 IoU 阈值,可以更好的去除离群点,从而适应不同的输入 proposal 分布。

3,网络结构

网络结构如下图(d)

上图中 (d) 和 (c) 很像,iterative bbox at inference 是在推断时候对回归框进行后处理,即模型输出预测结果后再多次处理,而 Cascade R-CNN 在训练的时候就进行重新采样,不同的 stage 的输入数据分布已经是不同的了。

简单来说 cascade R-CNN 是由一系列的检测模型组成,每个检测模型都基于不同 IOU 阈值的正负样本训练得到,前一个检测模型的输出作为后一个检测模型的输入,因此是 stage by stage 的训练方式,而且越往后的检测模型,其界定正负样本的 IOU 阈值是不断上升的。

Cascade R-CNN 的几个检测网络(Head 网络)是基于不同的 IOU 阈值确定的正负样本上训练得到的。

作者在 COCO 数据集上做了对比实验,达到了 state-of-the-art 精度。其中 backboneRsNet-101Cascade RCNNAP 达到了 42.8

参考资料

二阶段目标检测网络-Cascade RCNN 详解的更多相关文章

  1. 【目标检测】Cascade R-CNN 论文解析

    目录 0. 论文链接 1. 概述 2. 网络结构的合理性 3. 网络结构 4. 参考链接 @ 0. 论文链接 Cascade R-CNN 1. 概述   这是CVPR 2018的一篇文章,这篇文章也为 ...

  2. (二)目标检测算法之R-CNN

    系列博客链接: (一)目标检测概述 https://www.cnblogs.com/kongweisi/p/10894415.html 概述: 1.目标检测-Overfeat模型 2.目标检测-R-C ...

  3. 第三十五节,目标检测之YOLO算法详解

    Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Unified, real-time object de ...

  4. 【转】目标检测之YOLO系列详解

    本文逐步介绍YOLO v1~v3的设计历程. YOLOv1基本思想 YOLO将输入图像分成SxS个格子,若某个物体 Ground truth 的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这 ...

  5. 物体检测丨Faster R-CNN详解

    这篇文章把Faster R-CNN的原理和实现阐述得非常清楚,于是我在读的时候顺便把他翻译成了中文,如果有错误的地方请大家指出. 原文:http://www.telesens.co/2018/03/1 ...

  6. 目标检测 1 : 目标检测中的Anchor详解

    咸鱼了半年,年底了,把这半年做的关于目标的检测的内容总结下. 本文主要有两部分: 目标检测中的边框表示 Anchor相关的问题,R-CNN,SSD,YOLO 中的anchor 目标检测中的边框表示 目 ...

  7. 目标检测:SSD算法详解

    一些概念   True    Predict  True postive False postive  预测为正类 False negivate True negivate  预测为负类    真实为 ...

  8. 第二十九节,目标检测算法之R-CNN算法详解

    Girshick, Ross, et al. “Rich feature hierarchies for accurate object detection and semantic segmenta ...

  9. 目标检测(三) Fast R-CNN

    引言 之前学习了 R-CNN 和 SPPNet,这里做一下回顾和补充. 问题 R-CNN 需要对输入进行resize变换,在对大量 ROI 进行特征提取时,需要进行卷积计算,而且由于 ROI 存在重复 ...

  10. 目标检测算法Faster R-CNN

    一:Faster-R-CNN算法组成: 1.PRN候选框提取模块: 2.Fast R-CNN检测模块. 二:Faster-R-CNN框架介绍 三:RPN介绍 3.1训练步骤:1.将图片输入到VGG或Z ...

随机推荐

  1. vue基础之MV*和它们之间的不同

    vue中的设计思想 vue中的设计思想主要是MV*模式,由最早的MVC(model-view-controller)框架,到后面的MVP(model-view-presenter),甚至到最后的MVV ...

  2. FEX-EMU Wine踩坑记录

    FEX是一个用于在ARM64平台运行X86软件的工具,比较成熟,但是网上资料很少,所以就写了这篇FEX运行Wine踩坑记录. Termux的Fex不能用(2022年5月) 要在debian系统安装fe ...

  3. Upscayl,免费开源的 AI 图像增强软件

    有的时候我们找遍了全网却难以找到一张模糊图片的原图,这时候我们想如果能够一键将图片变成高清的就好了.其实这正是计算机视觉的一大研究反向--图形增强,通过AI计算将模糊的图片增强,将几百kb的低像素图片 ...

  4. 详解ROMA Connect API 流控实现技术

    摘要:本文将详细描述API Gateway流控实现,揭开高性能秒级流控的技术细节. 1.概述 ROMA平台的核心系统ROMA Connect源自华为流程IT的集成平台,在华为内部有超过15年的企业业务 ...

  5. redis bitmap数据结构之java对等操作

    在之前的文章中,我们有说过bitmap,bitmap在很多场景可以应用,比如黑白名单,快速判定,登录情况等等.总之,bitmap是以其高性能出名.其基本原理是一位存储一个标识,其他衍生知道咱就不说了, ...

  6. python-D2-计算机与编程语言

    计算机五大核心 控制器 计算机的指挥系统,可以控制计算机硬件的整体运行 运算器 实现算术运算和逻辑运算 控制器和运算器结合起来就是cpu,也称为中央处理器,是整个电脑的核心. 存储器 分为两类,非永久 ...

  7. 前端框架Vue------>第一天学习(3)

    文章目录 8 .使用Axios实现异步通信 9 .表单输入绑定 9.1 . 什么是双向数据绑定 9.2 .为什么要实现数据的双向绑定 9.3 .在表单中使用双向数据绑定 8 .使用Axios实现异步通 ...

  8. 9.channels layers

    settings.py配置 # 存储在内存里 CHANNEL_LAYERS = { "default": { "BACKEND": "channels ...

  9. 如何在.NET程序崩溃时自动创建Dump?

    今天在浏览张队转载文章的留言时,遇到一个读者问了这样的问题,如下图所示: 首先能明确的一点是"程序崩溃退出了是不能用常规的方式dump的",因为整个进程树都已经退出.现场已经无法使 ...

  10. G1 垃圾收集器深入剖析(图文超详解)

    G1(Garbage First)垃圾收集器是目前垃圾回收技术最前沿的成果之一. G1 同 CMS 垃圾回收器一样,关注最小时延的垃圾回收器,适合大尺寸堆内存的垃圾收集.但是,G1 最大的特点是引入分 ...