经典论文系列 | 缩小Anchor-based和Anchor-free检测之间差距的方法:自适应训练样本选择
前言
本文介绍一篇CVPR2020的论文,它在paperswithcode上获得了16887星,谷歌学术上有261的引用次数。
论文主要介绍了目标检测现有的研究进展、anchor-based和anchor-free的背景和各自的方法差异,并提出了一种新的正负样本选择方案,用于消除这两者之间的差距。
注:论文讲述了很多关于anchor方面的知识,这篇文章保留了较多原论文中的内容,在介绍新方法的同时,可作为深入理解anchor的文章。
论文:Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection
代码:https://github.com/sfzhang15/ATSS
Background
近年来,随着卷积神经网络的发展,目标检测已被基于anchor-based的检测器所主导,大致可分为one-stage方法和two-stage方法。他们都首先在图像上平铺大量预设的anchor,然后预测类别并将这些anchor的坐标细化一次或几次,最后输出这些细化的anchors作为检测结果。由于two-stage方法比one-stage方法细化锚点数倍,因此前者具有更准确的结果,而后者具有更高的计算效率。常见检测基准的最新结果仍然由Anchor-based的检测器持有。
由于 FPN和 Focal Loss的出现,最近的学术注意力已经转向Anchor-free检测器。Anchor-free检测器以两种不同的方式可以直接找到没有预设锚的目标。
一种方法是首先定位几个预定义或自学习的关键点(keypoint),然后绑定目标的空间范围。我们将这种类型的Anchor-free检测器称为keypoint-based的方法。另一种方法是使用目标的中心点或中心区域来定义正样本,然后预测从正样本到目标边界的四个距离。我们称这种Anchor-free检测器为center-based的方法。这些Anchor-free检测器能够消除那些与锚相关的超参数,并实现了与Anchor-based的检测器相似的性能,使其在泛化能力方面更具潜力。
在这两种Anchor-free检测器中,keypoint-based的方法遵循不同于Anchor-based的检测器的标准关键点估计管道。然而,center-based的检测器类似于Anchor-based的检测器,它将点视为预设样本而不是锚框。
以one-stage anchor-based检测器RetinaNet和center-based anchor-free检测器FCOS为例,它们之间主要有3个区别:
(1) 每个位置平铺的锚点。RetinaNet 在每个位置平铺多个锚框,而 FCOS 在每个位置平铺一个锚点。
(2) 正负样本的定义。RetinaNet 重新排序IoU用于选择正负样本,而 FCOS 利用空间和尺度约束来选择样本。
(3) 回归起始状态。RetinaNet 从预设的锚框回归目标边界框,而 FCOS 从锚点定位目标。
正如 FCOS论文中所报告的,Anchor-free FCOS 的性能比Anchor-based的 RetinaNet 好得多,值得研究这三个差异中的哪一个是性能差距的重要因素。
创新思路
这篇论文通过严格排除它们之间的所有实现不一致,以公平的方式调查anchor-based和anchor-free方法之间的差异。从实验结果可以得出结论,这两种方法的本质区别在于正负训练样本的定义,导致它们之间的性能差距。如果它们在训练时选择相同的正负样本,无论是从一个框还是一个点回归,最终的表现都没有明显的差距。因此,如何选择正负训练样本值得进一步研究。
受此启发,论文提出了一种新的自适应训练样本选择 (Adaptive Training Sample Selection, ATSS),以根据目标特征自动选择正样本和负样本。它弥补了anchor-based和anchor-free检测器之间的差距。
此外,通过一系列在MS COCO数据集上的实验,可以得出结论,不需要在图像上每个位置平铺多个anchors来检测物体。SOTA的 AP 50.7% 是通过应用新引入的 ATSS 而不引入任何开销来实现的。
Contribution
这项工作的主要贡献可以概括为:
- 表明anchor-based和anchor-free检测器之间的本质区别实际上是如何定义正负训练样本。 
- 提出自适应训练样本选择,根据目标的统计特征自动选择正负训练样本。 
- 证明在图像上的每个位置平铺多个锚点以检测对目标是无用的操作。 
- 在不引入任何额外开销的情况下,在 MS COCO 上实现SOTA性能。 
Anchor-based和Anchor-free的区别分析
去除不一致性
论文使用one-stage anchor-based检测器RetinaNet和center-based anchor-free检测器FCOS作为实验对象,通过消除它们之间使用方法的不一致性,即把FCOS上的一些操作加到RetinaNet上,如GIoU loss、GroupNorm等,得到了两个基本一致的检测器--RetinaNet(#A=1)和FCOS。
 

在去掉这些细节优化的影响后,两者只剩下了在分类和回归两个任务上的差别----定义正负样本的方法差别和回归的是anchor box或anchor point的差别。
分类的差别
原始的正负样本选择做法:
如图1(a),RetinaNet使用IOU将来自不同level的anchor box划分为正负样本,对于每个目标,在IOU>θp的所有anchor box中,选一个最大的作为正样本,所有IOU<θn的都认为是负样本,其他的都忽略掉。
如图1(b),FCOS使用空间和尺度约束将anchor点分配到不同的level上,首先将所有在ground truth box内的anchor点作为候选点,然后基于预先对每个level设置的尺度范围来选择最终的正样本,没有选中的点就是负样本。
 

实验的正负样本选择做法:交换各自的方案。
如下表2所示,如果在RetinaNet(#A=1)使用空间和尺度约束的方式来代替IOU来选择正负样本,RetinaNet(#A=1)的performance可以提升到37.8%。而对于FCOS,如果使用IOU的策略在选择正负样本,那么performance会降到36.9%。这表明了正负样本的选择策略才是这两种方法的根本区别。
 

回归的差别
在正负样本确定之后,需要对正样本进行目标位置的回归。如图2所示,RetinaNet回归的是anchor box和ground truth的4个offset,而FCOS回归的是anchor点到4条边的距离。这表明RetinaNet的回归起点是一个框,而FCOS的回归起点是一个点。
 

根据上面表2结果所示,当RetinaNet和FCOS使用相同的正负样本选择策略的时候,两者并没有明显的差别,这表明回归的起点并不是两个方法的本质区别。
因此,one-stage anchor based目标检测方法和center-based anchor free的目标检测方法的本质区别在于正负样本的选取策略上。
Adaptive Training Sample Selection
背景
在训练目标检测器时,我们首先需要定义正负样本进行分类,然后使用正样本进行回归。根据前面的分析,定义正负样本是至关重要的,anchor free detection FCOS 改进了这一步。它引入了一种定义正样本和负样本的新方法,比传统的基于 IoU 的策略实现了更好的性能。
以前的样本选择策略有一些敏感的超参数,例如anchor-based检测器中的 IoU 阈值和anchor-free检测器中的尺度范围。设置这些超参数后,所有的ground-truth box都必须根据固定的规则选择它们的正样本,这适用于大多数目标,但会忽略一些外部目标。因此,这些超参数的不同设置会产生非常不同的结果。
 

实现代码:https://github.com/sfzhang15/ATSS
关于ATSS算法的几点说明:
- 根据锚框和目标之间的中心距离选择候选目标。对于 RetinaNet,锚框的中心越靠近目标的中心,IoU 越大。对于 FCOS,离目标中心越近的锚点将产生更高质量的检测。因此,离目标中心越近的锚点是更好的候选者。 
- 使用均值和标准差之和作为 IoU 阈值。 
- 维护不同目标之间的公平性。RetinaNet 和 FCOS 的策略往往对更大的目标有更多的正样本,导致不同目标之间的不公平。而ATSS统计结果表明,每个目标大约有 0.2 ∗ kL 个正样本,这与其尺度、纵横比和位置是没有关系的。 
- 几乎没什么超参数。 
Conclusion
使用新引入的 ATSS,SOTA检测器大幅提高到 50.7% 的 AP,而不会引入任何开销。
 

在公众号CV技术指南中回复关键字“0012”可获取论文
欢迎关注公众号 CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。
在公众号中回复关键字 “技术总结”可获取公众号原创技术总结文章的汇总pdf。

 
其它文章
经典论文系列 | Group Normalization & BN的缺陷
经典论文系列 | 目标检测--CornerNet & 又名 anchor boxes的缺陷
Siamese network综述| 姿态估计综述| 语义分割综述
视觉Transformer综述| 2021年小目标检测最新研究综述
OCR开源神器PaddleOCR再升级:效果提升7%、速度增加220%
视频理解综述:动作识别、时序动作定位、视频Embedding
TorchShard 简介 | Pytorch Lightning Flash 简介
ICCV2021 | MicroNet:以极低的 FLOPs 改进图像识别
ICCV2021 | 重新思考视觉transformers的空间维度
CVPR2021 | TransCenter: transformer用于多目标跟踪算法
CVPR2021 | 继SE,CBAM后的一种新的注意力机制Coordinate Attention
CVPR2021 | TimeSformer-视频理解的时空注意模型
CVPR2021 | 华为诺亚实验室提出Transformer in Transformer
CVPR2021 | 行人搜索中的第一个anchor-free模型
经典论文系列 | 缩小Anchor-based和Anchor-free检测之间差距的方法:自适应训练样本选择的更多相关文章
- 经典论文系列 | 目标检测--CornerNet & 又名 anchor boxes的缺陷
		 前言: 目标检测的预测框经过了滑动窗口.selective search.RPN.anchor based等一系列生成方法的发展,到18年开始,开始流行anchor free系列,CornerNe ... 
- 经典论文系列| 实例分割中的新范式-SOLO
		前言: 这是实例分割中的一篇经典论文,以往的实例分割模型都比较复杂,这篇论文提出了一个简单且直接的实例分割模型,如何设计这种简单直接的模型且要达到一定的精度往往会存在一些困难,论文中有很多思路或思想值 ... 
- 读论文系列:Object Detection ECCV2016 SSD
		转载请注明作者:梦里茶 Single Shot MultiBox Detector Introduction 一句话概括:SSD就是关于类别的多尺度RPN网络 基本思路: 基础网络后接多层featur ... 
- 读论文系列:Object Detection NIPS2015 Faster RCNN
		转载请注明作者:梦里茶 Faster RCNN在Fast RCNN上更进一步,将Region Proposal也用神经网络来做,如果说Fast RCNN的最大贡献是ROI pooling layer和 ... 
- Memory Networks01 记忆网络经典论文
		目录 1.Memory Networks 框架 流程 损失函数 QA 问题 一些扩展 小结 2.End-To-End Memory Networks Single Layer 输入模块 算法流程 Mu ... 
- 转载 CSS3 经典教程系列:CSS3 盒阴影(box-shadow)详解
		目标大纲 文章转载 CSS3 经典教程系列:CSS3 盒阴影(box-shadow)详解 IE中CSS-filter滤镜小知识大全 CSS实现跨浏览器兼容性的盒阴影效果 
- July-程序员面试、算法研究、编程艺术、红黑树、数据挖掘5大经典原创系列集锦与总结
		程序员面试.算法研究.编程艺术.红黑树.数据挖掘5大经典原创系列集锦与总结 http://blog.csdn.net/v_july_v/article/details/6543438 
- 三白话经典算法系列 Shell排序实现
		山是包插入的精髓排序排序,这种方法,也被称为窄增量排序.因为DL.Shell至1959提出命名. 该方法的基本思想是:先将整个待排元素序列切割成若干个子序列(由相隔某个"增量"的元 ... 
- 读论文系列:Deep transfer learning person re-identification
		读论文系列:Deep transfer learning person re-identification arxiv 2016 by Mengyue Geng, Yaowei Wang, Tao X ... 
随机推荐
- Photoshop 批量修改图像大小
- 从kratos分析breaker熔断器源码实现
			为什么要用熔断 前面我们讲过限流保证服务的可用性,不被突如其来的流量打爆.但是两种情况是限流解决不了的. 如果我们服务只能处理1000QPS,但是有10wQPS打过来,服务还是会炸.因为拒绝请求也需要 ... 
- struts框架返回json数据
			设置返回result类型为json格式 <package name="cn.konngo.action" namespace="/" extends=&q ... 
- Easy-ARM IMX283 移植RTL8192CU驱动
			测试平台 宿主机平台:Ubuntu 12.04.4 LTS 目标机:Easy-ARM IMX283 目标机内核:Linux 2.6.35.3 无线网卡驱动下载地址:http://www.comfast ... 
- Golang入门学习(三):函数
			文章目录 2.3 函数 2.3.1 基本语法 2.3.2 入门demo: 2.3.3 函数递归: 2.3.4 函数注意事项 2.3.5 init函数 2.3.6 匿名函数 2.3.7 闭包 2.3.8 ... 
- 《Go语言圣经》阅读笔记:第三章基础数据类型
			第三章 基础数据类型 Go语言将数据类型分为四类: 基础类型 数字 整数 浮点数 复数 字符串 布尔 复合类型 数据 结构体 引用类型 指针 切片 字典 函数 通道 接口类型 在此章节中先介绍基础类型 ... 
- vue-router路由钩子
			路由跳转前后,需要做某些操作,这时就可以使用路由钩子来监听路由的变化. 接收三个参数: to: Route: 即将要进入的目标路由对象 from: Route: 当前导航正要离开的路由 next: F ... 
- Spring Cloud Hystrix 学习(一)
			在学习Hystrix之前,首先引入一个问题场景,服务雪崩.如下图所示: 可以看到,三个入口服务A.B.C最终都会请求到服务T.当服务T的请求过载,打满CPU都无法匹配请求的频率时,同步调用的上级服务就 ... 
- js 签字插件
			1.jq-signature http://bencentra.github.io/jq-signature/ 支持的jquery版本低 2.HTML5 canvas http://www ... 
- Java基础系列(1)- JDK、JRE、JVM
			Java三大版本(Write Once:Run Anywhere) JavaSE:标准版 JavaME:嵌入式开发 JavaEE:E企业级开发 JDK.JRE.JVM JDK是开发工具包 JRE是编译 ... 
