论文主要信息

标题：YOLOX: Exceeding YOLO Series in 2021
作者：Zheng Ge，Songtao Liu，Feng Wang，Zeming Li，Jian Sun
机构：Megvii Technology
链接：https://arxiv.org/abs/2107.08430
代码：https://github.com/Megvii-BaseDetection/YOLOX

文章概要

集成decoupled head、SimOTA、anchor-free、NMS-free等strategy
比赛第1名：仅使用YOLOX-L，获得CVPR2021的Workshop on Autonomous Driving的第1名，详见原paper
部署代码：ONNX、TensorRT、NCNN和Openvino

背景

YOLOv5性能最优：48.2% AP on COCO at 13.7 ms

过去两年的major advance

方向	方法
anchor-free detectors	FCOS、CenterNet、CornerNet
advanced label assignment strategies	Freeanchor、ATSS、PAA、Autoassign、IQDet、OTA
end-to-end (NMS-free) detectors	DETR、End-to-end object detection with fully convolutional network、PSS

问题：过去两年的major advance未被集成到YOLO系列，YOLOv4和v5仍然是anchor-based、训练时仍使用hand-crafted assigning rules
insight：对于anchor-based pipeline，YOLOv4和v5可能有点over-optimized
baseline：YOLOv3-SPP（Darknet53）

YOLOX-DarkNet53

实现细节

consistent settings：从baseline到final model的训练设置mostly一致
epoch：300个epoch，5个epoch的warm up
数据集：COCO train2017
优化器：SGD，momentum 0.9
weight decay：0.0005
学习率：lr×BatchSize/64（linear scaling），lr=0.01，cosine lr schedule
batch size：128 for 8-GPU
input size：448 to 832 with 32 strides
inference setting：FP16-precision，batch=1，single Tesla V100

YOLOv3 baseline

baseline：YOLOv3-SPP
改动：添加EMA weights updating、cosine lr schedule、IoU loss、IoU-aware branch（这些trick和YOLOX带来的improvement是orthogonal的，因此把这些trick放在baseline中）
数据增强：使用RandomHorizontalFlip、ColorJitter、multi-scale，放弃RandomResizedCrop（因为它和mosaic augmentation有些重合）
性能：COCO val上AP达到38.5%，详见消融实验

笔者认为，在选baseline的时候，应该具备至少两点：性能还不错，用的trick还少。像常用的RetinaNet，基本就是随手造的一个普通模型，纯为focal loss服务的，几乎没加太多trick，这样的工作就很适合用来验证我们自己改进出来的东西是否好用。

有的时候trick用得太多，自己的东西加上去不但不涨点，还掉点。但要注意，这个时候不一定是你的东西有问题，很可能是和哪一个trick冲突了。

——引自《目标检测》-第24章-YOLO系列的又一集大成者：YOLOX！ - 知乎 (zhihu.com)

这篇知乎文章不错，建议再次阅读。

Decoupled head

问题：在OD中，classification任务和regression任务之间存在conflict

实验

以下2个实验说明，coupled head会损害性能：

使用decoupled head替换coupled head会提高收敛速度，如下图（图3）所示

decoupled head对end-to-end版本的YOLO很重要，如下表（表1）所示。如果使用coupled head，从YOLO转为End-to-end YOLO后AP下降4.2，而如果使用decoupled head则AP只下降0.8

思路

YOLO在FPN自顶向下路径上的3个level（P5、P4、P3，通道数分别为1024、512、256）上进行detection

coupled head：通过卷积直接得到最终的1个输出，形状为[H, W, n_anchor×(C+4+1) ]，其中cls（预测是C个类别中的哪一个类）占用C个通道、reg（坐标）占用4个通道、obj（区分是前景背景）占用1个通道。
decoupled head：先用1个1×1卷积层把通道数减少到256，然后用2个并行分支（每个分支包括2个3×3卷积层）分别进行regression和classification，并在regression分支上添加一个IoU分支。3个分支（cls、reg、IoU）输出的形状分别为[H,W,C]、[H,W,4]、[H,W,1]

cls分支只计算正样本分类loss。简而言之cls用于分类但不用于划分正负样本，正负样本交给obj branch做了。另外使用SimOTA之后，FCOS样本匹配阶段的FPN分层就被取消了，匹配(包括分层)由SimOTA自动完成

————《目标检测》-第24章-YOLO系列的又一集大成者：YOLOX！ - 知乎 (zhihu.com)一文中paper原作者的评论

story

我们一开始并没有计划对检测头进行解耦，而是在将 YOLOX 推进到“端到端（无需NMS ）”时发现，不论调整损失权重还是控制梯度回传，End2end 的 YOLOX 始终比标准的 YOLOX 低 4~5 个点（如 Table1 ），这与我们在 DeFCN 里获得的认知不符。偶然间我们把原始的 YOLO Head 换成 decoupled head，发现这里的差距又显著缩小了，这样的现象说明当前 YOLO Head 的表达能力可能有所欠缺。于是我们将 decoupled head 应用到了非 End2End YOLO 上，结果就如 Fig.3 的所示：不仅在峰值的性能有所提升，收敛速度也明显加快。结合之前 End2end 的实验，这两个现象充分说明 YOLO 系列一直以来使用的检测头可能是不合理的。

————如何评价旷视开源的YOLOX，效果超过YOLOv5? - 知乎 (zhihu.com)中paper原作者的回答

Strong data augmentation

设置：使用Mosaic（ultralytics-YOLOv3提出）和MixUp，在最后15个epoch停止
发现：在使用strong data augmentation之后，作者发现ImageNet预训练不再有益，因此之后的model都是train from scratch。（如何理解“之后”一词？见表2，可知作者是一个个迭代增加模块或trick的）
实验：见消融实验

Anchor-free

anchor机制的问题
- 聚类：在训练前需要通过聚类生成anchor，这些anchor是domain-specific and less generalized
- complexity：增加了detection head的complexity；每张image中prediction的数量也增加了，而在设备间（比如从NPU到CPU）移动大量prediction的耗时可能会是个瓶颈
anchor-free的优点：减少了需要heuristic tuning和Anchor Clustering 、Grid Sensitive等trick的参数的数量，使得decoder的training和decoding相对更简单
anchor-free YOLO：
- location：每个location只预测1个box并直接预测4个值（相对于网格左上角的2个offset、box的高度和宽度）
- 正样本：将每个object的center location作为正样本
- scale range：按照FCOS那样，预定义1个scale range，根据每个object的size将每个object分配到对应的FPN level
实验：见消融实验

multi positives

问题：对于每个object，如果只将其center location视为正样本，那就只有1个正样本而忽略了其它高质量的prediction。
潜力：对这些高质量prediction进行优化，可能带来beneficial gradient，这可能会缓解training过程中正/负采样的极端不平衡
center sampling：如FSOS的center sampling，本文将每个object的center region（3×3）中的所有location作为正样本
实验：见消融实验

SimOTA

label assignment应满足的4点
- loss/quality aware
- center prior
- 每个GT的positive anchor的数量应该是动态的（简化为dynamic top-k）。注：“anchor”在anchor-free detector中指“anchor point”，在YOLO中指“grid”
- global view
OTA：
- 作者：该方法之前就由旷视提出
- 思路：OTA从global视角分析label assignment并将其formulate为1个Optimal Transport (OT)问题
- 效果：SOTA
Sinkhorn-Knopp：使用Sinkhorn-Knopp算法解决OT问题会增加25%的训练时长，这对于300个epoch来说非常expensive。因此将其简化为dynamic top-k策略，命名为SlimOTA
SlimOTA：
- pair-wise matching degree：首先计算pair-wise matching degree（通过每个prediction-GT pair的cost或quality来表征），SlimOTA中GT \(g_i\)和prediction \(p_j\)之间的cost \(c_{ij}\)如上所示
- 对于GT \(g_i\)，在1个固定的center region中选择cost最小的top-k predictions作为positive sample。注：对于每个GT，k的值是不同的，详见OTA中的Dynamic k Estimation
- 最后，这些positive prediction对应的grid被指定为positives，其余grid被指定为negatives
实验：见消融实验

End-to-end(NMS-free) YOLO

end-to-end：按照PSS，添加了2个额外的卷积层、one-to-one label assignment和stop gradient，这使得detector变成end-to-end
- optional module：这稍微降低了preformance和inference speed，因此并不将其纳入本文的final module，而是将其作为一个optional module
实验：见消融实验

消融实验

decoupled head稍微增加了模型size
除了NMS-free，其它strategy都有效涨点并且没有成本/成本很小

性能对比

除了darknet53，YOLOX在其它不同size的backbone上同样实现了improvement

这张图中不同方法的软硬件差异是somewhat controlled

YOLOX-L

backbone：采用YOLOv5的backbone以进行对比，包括modified CSPNet、SiLU activation、the PAN head
scaling rule：按照YOLOv5的scale rule，得到YOLOX-S、YOLOX-M、YOLOX-L和YOLOX-X
性能：AP提高1%到3%，时间稍稍增加（因为decoupled head）

YOLOX-Tiny & YOLOX-Nano

YOLOX-Tiny：
- 思路：通过shrink模型而得到（没说怎么shrink的）
- 性能：AP提高9%，而模型size差不多
YOLOX-Nano：
- 思路：采用depth wise convolution
- 性能：模型size更小，但AP却高出1.8%

Model size V.S. Data augmentation

本文的mixup：mixup with scale jittering
- heavier：本文的mixup实现比原版heavier
- 思路：受Copypaste启发，本文在mixup两张图片之前会按随机比例抖动2个图像
- 效果：Copypaste需要instance mask annotation，而mixup不需要，但两者的AP差不多
- 作用：当没有instance mask annotation时，mixup with scale jittering可以作为Copypaste的替代品
不同size的模型适用的augmentation不同
- large model：适合增强augmentation
  - YOLOX-L：应用MixUp可以将AP提高0.9%
- small model：适合减少或弱化augmentation
  - YOLOX-Nano：弱化mosaic（scale range从[0.1, 2.0]到[0.5, 1.5]）并移除mixup，AP提高1.3%

SOTA

注：因为软硬件差异，上表（表6）中inference speed通常是uncontrolled
补充：
- Scale-YOLOv4、YOLOv5-P6等模型性能更高，但size更大
- Transformer based detector将accuracy-SOTA推高到了∼60 AP

参考链接

本笔记的参考链接，都很不错，特别是第2篇，建议阅读！

最近被旷视的YOLOX刷屏了！的更多相关文章

旷视研究院Detection组负责人
http://www.skicyyu.org/ https://zhuanlan.zhihu.com/p/61910297 俞刚,旷视研究院Detection组负责人.2014年博士毕业于新加坡南洋理 ...
旷视科技 -- Face++ 世界最大的人脸识别技术平台
旷视科技 -- Face++ 世界最大的人脸识别技术平台: https://www.megvii.com/
旷视等Oral论文提出GeoNet：基于测地距离的点云分析深度网络
基于网格曲面的几何拓扑信息可以为物体语义分析和几何建模提供较强的线索,但是,如此重要的连接性信息在点云中是缺失的.为此,旷视西雅图研究院首次提出一种全新的深度学习网络,称之为 GeoNet,可建模点云 ...
ECCV 2018 | 旷视科技提出GridFace：通过学习局部单应变换实现人脸校正
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕,旷视科技有多篇论文被此 ...
ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet，优化场景理解
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕.届时,旷视首席科学家孙 ...
入职9月，旷视孙剑106分钟讲述CV创业科研的5大区别
雷锋网按:本文为旷视科技首席科学家孙剑日前在 CCF-ADL上做的题为<如何在大公司和创业公司做好计算机视觉研究>的分享,主要介绍了近期计算机视觉的发展现状,ResNet基本原理和设计,旷 ...
旷视6号员工范浩强：高二开始实习，“兼职”读姚班，25岁在CVPR斩获第四个世界第一...
初来乍到,这个人说话容易让人觉得"狂". "我们将比赛结果提交上去,果不其然,是第一名的成绩."当他说出这句话的时候,表情没有一丝波澜,仿佛一切顺理成章. 他说 ...
旷视MegEngine核心技术升级
旷视MegEngine核心技术升级 7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta ...
旷视MegEngine数据加载与处理
旷视MegEngine数据加载与处理在网络训练与测试中,数据的加载和预处理往往会耗费大量的精力. MegEngine 提供了一系列接口来规范化这些处理工作. 利用 Dataset 封装一个数据集数 ...

随机推荐

python_request的安装及模拟json的post请求及带参数的get请求
一.Requests模块安装安装方式一:执行 pip install -U requests 联网安装requests 安装方式二:进入https://pypi.org/project/reques ...
jmeter工作目录介绍、jmeter元件及组件介绍
一.jmeter工作目录介绍: bin:放置各项配置文件(如日志设置.JVM设置).启动文件.启动Jar包.示例脚本等: docs:放置JMeter API的离线帮助文档: extras:JMeter ...
一、DNS服务器的搭建
一.介绍 DNS服务:域名解析将域名解析ip地址 DNS服务器的功能– 正向解析:根据注册的域名查找其对应的IP地址– 反向解析:根据IP地址查找对应的注册域名,不常用所有完整的域名都要以点结 ...
【VBA】判断文件是否存在
效果: 源码: Sub 判断文件是否存在() Dim strcfg As String strcfg = "D:\a.cfg" If Dir(strcfg, vbDirectory ...
代码生成器：IDEA 强大的 Live Templates
前言 Java 开发过程经常需要编写有固定格式的代码,例如说声明一个私有变量,logger或者bean等等.对于这种小范围的代码生成,我们可以利用 IDEA 提供的 Live Templates功能. ...
剖析虚幻渲染体系（06）- UE5特辑Part 1（特性和Nanite）
目录 6.1 本篇概述 6.1.1 本篇内容 6.1.2 基础概念 6.2 UE5新特性 6.2.1 UE5编辑器 6.2.1.1 下载编辑器及资源 6.2.1.2 启动示例工程 6.2.1.3 编辑 ...
AJAX异步原理与实现
面试时问到了这个问题,说实话我还是不理解的,只是单单会使用.所以今天我看一下,自己了解下. 看了网上前辈们写的资料,我自己总结归纳ajax的原理和流程如下: 1.AJAX创建异步对象XMLHttpRe ...
磁盘文件监控（Java）并发送邮件通知、系统定期执行的办法
以下是通过xml文件进行的监控路径.文件以及邮件信息的配置,读取xml文件使用的是三方jar包:dom4j 收发邮件采用的是最普通的javamail,需要两个jar包,mail.jar和activit ...
基于ABP落地领域驱动设计-03.仓储和规约最佳实践和原则
目录系列文章仓储仓储的通用原则仓储中不包含领域逻辑规约在实体中使用规约在仓储中使用规约组合规约学习帮助围绕DDD和ABP Framework两个核心技术,后面还会陆续发布核心构件实 ...
IP地址与子网的划分
一.IP地址 1.IP地址的定义 (1).IP地址有32位二进制数组成,一般用点分十进制来表示 (2).IP地址由两部分组成网络部分(NETWORK) 主机部分(HOST) 2.IP地址的分类 IP ...

最近被旷视的YOLOX刷屏了！