论文主要信息

标题：YOLOX: Exceeding YOLO Series in 2021
作者：Zheng Ge，Songtao Liu，Feng Wang，Zeming Li，Jian Sun
机构：Megvii Technology
链接：https://arxiv.org/abs/2107.08430
代码：https://github.com/Megvii-BaseDetection/YOLOX

文章概要

集成decoupled head、SimOTA、anchor-free、NMS-free等strategy
比赛第1名：仅使用YOLOX-L，获得CVPR2021的Workshop on Autonomous Driving的第1名，详见原paper
部署代码：ONNX、TensorRT、NCNN和Openvino

背景

YOLOv5性能最优：48.2% AP on COCO at 13.7 ms

过去两年的major advance

方向	方法
anchor-free detectors	FCOS、CenterNet、CornerNet
advanced label assignment strategies	Freeanchor、ATSS、PAA、Autoassign、IQDet、OTA
end-to-end (NMS-free) detectors	DETR、End-to-end object detection with fully convolutional network、PSS

问题：过去两年的major advance未被集成到YOLO系列，YOLOv4和v5仍然是anchor-based、训练时仍使用hand-crafted assigning rules
insight：对于anchor-based pipeline，YOLOv4和v5可能有点over-optimized
baseline：YOLOv3-SPP（Darknet53）

YOLOX-DarkNet53

实现细节

consistent settings：从baseline到final model的训练设置mostly一致
epoch：300个epoch，5个epoch的warm up
数据集：COCO train2017
优化器：SGD，momentum 0.9
weight decay：0.0005
学习率：lr×BatchSize/64（linear scaling），lr=0.01，cosine lr schedule
batch size：128 for 8-GPU
input size：448 to 832 with 32 strides
inference setting：FP16-precision，batch=1，single Tesla V100

YOLOv3 baseline

baseline：YOLOv3-SPP
改动：添加EMA weights updating、cosine lr schedule、IoU loss、IoU-aware branch（这些trick和YOLOX带来的improvement是orthogonal的，因此把这些trick放在baseline中）
数据增强：使用RandomHorizontalFlip、ColorJitter、multi-scale，放弃RandomResizedCrop（因为它和mosaic augmentation有些重合）
性能：COCO val上AP达到38.5%，详见消融实验

笔者认为，在选baseline的时候，应该具备至少两点：性能还不错，用的trick还少。像常用的RetinaNet，基本就是随手造的一个普通模型，纯为focal loss服务的，几乎没加太多trick，这样的工作就很适合用来验证我们自己改进出来的东西是否好用。

有的时候trick用得太多，自己的东西加上去不但不涨点，还掉点。但要注意，这个时候不一定是你的东西有问题，很可能是和哪一个trick冲突了。

——引自《目标检测》-第24章-YOLO系列的又一集大成者：YOLOX！ - 知乎 (zhihu.com)

这篇知乎文章不错，建议再次阅读。

Decoupled head

问题：在OD中，classification任务和regression任务之间存在conflict

实验

以下2个实验说明，coupled head会损害性能：

使用decoupled head替换coupled head会提高收敛速度，如下图（图3）所示

decoupled head对end-to-end版本的YOLO很重要，如下表（表1）所示。如果使用coupled head，从YOLO转为End-to-end YOLO后AP下降4.2，而如果使用decoupled head则AP只下降0.8

思路

YOLO在FPN自顶向下路径上的3个level（P5、P4、P3，通道数分别为1024、512、256）上进行detection

coupled head：通过卷积直接得到最终的1个输出，形状为[H, W, n_anchor×(C+4+1) ]，其中cls（预测是C个类别中的哪一个类）占用C个通道、reg（坐标）占用4个通道、obj（区分是前景背景）占用1个通道。
decoupled head：先用1个1×1卷积层把通道数减少到256，然后用2个并行分支（每个分支包括2个3×3卷积层）分别进行regression和classification，并在regression分支上添加一个IoU分支。3个分支（cls、reg、IoU）输出的形状分别为[H,W,C]、[H,W,4]、[H,W,1]

cls分支只计算正样本分类loss。简而言之cls用于分类但不用于划分正负样本，正负样本交给obj branch做了。另外使用SimOTA之后，FCOS样本匹配阶段的FPN分层就被取消了，匹配(包括分层)由SimOTA自动完成

————《目标检测》-第24章-YOLO系列的又一集大成者：YOLOX！ - 知乎 (zhihu.com)一文中paper原作者的评论

story

我们一开始并没有计划对检测头进行解耦，而是在将 YOLOX 推进到“端到端（无需NMS ）”时发现，不论调整损失权重还是控制梯度回传，End2end 的 YOLOX 始终比标准的 YOLOX 低 4~5 个点（如 Table1 ），这与我们在 DeFCN 里获得的认知不符。偶然间我们把原始的 YOLO Head 换成 decoupled head，发现这里的差距又显著缩小了，这样的现象说明当前 YOLO Head 的表达能力可能有所欠缺。于是我们将 decoupled head 应用到了非 End2End YOLO 上，结果就如 Fig.3 的所示：不仅在峰值的性能有所提升，收敛速度也明显加快。结合之前 End2end 的实验，这两个现象充分说明 YOLO 系列一直以来使用的检测头可能是不合理的。

————如何评价旷视开源的YOLOX，效果超过YOLOv5? - 知乎 (zhihu.com)中paper原作者的回答

Strong data augmentation

设置：使用Mosaic（ultralytics-YOLOv3提出）和MixUp，在最后15个epoch停止
发现：在使用strong data augmentation之后，作者发现ImageNet预训练不再有益，因此之后的model都是train from scratch。（如何理解“之后”一词？见表2，可知作者是一个个迭代增加模块或trick的）
实验：见消融实验

Anchor-free

anchor机制的问题
- 聚类：在训练前需要通过聚类生成anchor，这些anchor是domain-specific and less generalized
- complexity：增加了detection head的complexity；每张image中prediction的数量也增加了，而在设备间（比如从NPU到CPU）移动大量prediction的耗时可能会是个瓶颈
anchor-free的优点：减少了需要heuristic tuning和Anchor Clustering 、Grid Sensitive等trick的参数的数量，使得decoder的training和decoding相对更简单
anchor-free YOLO：
- location：每个location只预测1个box并直接预测4个值（相对于网格左上角的2个offset、box的高度和宽度）
- 正样本：将每个object的center location作为正样本
- scale range：按照FCOS那样，预定义1个scale range，根据每个object的size将每个object分配到对应的FPN level
实验：见消融实验

multi positives

问题：对于每个object，如果只将其center location视为正样本，那就只有1个正样本而忽略了其它高质量的prediction。
潜力：对这些高质量prediction进行优化，可能带来beneficial gradient，这可能会缓解training过程中正/负采样的极端不平衡
center sampling：如FSOS的center sampling，本文将每个object的center region（3×3）中的所有location作为正样本
实验：见消融实验

SimOTA

label assignment应满足的4点
- loss/quality aware
- center prior
- 每个GT的positive anchor的数量应该是动态的（简化为dynamic top-k）。注：“anchor”在anchor-free detector中指“anchor point”，在YOLO中指“grid”
- global view
OTA：
- 作者：该方法之前就由旷视提出
- 思路：OTA从global视角分析label assignment并将其formulate为1个Optimal Transport (OT)问题
- 效果：SOTA
Sinkhorn-Knopp：使用Sinkhorn-Knopp算法解决OT问题会增加25%的训练时长，这对于300个epoch来说非常expensive。因此将其简化为dynamic top-k策略，命名为SlimOTA
SlimOTA：
- pair-wise matching degree：首先计算pair-wise matching degree（通过每个prediction-GT pair的cost或quality来表征），SlimOTA中GT \(g_i\)和prediction \(p_j\)之间的cost \(c_{ij}\)如上所示
- 对于GT \(g_i\)，在1个固定的center region中选择cost最小的top-k predictions作为positive sample。注：对于每个GT，k的值是不同的，详见OTA中的Dynamic k Estimation
- 最后，这些positive prediction对应的grid被指定为positives，其余grid被指定为negatives
实验：见消融实验

End-to-end(NMS-free) YOLO

end-to-end：按照PSS，添加了2个额外的卷积层、one-to-one label assignment和stop gradient，这使得detector变成end-to-end
- optional module：这稍微降低了preformance和inference speed，因此并不将其纳入本文的final module，而是将其作为一个optional module
实验：见消融实验

消融实验

decoupled head稍微增加了模型size
除了NMS-free，其它strategy都有效涨点并且没有成本/成本很小

性能对比

除了darknet53，YOLOX在其它不同size的backbone上同样实现了improvement

这张图中不同方法的软硬件差异是somewhat controlled

YOLOX-L

backbone：采用YOLOv5的backbone以进行对比，包括modified CSPNet、SiLU activation、the PAN head
scaling rule：按照YOLOv5的scale rule，得到YOLOX-S、YOLOX-M、YOLOX-L和YOLOX-X
性能：AP提高1%到3%，时间稍稍增加（因为decoupled head）

YOLOX-Tiny & YOLOX-Nano

YOLOX-Tiny：
- 思路：通过shrink模型而得到（没说怎么shrink的）
- 性能：AP提高9%，而模型size差不多
YOLOX-Nano：
- 思路：采用depth wise convolution
- 性能：模型size更小，但AP却高出1.8%

Model size V.S. Data augmentation

本文的mixup：mixup with scale jittering
- heavier：本文的mixup实现比原版heavier
- 思路：受Copypaste启发，本文在mixup两张图片之前会按随机比例抖动2个图像
- 效果：Copypaste需要instance mask annotation，而mixup不需要，但两者的AP差不多
- 作用：当没有instance mask annotation时，mixup with scale jittering可以作为Copypaste的替代品
不同size的模型适用的augmentation不同
- large model：适合增强augmentation
  - YOLOX-L：应用MixUp可以将AP提高0.9%
- small model：适合减少或弱化augmentation
  - YOLOX-Nano：弱化mosaic（scale range从[0.1, 2.0]到[0.5, 1.5]）并移除mixup，AP提高1.3%

SOTA

注：因为软硬件差异，上表（表6）中inference speed通常是uncontrolled
补充：
- Scale-YOLOv4、YOLOv5-P6等模型性能更高，但size更大
- Transformer based detector将accuracy-SOTA推高到了∼60 AP

参考链接

本笔记的参考链接，都很不错，特别是第2篇，建议阅读！

最近被旷视的YOLOX刷屏了！的更多相关文章

旷视研究院Detection组负责人
http://www.skicyyu.org/ https://zhuanlan.zhihu.com/p/61910297 俞刚,旷视研究院Detection组负责人.2014年博士毕业于新加坡南洋理 ...
旷视科技 -- Face++ 世界最大的人脸识别技术平台
旷视科技 -- Face++ 世界最大的人脸识别技术平台: https://www.megvii.com/
旷视等Oral论文提出GeoNet：基于测地距离的点云分析深度网络
基于网格曲面的几何拓扑信息可以为物体语义分析和几何建模提供较强的线索,但是,如此重要的连接性信息在点云中是缺失的.为此,旷视西雅图研究院首次提出一种全新的深度学习网络,称之为 GeoNet,可建模点云 ...
ECCV 2018 | 旷视科技提出GridFace：通过学习局部单应变换实现人脸校正
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕,旷视科技有多篇论文被此 ...
ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet，优化场景理解
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕.届时,旷视首席科学家孙 ...
入职9月，旷视孙剑106分钟讲述CV创业科研的5大区别
雷锋网按:本文为旷视科技首席科学家孙剑日前在 CCF-ADL上做的题为<如何在大公司和创业公司做好计算机视觉研究>的分享,主要介绍了近期计算机视觉的发展现状,ResNet基本原理和设计,旷 ...
旷视6号员工范浩强：高二开始实习，“兼职”读姚班，25岁在CVPR斩获第四个世界第一...
初来乍到,这个人说话容易让人觉得"狂". "我们将比赛结果提交上去,果不其然,是第一名的成绩."当他说出这句话的时候,表情没有一丝波澜,仿佛一切顺理成章. 他说 ...
旷视MegEngine核心技术升级
旷视MegEngine核心技术升级 7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta ...
旷视MegEngine数据加载与处理
旷视MegEngine数据加载与处理在网络训练与测试中,数据的加载和预处理往往会耗费大量的精力. MegEngine 提供了一系列接口来规范化这些处理工作. 利用 Dataset 封装一个数据集数 ...

随机推荐

新的微芯片MCU增加了来自外部闪存的安全引导保护
新的微芯片MCU增加了来自外部闪存的安全引导保护 New Microchip MCU Adds Secure Boot Protection from External Flash 对于从外部SPI闪 ...
从“信息化”到“智慧化”，GVS视声将如何赋能智慧医院？
4月23日-25日,2021年中华医院信息网络大会(CHINC)盛大举办,今年首次携手中国医院建筑与装备创新发展大会,同期同地亮相杭州国际博览中心,塑造了全新的"双引擎"品牌盛会. ...
编译原理-DFA的化简(最小化)
对于给定的DFA M,寻找一个状态数比M小的DFA M'使得L(M)=L(M') 1.状态的等价性: 假设s和t为M的两个状态 ①若分别从状态s和状态t出发都能读出某个字α而停止于终态,则 ...
【NX二次开发】设置了“附加包含目录”，还是提示“无法打开包括文件”的解决方法
项目属性中的"附加包含目录"路径完全正确,但是还是无法找到头文件: 这个问题我遇到过不止一次,纠结了很久,终于发现了解决方法: 改为: 问题解决! 分析原因:项目中的属性配置与 ...
与安卓联调，调用安卓那边的方法，获取到安卓传过来的数据，再携带这些数据发送axios请求，获取到用户的信息
第一步:js调用Android方法:接收Android传递过来的数据,并做处理 //参数一:调用java中的方法 submitFromWeb是方法名,必须和Android中注册时候的方法名称保持一 ...
备份schema并排除大表到ASM磁盘上
1.查出占用空间比较大的表 select owner,segment_name,segment_type,bytes/1024/1024 mb from dab_segment where owner ...
Jenkins+Github+Nginx实现前端项目自动部署
前言最近在搭建一个自己的网站,网站框架搭好了要把项目放到服务器运行,但是每次更新网站内容就要手动部署一次,实在很麻烦,于是就想搭建一套自动化部署的服务.看了一些案例最后选用现在比较主流的Jenkin ...
10、nginx+uwsgi+django部署(动静分离)
10.1.说明: 1.介绍: 创建Django项目,可以通过 pyhon3 manage.py runserver 0.0.0.0:8080 & 命令更方便地调试程序,但是如果当一个项目完成了 ...
01 JumpServer安装
1.0.环境说明: 操作系统类型主机名称用户及密码角色 eth0(Vmnet8) eth1(Vmnet1) 防火墙状态 selinux centos7.4 controlnode root:12 ...
c++11 线程间同步---利用std::condition_variable实现
1.前言很多时候,我们在写程序的时候,多多少少会遇到下面种需求一个产品的大致部分流程,由工厂生产,然后放入仓库,最后由销售员提单卖出去这样. 在实际中,仓库的容量的有限的,也就是说,工厂不能一直生 ...

最近被旷视的YOLOX刷屏了！