论文主要信息

文章概要

  • 集成decoupled head、SimOTA、anchor-free、NMS-free等strategy
  • 比赛第1名:仅使用YOLOX-L,获得CVPR2021的Workshop on Autonomous Driving的第1名,详见原paper
  • 部署代码:ONNX、TensorRT、NCNN和Openvino

背景

  • YOLOv5性能最优:48.2% AP on COCO at 13.7 ms

  • 过去两年的major advance

    方向 方法
    anchor-free detectors FCOS、CenterNet、CornerNet
    advanced label assignment strategies Freeanchor、ATSS、PAA、Autoassign、IQDet、OTA
    end-to-end (NMS-free) detectors DETR、End-to-end object detection with fully convolutional network、PSS
  • 问题:过去两年的major advance未被集成到YOLO系列,YOLOv4和v5仍然是anchor-based、训练时仍使用hand-crafted assigning rules

  • insight:对于anchor-based pipeline,YOLOv4和v5可能有点over-optimized

  • baseline:YOLOv3-SPP(Darknet53)

YOLOX-DarkNet53

实现细节

  • consistent settings:从baseline到final model的训练设置mostly一致

  • epoch:300个epoch,5个epoch的warm up

  • 数据集:COCO train2017

  • 优化器:SGD,momentum 0.9

  • weight decay:0.0005

  • 学习率:lr×BatchSize/64(linear scaling),lr=0.01,cosine lr schedule

  • batch size:128 for 8-GPU

  • input size:448 to 832 with 32 strides

  • inference setting:FP16-precision,batch=1,single Tesla V100

YOLOv3 baseline

  • baseline:YOLOv3-SPP
  • 改动:添加EMA weights updating、cosine lr schedule、IoU loss、IoU-aware branch(这些trick和YOLOX带来的improvement是orthogonal的,因此把这些trick放在baseline中
  • 数据增强:使用RandomHorizontalFlip、ColorJitter、multi-scale,放弃RandomResizedCrop(因为它和mosaic augmentation有些重合)
  • 性能:COCO val上AP达到38.5%,详见消融实验

笔者认为,在选baseline的时候,应该具备至少两点:性能还不错,用的trick还少。像常用的RetinaNet,基本就是随手造的一个普通模型,纯为focal loss服务的,几乎没加太多trick,这样的工作就很适合用来验证我们自己改进出来的东西是否好用。

有的时候trick用得太多,自己的东西加上去不但不涨点,还掉点。但要注意,这个时候不一定是你的东西有问题,很可能是和哪一个trick冲突了。

——引自《目标检测》-第24章-YOLO系列的又一集大成者:YOLOX! - 知乎 (zhihu.com)

这篇知乎文章不错,建议再次阅读。

Decoupled head

  • 问题:在OD中,classification任务和regression任务之间存在conflict

实验

以下2个实验说明,coupled head会损害性能

  • 使用decoupled head替换coupled head会提高收敛速度,如下图(图3)所示

  • decoupled head对end-to-end版本的YOLO很重要,如下表(表1)所示。如果使用coupled head,从YOLO转为End-to-end YOLO后AP下降4.2,而如果使用decoupled head则AP只下降0.8

思路

YOLO在FPN自顶向下路径上的3个level(P5、P4、P3,通道数分别为1024、512、256)上进行detection

  • coupled head:通过卷积直接得到最终的1个输出,形状为[H, W, n_anchor×(C+4+1) ],其中cls(预测是C个类别中的哪一个类)占用C个通道、reg(坐标)占用4个通道、obj(区分是前景背景)占用1个通道。
  • decoupled head:先用1个1×1卷积层把通道数减少到256,然后用2个并行分支(每个分支包括2个3×3卷积层)分别进行regression和classification,并在regression分支上添加一个IoU分支。3个分支(cls、reg、IoU)输出的形状分别为[H,W,C][H,W,4][H,W,1]

cls分支只计算正样本分类loss。简而言之cls用于分类但不用于划分正负样本,正负样本交给obj branch做了。另外使用SimOTA之后,FCOS样本匹配阶段的FPN分层就被取消了,匹配(包括分层)由SimOTA自动完成

————《目标检测》-第24章-YOLO系列的又一集大成者:YOLOX! - 知乎 (zhihu.com)一文中paper原作者的评论

story

我们一开始并没有计划对检测头进行解耦,而是在将 YOLOX 推进到“端到端( 无需NMS )”时发现,不论调整损失权重还是控制梯度回传,End2end 的 YOLOX 始终比标准的 YOLOX 低 4~5 个点( 如 Table1 ),这与我们在 DeFCN 里获得的认知不符。偶然间我们把原始的 YOLO Head 换成 decoupled head,发现这里的差距又显著缩小了,这样的现象说明当前 YOLO Head 的表达能力可能有所欠缺。于是我们将 decoupled head 应用到了非 End2End YOLO 上,结果就如 Fig.3 的所示:不仅在峰值的性能有所提升,收敛速度也明显加快。结合之前 End2end 的实验,这两个现象充分说明 YOLO 系列一直以来使用的检测头可能是不合理的。

————如何评价旷视开源的YOLOX,效果超过YOLOv5? - 知乎 (zhihu.com)中paper原作者的回答

Strong data augmentation

  • 设置:使用Mosaic(ultralytics-YOLOv3提出)和MixUp,在最后15个epoch停止
  • 发现:在使用strong data augmentation之后,作者发现ImageNet预训练不再有益,因此之后的model都是train from scratch。(如何理解“之后”一词?见表2,可知作者是一个个迭代增加模块或trick的)
  • 实验:见消融实验

Anchor-free

  • anchor机制的问题

    • 聚类:在训练前需要通过聚类生成anchor,这些anchor是domain-specific and less generalized
    • complexity:增加了detection head的complexity;每张image中prediction的数量也增加了,而在设备间(比如从NPU到CPU)移动大量prediction的耗时可能会是个瓶颈
  • anchor-free的优点:减少了需要heuristic tuning和Anchor Clustering 、Grid Sensitive等trick的参数的数量,使得decoder的training和decoding相对更简单
  • anchor-free YOLO
    • location:每个location只预测1个box并直接预测4个值(相对于网格左上角的2个offset、box的高度和宽度)
    • 正样本:将每个object的center location作为正样本
    • scale range:按照FCOS那样,预定义1个scale range,根据每个object的size将每个object分配到对应的FPN level
  • 实验:见消融实验

multi positives

  • 问题:对于每个object,如果只将其center location视为正样本,那就只有1个正样本而忽略了其它高质量的prediction。
  • 潜力:对这些高质量prediction进行优化,可能带来beneficial gradient,这可能会缓解training过程中正/负采样的极端不平衡
  • center sampling:如FSOS的center sampling,本文将每个object的center region(3×3)中的所有location作为正样本
  • 实验:见消融实验

SimOTA

  • label assignment应满足的4点

    • loss/quality aware
    • center prior
    • 每个GT的positive anchor的数量应该是动态的(简化为dynamic top-k)。注:“anchor”在anchor-free detector中指“anchor point”,在YOLO中指“grid”
    • global view
  • OTA:

    • 作者:该方法之前就由旷视提出
    • 思路:OTA从global视角分析label assignment并将其formulate为1个Optimal Transport (OT)问题
    • 效果:SOTA
  • Sinkhorn-Knopp:使用Sinkhorn-Knopp算法解决OT问题会增加25%的训练时长,这对于300个epoch来说非常expensive。因此将其简化为dynamic top-k策略,命名为SlimOTA

  • SlimOTA:

    • pair-wise matching degree:首先计算pair-wise matching degree(通过每个prediction-GT pair的cost或quality来表征),SlimOTA中GT \(g_i\)和prediction \(p_j\)之间的cost \(c_{ij}\)如上所示
    • 对于GT \(g_i\),在1个固定的center region中选择cost最小的top-k predictions作为positive sample。注:对于每个GT,k的值是不同的,详见OTA中的Dynamic k Estimation
    • 最后,这些positive prediction对应的grid被指定为positives,其余grid被指定为negatives
  • 实验:见消融实验

End-to-end(NMS-free) YOLO

  • end-to-end:按照PSS,添加了2个额外的卷积层、one-to-one label assignment和stop gradient,这使得detector变成end-to-end

    • optional module:这稍微降低了preformance和inference speed,因此并不将其纳入本文的final module,而是将其作为一个optional module
  • 实验:见消融实验

消融实验

  • decoupled head稍微增加了模型size
  • 除了NMS-free,其它strategy都有效涨点并且没有成本/成本很小

性能对比

除了darknet53,YOLOX在其它不同size的backbone上同样实现了improvement

这张图中不同方法的软硬件差异是somewhat controlled

YOLOX-L

  • backbone:采用YOLOv5的backbone以进行对比,包括modified CSPNet、SiLU activation、the PAN head
  • scaling rule:按照YOLOv5的scale rule,得到YOLOX-S、YOLOX-M、YOLOX-L和YOLOX-X
  • 性能:AP提高1%到3%,时间稍稍增加(因为decoupled head)

YOLOX-Tiny & YOLOX-Nano

  • YOLOX-Tiny:

    • 思路:通过shrink模型而得到(没说怎么shrink的
    • 性能:AP提高9%,而模型size差不多
  • YOLOX-Nano:
    • 思路:采用depth wise convolution
    • 性能:模型size更小,但AP却高出1.8%

Model size V.S. Data augmentation

  • 本文的mixup:mixup with scale jittering

    • heavier:本文的mixup实现比原版heavier
    • 思路:受Copypaste启发,本文在mixup两张图片之前会按随机比例抖动2个图像
    • 效果:Copypaste需要instance mask annotation,而mixup不需要,但两者的AP差不多
    • 作用:当没有instance mask annotation时,mixup with scale jittering可以作为Copypaste的替代品
  • 不同size的模型适用的augmentation不同

    • large model:适合增强augmentation

      • YOLOX-L:应用MixUp可以将AP提高0.9%
    • small model:适合减少或弱化augmentation
      • YOLOX-Nano:弱化mosaic(scale range从[0.1, 2.0]到[0.5, 1.5])并移除mixup,AP提高1.3%

SOTA

  • 注:因为软硬件差异,上表(表6)中inference speed通常是uncontrolled
  • 补充:
    • Scale-YOLOv4、YOLOv5-P6等模型性能更高,但size更大
    • Transformer based detector将accuracy-SOTA推高到了∼60 AP

参考链接

本笔记的参考链接,都很不错,特别是第2篇,建议阅读!

最近被旷视的YOLOX刷屏了!的更多相关文章

  1. 旷视研究院Detection组负责人

    http://www.skicyyu.org/ https://zhuanlan.zhihu.com/p/61910297 俞刚,旷视研究院Detection组负责人.2014年博士毕业于新加坡南洋理 ...

  2. 旷视科技 -- Face++ 世界最大的人脸识别技术平台

    旷视科技 -- Face++ 世界最大的人脸识别技术平台: https://www.megvii.com/

  3. 旷视等Oral论文提出GeoNet:基于测地距离的点云分析深度网络

    基于网格曲面的几何拓扑信息可以为物体语义分析和几何建模提供较强的线索,但是,如此重要的连接性信息在点云中是缺失的.为此,旷视西雅图研究院首次提出一种全新的深度学习网络,称之为 GeoNet,可建模点云 ...

  4. ECCV 2018 | 旷视科技提出GridFace:通过学习局部单应变换实现人脸校正

    全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕,旷视科技有多篇论文被此 ...

  5. ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet,优化场景理解

    全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕.届时,旷视首席科学家孙 ...

  6. 入职9月,旷视孙剑106分钟讲述CV创业科研的5大区别

    雷锋网按:本文为旷视科技首席科学家孙剑日前在 CCF-ADL上做的题为<如何在大公司和创业公司做好计算机视觉研究>的分享,主要介绍了近期计算机视觉的发展现状,ResNet基本原理和设计,旷 ...

  7. 旷视6号员工范浩强:高二开始实习,“兼职”读姚班,25岁在CVPR斩获第四个世界第一...

    初来乍到,这个人说话容易让人觉得"狂". "我们将比赛结果提交上去,果不其然,是第一名的成绩."当他说出这句话的时候,表情没有一丝波澜,仿佛一切顺理成章. 他说 ...

  8. 旷视MegEngine核心技术升级

    旷视MegEngine核心技术升级 7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta ...

  9. 旷视MegEngine数据加载与处理

    旷视MegEngine数据加载与处理 在网络训练与测试中,数据的加载和预处理往往会耗费大量的精力. MegEngine 提供了一系列接口来规范化这些处理工作. 利用 Dataset 封装一个数据集 数 ...

随机推荐

  1. python_selenium 之yaml文件读取(以读取元素信息为例)

    一.yaml源文件编写 二.对yaml文件内容的读取 #coding=gbkimport osimport yamlcurrent_path=os.path.dirname(__file__)yaml ...

  2. Spring Cloud06: Ribbon 负载均衡

    一.使用背景 前面的学习中,我们已经使用RestTemplate来实现了服务消费者对服务提供者的调用,如果在某个具体的业务场景下,对某个服务的调用量突然大幅提升,这个时候就需要对该服务实现负载均衡以满 ...

  3. springboot——重定向解决刷新浏览器造成表单重复提交的问题(超详细)

    原因:造成表单重复提交的原因是当我们刷新浏览器的时候,浏览器会发送上一次提交的请求.由于上一次提交的请求方式为post,刷新浏览器就会重新发送这个post请求,造成表单重复提交. 解决办法: 将请求当 ...

  4. 性能分析之用户数(线程数)/响应时间/TPS的关系

    最近在写一些东西的时候,把一些内容整理了一下. 在考虑压力工具中的用户数(有些工具中称为线程数,本文后续都用"用户数"来说明).响应时间.TPS三者之间的关系时,想到之前也有人问起 ...

  5. MySQL数据库性能优化与监控实战(阶段四)

    MySQL数据库性能优化与监控实战(阶段四) 作者 刘畅 时间 2020-10-20 目录 1 sys数据库 1 2 系统变量 1 3 性能优化 1 3.1 硬件层 1 3.2 系统层 1 3.3 软 ...

  6. 16 自动发布PHP项目

    #!/bin/bash export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin PHP_NAME=$1 DATE ...

  7. ECS实例中的应用偶尔出现丢包现象并且内核日志(dmesg)存在“kernel: nf_conntrack: table full, dropping packet”的报错信息

    问题描述 连接ECS实例中的应用时偶尔出现丢包现象.经排查,ECS实例的外围网络正常,但内核日志(dmesg)中存在"kernel: nf_conntrack: table full, dr ...

  8. NoSql非关系型数据库之MongoDB应用(一):安装MongoDB服务

    业精于勤,荒于嬉:行成于思,毁于随. 一.MongoDB服务下载安装(windows环境安装) 1.进入官网:https://www.mongodb.com/,点击右上角的 Try Free  , 2 ...

  9. C# 小知识点记录

    1.当计算数据有小数点时不要使用float和double类型的数据,使用这两个会计算不准确.使用decimal 2.如果使用decimal计算数据,遇到除不进的数据有很多小数点的时候,在计算结果后面接 ...

  10. 企业该选择什么样的CRM系统

    不论您是需要CRM系统来优化业务流程,还是准备更换一款新的CRM系统,在这之前都应该先明确企业的需求,并了解CRM的哪些功能能够对企业有所帮助.例如,企业的管理者想了解每个销售人员的业绩情况,那么就应 ...