论文原址:https://arxiv.org/abs/1810.08425

github:https://github.com/KimSoybean/ScratchDet

摘要

当前较为流行的检测算法是在经典的大规模分类的数据集上进行微调,但这样做会存在两个问题:

(1)分类任务与检测任务二者之间对位置的敏感性差异较大,进而造成了优化目标之间存在偏差。

(2)目标检测的结构受制于分类模型,进而造成对模型修改上的不便。

为了应对上面的这两个问题,从头重新训练检测器是一种可行的方法。但这种方法又存在的一个问题是,相比预训练过的模型,此方法的性能要差一些,尤其是在训练时的收敛问题上。本文,采用从头重新训练网络的方法,分析了优化的方法发现,从头开始训练检测器所忽略的一个点时BatchNorm。利用BatchNorm的稳定及可预测的梯度,检测器可以从顶部开始进行稳定训练,同时在不同网络结构的基础上取得较好的性能。本文提出了Root-ResNet backbone网络,充分利用原始图片的信息。

介绍

本文研究了针对基于随机初始化网络的优化方法因素,发现BatchNorm重新调整了优化问题的参数分布,使其外形更加平滑同时减少了internal covariate shift。基于此,本文认为从头训练检测网络收敛性较差的主要原因是缺少BN操作。因此,本文在backbone及检测子网络的头部都添加了BN层,发现添加BN后,从头开始训练的检测网络要比预训练的效果要好,进而可以不依赖于预训练网络对网络结构进行调整。实验发现,第一层卷积的下采样stride也对目标检测的效果产生重要的影响。基于这一点,本文通过引入一个root block来设计检测器的结构。root block可以获得detector feature map中丰富的信息,提高了对小目标的准确率。

本文主要贡献:

(1)本文设计了基于scratch训练的single-shot目标检测网络-ScratchDet,该网络结合了BN操作有利于网络的收敛,此方法适用于任意类型的网络结构。

(2)引入了新的backbone Root-ResNet,提高了小目标的检测效果。

(3)ScratchDet的检测表现效果较为强劲。

ScratchDet

1.BatchNorm for Train-from-Scratch

本文在SSD上添加了BatchNorm,原生SSD中是不存在BN层的。在backbone的每一层中添加了BN层,然后,从头开始训练。发现提升了5.2%的mAP,同时使优化曲线更加的平滑,进而可以使用更大的学习率进行优化。

在检测网络的head子网络添加BatchNorm,本文经过实验发现,在原生SSD上基于大学习率进行训练,容易造成梯度爆炸。在网络的检测头的子网络添加BatchNorm可以使训练的loss的外形更加平滑。使mAP从67.6%提升至71.0%.

在整个网络中添加BN层,其实验结果比对如下。

2.BackBone Network

backbone为ResNet及VGG的性能:本文研究了backbone第一层卷积的downsampling操作的影响,实验发现,第一层的downsampling操作对小目标的检测造成了不利的影响。基于上述分析,本文重新设计了目标检测的backbone,为了克服Resnet中的不足并保留其分类的优秀性能。本文设计了Root-ResNet。结构如下:

本文移除了第一层卷积的下采样操作并将7x7的卷积核用几个3x3的卷积核进行替换。随着从Image中获得更丰富的输入信息,网络可以挖掘图像中的局部信息,进而可以检测小目标物体。此外,将SSD后用于获得不同尺寸大小信息的四个卷积blocks替换为四个残差块。每个残差块包含两个分支,一个为1x1 stride为2的卷积层,另两个为stride分别为2和1的3x3的卷积核.每个卷积核的输出通道数设置为128.

实验

Reference

[1] S. Bell, C. Lawrence Zitnick, K. Bala, and R. Girshick.Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016.

      [2] K. Chen, J. Pang, J. Wang, Y. Xiong, X. Li, S. Sun,W. Feng, Z. Liu, J. Shi, W. Ouyang, C. C. Loy, and D. Lin.mmdetection. https://github.com/open-mmlab/mmdetection, 2018.
      [3] B. Cheng, Y. Wei, H. Shi, R. Feris, J. Xiong, and T. Huang.Revisiting rcnn: On awakening the classification power of faster rcnn. In ECCV, 2018.
      [4] J. Dai, Y. Li, K. He, and J. Sun. R-fcn: Object detection via region-based fully convolutional networks. In NIPS, 2016.

论文阅读笔记四十九:ScratchDet: Training Single-Shot Object Detectors from Scratch(CVPR2019)的更多相关文章

  1. 论文阅读笔记二十九:SSD: Single Shot MultiBox Detector(ECCV2016)

    论文源址:https://arxiv.org/abs/1512.02325 tensorflow代码:https://github.com/balancap/SSD-Tensorflow 摘要 SSD ...

  2. 论文阅读笔记三十九:Accurate Single Stage Detector Using Recurrent Rolling Convolution(RRC CVPR2017)

    论文源址:https://arxiv.org/abs/1704.05776 开源代码:https://github.com/xiaohaoChen/rrc_detection 摘要 大多数目标检测及定 ...

  3. 论文阅读笔记四十四:RetinaNet:Focal Loss for Dense Object Detection(ICCV2017)

    论文原址:https://arxiv.org/abs/1708.02002 github代码:https://github.com/fizyr/keras-retinanet 摘要 目前,具有较高准确 ...

  4. 论文阅读笔记四十六:Feature Selective Anchor-Free Module for Single-Shot Object Detection(CVPR2019)

    论文原址:https://arxiv.org/abs/1903.00621 摘要 本文提出了基于无anchor机制的特征选择模块,是一个简单高效的单阶段组件,其可以结合特征金字塔嵌入到单阶段检测器中. ...

  5. 论文阅读笔记四十八:Bounding Box Regression with Uncertainty for Accurate Object Detection(CVPR2019)

    论文原址:https://arxiv.org/pdf/1809.08545.pdf github:https://github.com/yihui-he/KL-Loss 摘要 大规模的目标检测数据集在 ...

  6. 论文阅读笔记四十五:Region Proposal by Guided Anchoring(CVPR2019)

    论文原址:https://arxiv.org/abs/1901.03278 github:code will be available 摘要 区域anchor是现阶段目标检测方法的重要基石.大多数好的 ...

  7. 论文阅读笔记(十九)【ITIP2017】:Super-Resolution Person Re-Identification With Semi-Coupled Low-Rank Discriminant Dictionary Learning

    Introduction (1)问题描述: super resolution(SP)问题:Gallery是 high resolution(HR),Probe是 low resolution(LR). ...

  8. 论文阅读笔记四十二:Going deeper with convolutions (Inception V1 CVPR2014 )

    论文原址:https://arxiv.org/pdf/1409.4842.pdf 代码连接:https://github.com/titu1994/Inception-v4(包含v1,v2,v4)   ...

  9. 论文阅读笔记四十:Deformable ConvNets v2: More Deformable, Better Results(CVPR2018)

    论文源址:https://arxiv.org/abs/1811.11168 摘要 可变形卷积的一个亮点是对于不同几何变化的物体具有适应性.但也存在一些问题,虽然相比传统的卷积网络,其神经网络的空间形状 ...

随机推荐

  1. Helicute FPV App Privacy Policy

    Personal Data collected for the following purposes and using the following services: Device permissi ...

  2. pragma警告处理

    使用pragma消除警告 (绝不可强行消除,因为有可能是个运行时错误) #pragma clang diagnostic push #pragma clang diagnostic ignored & ...

  3. 多线程threading

    threading用于提供线程相关的操作,线程是应用程序中工作的最小单元.python当前版本的多线程库没有实现优先级.线程组,线程也不能被停止.暂停.恢复.中断. 1.     threading模 ...

  4. Flex布局【弹性布局】学习

    先让我们看看在原来的学习中遇到的问题 之前在软件工程的大作业中,自己从零开始学习如何开发一个网站,从页面,到后台,当然数据库是大二的必修课 在学习如何编写一个静态页面的时候,完全是自学,自己摸索,所以 ...

  5. api跨域

    1.找方法名称是get开头的2.找get请求类型的 自定义webapi的路由规则,控制到action 1.跨域设置:(服务端)webconfig文件中,system.webServer节点下添加 &l ...

  6. CF集萃2

    CF1155D - Beautiful Array 题意:给你一个序列和x,你可以选择任意一个子串(可以为空)乘上x,使得得到的序列最大子串和最大.求这个最大值.30w,2s. 解:设fi,0/1/2 ...

  7. React踩坑记

    一: Support for the experimental syntax 'classProperties' isn't currently enabled ERROR in ./src/inde ...

  8. plink计算两个SNP位点的连锁不平衡值(LD)

    PLINK提供了“--ld”的参数计算两个SNP位点的连锁不平衡值. 命令如下: plink --file file --ld rs123 rs134 --out rs123_rs134 生成如下数据 ...

  9. 关于 redis 的 数据类型 和 内存模型

    该文章 是在读了 公众号 : java 后端技术 之后 做的一个小记录 原文网址  : https://mp.weixin.qq.com/s/mI3nDtQdlVlLv2uUTxJegA 作者文章写的 ...

  10. epoll的本质

    目录 一.从网卡接收数据说起 二.如何知道接收了数据? 三.进程阻塞为什么不占用cpu资源? 四.内核接收网络数据全过程 五.同时监视多个socket的简单方法 六.epoll的设计思路 七.epol ...