论文阅读 | STDN: Scale-Transferrable Object Detection

论文地址：http://openaccess.thecvf.com/content_cvpr_2018/papers/Zhou_Scale-Transferrable_Object_Detection_CVPR_2018_paper.pdf

概述

STDN是收录于CVPR 2018的一篇目标检测论文，提出STDN网络用于提升多尺度目标的检测效果。要点包括：（1）使用DenseNet-169作为基础网络提取特征；（2）提出Scale-transfer Layer，在几乎不增加参数量和计算量的情况下生成大尺度的feature map。

STDN介绍

Figure 1回顾了目标检测算法对feature map的利用情况：

（a）是只使用单一尺度的feature map进行检测，这种方法利用的特征层较少，检测效果一般，代表性的算法如Faster RCNN；

（b）是FPN的做法，将不同尺度的feature map自顶向下进行融合，并基于融合后的不同尺度的feature map分别进行检测，对小目标的检测效果提升明显，构建特征金字塔的方式可以充分利用多个层次的feature map信息，但是需要添加一些额外的网络层，增加了计算量和时间；

（c）是SSD算法的做法，对不同尺度的feature map分别检测，虽然浅层专用于小目标的目标检测，但是由于没有使用到高层的语义信息，所以对小目标的检测效果一般；

（d）是本文的做法，检测方式类似于SSD，但是通过基础网络DenseNet将高低层特征融合，因此可以达到类似FPN的效果。

网络结构如下图所示，可以看做是SSD的一个改进版，将原SSD中基础网络VGG替换为DenseNet-169，通过DenseNet提取特征在最后一个Dense Block获得一系列9*9大小的feature map，然后通过Scale-transfer Module对feature map进行放大或缩小。最后分别对不同尺度的feature map做目标检测。

各层的结构如表3所示，论文所用的DenseNet对原DenseNet的输入层进行了调整，具体为：将7*7卷积层（stride=2）和其后的3*3 max pooling层（stride=2，stride=1，stride=1）替换为3个3*3卷积层（stride=2）和1个2*2 mean pooling层（stride=2）。调整称为stem block。这样做提升了检测精度。

文中提出Scale-Transferrable Module（STM）用于进行feature map的尺度变换，具体为：

（1）获取小feature map ：mean pooling

（2）获取大feature map：Scale-Transfer Layer（STL）

STL是利用多个通道的feature map来增大feature map尺寸，也就是压缩通道数增大map尺寸。

以网络的最后一个预测层为例，DenseNet-169的输出维度为9*9*1664，经过一个4X的scale-transfer后变为36*36*104。整个过程是像素值周期排列的过程，在此次变换中r=4，变换后的第一个通道上一个r*r像素块的像素值相当于是原来前r*r个通道上1*1的像素值的重新排列。

训练和损失函数

Anchor Box设置尺度同SSD，aspect ratio同DSSD，负样本挖掘、数据扩增、损失函数等等都跟SSD没差。

实验结果

（1）PASCAL VOC 2007

STDN相比SSD提升较为明显，与DSSD也有的一拼，作者认为STDN比DSSD稍差的原因是DSSD的基础网络Residual-101网络参数具有压制力（Residual-101有42M，而DenseNet-169只有14M）。

（2）COCO test-dev 2015

见表4。可以看出对中小型目标的检测效果优于其他主流算法，IoU 在0.5~0.95之间的目标检测效果也很不错，比Faster RCNN和R-FCN差（他们输入图像大，1000*600），比DSSD差（参数碾压），但是STDN不仅mAP高而且运行速度快（是DSSD的5倍多）。

主流算法的精度、速度对比如

可见，STDN的表现很好，速度非常快，而且精度高，输入图像小，在取得较高准确率的同时又兼顾了速度。例如STDN321和513两个模型相比于Faster-RCNN、YOLOv2、SSD、DSSD等，首先在正确率上已具有相同或者更高的水平，但是在速度上优势很大，特别是对于准确率较高的R-FCN和DSSD513简直是碾压。