[论文阅读]Object detection at 200 Frames Per Second

本文提出了一个有效且快速的目标检测器，该目标检测器得速度可以达到200+fps，在Pascal VOC-2007上的mAP比Tiny-Yolo-v2高出14。

本文从以下三个方面对网络进行改进。

网络结构 Network architecture
损失函数 Loss function
训练数据 Training data

网络结构

网络结构如下图：

Dense feature map with stacking。从前面的层merge feature map会提高网络性能。
Deep but narrow。网络最后几层，使用1x1卷积来增加网络的深度。

损失函数

知识蒸馏方法的总体框架如下：

Objectness scaled Distillation

YOLO目标检测中，每个cell位于最后一层的feature map中，每个cell会预测N个bounding boxes，N表示anchor的数量。因此最后一层的feature map的数量为N*(K+5)，其中K是预测的类别数量，5表示4个bbox坐标和1个objectness value。对于每个cell中的每个anchor box，网络会预测bbox的坐标，objectness value（定义为ground truth box与预测的box的IOU）和对应类别的概率。因此，YOLO的loss由3个部分组成，分别为 regression loss, objectness loss， classification loss，公式如下：

由于YOLO最后输出的预测结果中包含大量的background，对于标准的知识蒸馏方法来说，student network会学习大量的teacher network预测的背景bbox，而这些teacher network预测背景的bbox都是没有用的，因此会造成student network学习大量没有用的信息。为了避免这个问题，作者提出 objectness scaled function。具体思路为 只有当teacher network的objectness value高时，才学习bounding box坐标和class probabilities。
因此 objectness部分的损失函数如下：

对于classification部分的loss如下，称为 objectness scaled classification function，即在原来公式的基础上，乘上了一个系数，该系数即为objectness value。

对于 bounding box坐标的loss同理，公式如下：

因此，总体的损失函数如下：

Feature Map-NMS

实际情况中，网络大量的cell和anchor都会预测同一个物体，因此，当我们利用知识蒸馏训练时，当teacher network将信息迁移到student network时，高度重合的检测区域对应的feature map会使得反向传播时，对应于同一个 object class and dimensions，梯度会变得很大，从而导致网络过拟合。
为了解决这个问题，作者提出 Feature Map-NMS (FM-NMS)。具体思想是如果在K * K邻域的cell中，多个候选框都对应同一个类别，那么这很可能是同一个物体。因此，我们只选择objectness值最高的那个候选框。另外，我们会将对应同一类别的其他候选框在最后一层的feature map中的 class probabilities置为0。因此，只有objectness值最大的那个才会对student network产生影响。

Effectiveness of data

增加更多的标注数据或者未标注的数据，都会提高模型的性能。对于增加标注数据，训练方法与之前的一致；对应增加未标注的数据，我们利用teacher network的输出作为soft label，利用知识蒸馏方法进行训练（只计算teacher network部分的损失，不计算ground truth部分的损失）。

结果

下面是知识蒸馏的实验结果：

下图是本文提出的方法与其他网络在速度和精度上的对比图：

相关链接：
https://blog.csdn.net/u014380165/article/details/80467007