AdaScale: Towards real-time video object detection using adaptive scaling

2019-02-18 16:14:17

Paperhttps://www.sysml.cc/papers.html

本文提出一种新的技术,AdaScale,来改善视频中物体检测的尺度问题,在提升速度的同时,改善了精度。

作者的实验发现在降低图像分辨率的时候,部分图像的识别精度就会得到改善,并且给出了结果展示:

那么是什么原因导致这种情况呢?作者给出了如下的解释:

i) Reducing the number of false positives that may be introduced by focusing on unnecessary details.

ii) Increasing the number of true positives by scaling the objects that are too large to a size at which the object detector is more confident.

受到这种现象的启发,作者提出通过 “re-size” 图像的方式以得到其最优的 scale,来提升检测的速度和精度。所以,本文提出 AdaScale 来根据当前帧的信息来预测下一阵的最佳的 scale。并且在 ImageNet VID 和 mini YouTube-BB datasets 上同时提升了速度和精度。

其训练和测试过程,如下图所示:

3.1. Optimal Scale:

作者首先定义一个 scale 集合 {600,480,360,240} ,并且定一个度量标准来衡量不同尺寸的检测效果。作者这里采用的是最终的 loss function。总得来说,物体检测的损失函数可以分为包围盒的回归和分类损失:

但是,直接用这种方法,也有一个 bug:对于重合度较低的 proposal,会自动归类为 background,该损失函数自动将 regression loss 设置为 0,直接用该指标衡量不同图像尺寸会支持含有较少前景包围盒的图像尺寸(will favor the image scale with fewer foreground bounding boxes)。

所以,为了处理该问题,作者提出一种新的度量方法来聚焦于拥有相同数量的前景包围盒,来比较不同的图像尺寸。具体来说,

用 $L^m_{i, a}$ 表示 利用上述公式计算得到的 image i 的预测包围盒 a 在 scale m 的损失;

$\hat{L_i^m}$ 表示图像 i 在尺寸 m 的损失,作为我们的提出的指标。

为了得到 $\hat{L_i^m}$,我们首先计算预测的前景包围盒的数量 $n_{m, i}$,对于图像 i 的每一个尺寸 m,使得 $n_{min, i} = min_{m}(n_{m, i}).$

所以,所提出的度量标准可以通过如下的方法计算得到:

为了得到 $A_{m, i}$,对于每一个 scale,我们对预测的前景包围盒进行排序,并且挑选出前 $n_{min, i}$ 添加到 $A_{m, i}$。

有了这个度量标准,我们就可以定义最优尺寸:

3.2. Scale Regressor: 

作者采用的 RFCN 是依赖于最后一层卷积层特征的,作者认为该深度特征的通道已经包含了尺寸的信息。所以,可以利用该深度特征直接构建 scale regressor 来预测最优的尺寸,如图4所示。

作者用 1*1 卷积来捕获不同特征图的尺寸信息 (the size information from different feature maps),用 3*3 卷积来捕获特征图上的复杂度(the complexity of each 3*3 patch in the fature maps)。这些特征在经过 ReLU 和 global pooling 之后,进行组合,输入到 fc 层,进行回归。需要注意的是,本文不是直接进行最优尺寸的估计,而是回归一个相对尺寸,使得模型可以学会 react (up-sample,down-sample,or stay the same)。对于图像 i 来说,回归尺寸的目标是:

其中,$m_i$ 是 是图像 i 的尺寸,$m_{min}$ 是定义的最小尺寸,$m_{max}$ 是定义的最大尺寸。所以,我们是要回归出一个归一化的范围(relative scales): [-1, 1]。

在训练数据集上,我们利用公式(2)得到需要回归的标签。并且采用均方误差来进行回归:

==

论文笔记:AdaScale: Towards real-time video object detection using adaptive scalingAdaScale的更多相关文章

  1. 论文笔记:Learning Region Features for Object Detection

    中心思想 继Relation Network实现可学习的nms之后,MSRA的大佬们觉得目标检测器依然不够fully learnable,这篇文章类似之前的Deformable ROI Pooling ...

  2. video object detection

    先说一下,我觉得近两年最好的工作吧.其他的,我就不介绍了,因为我懂得少. 微软的jifeng dai的工作. Deep Feature Flow   github: https://github.co ...

  3. 论文阅读笔记三十五:R-FCN:Object Detection via Region-based Fully Convolutional Networks(CVPR2016)

    论文源址:https://arxiv.org/abs/1605.06409 开源代码:https://github.com/PureDiors/pytorch_RFCN 摘要 提出了基于区域的全卷积网 ...

  4. 论文阅读笔记七:Structure Inference Network:Object Detection Using Scene-Level Context and Instance-Level Relationships(CVPR2018)

    结构推理网络:基于场景级与实例级目标检测 原文链接:https://arxiv.org/abs/1807.00119 代码链接:https://github.com/choasup/SIN Yong ...

  5. [论文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

    Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括 这是一篇2016年的目标检测 ...

  6. Flow-Guided Feature Aggregation for Video Object Detection论文笔记

    摘要 目前检测的准确率受物体视频中变化的影响,如运动模糊,镜头失焦等.现有工作是想要在框的级别上寻找时序信息,但这样的方法通常不能端到端训练.我们提出了flow-guided feature aggr ...

  7. 论文笔记:Fully-Convolutional Siamese Networks for Object Tracking

    Fully-Convolutional Siamese Networks for Object Tracking 本文作者提出一个全卷积Siamese跟踪网络,该网络有两个分支,一个是上一帧的目标,一 ...

  8. 论文笔记-Deep Affinity Network for Multiple Object Tracking

    作者: ShijieSun, Naveed Akhtar, HuanShengSong, Ajmal Mian, Mubarak Shah 来源: arXiv:1810.11780v1 项目:http ...

  9. 【CV论文阅读】YOLO:Unified, Real-Time Object Detection

    YOLO的一大特点就是快,在处理上可以达到完全的实时.原因在于它整个检测方法非常的简洁,使用回归的方法,直接在原图上进行目标检测与定位. 多任务检测: 网络把目标检测与定位统一到一个深度网络中,而且可 ...

随机推荐

  1. win10系统电脑无法识别u盘的解决办法

    一些win10系统用户说插入usb设备的时候出现无法识别usb设备的问题,就此问题,接下来是对应的解决方法. win10系统电脑无法识别U盘的应对方法: 右键“计算机”,从弹出的菜单中选择“属性”项: ...

  2. Linux(CentOs 7)系统重装笔记(二)---完全删除用户账号和root用户登录

    参考网址:https://jingyan.baidu.com/article/046a7b3ede1c38f9c27fa91b.html 一.完全删除用户 1.查看要删除的用户账号信息 find / ...

  3. 2017(2)数据库设计,数据库设计过程,ER模型,规范化理论

    试题二(共 25 分〉 阅读以下关于系统数据分析与建模的叙述,在答题纸上回答问题1 至问题 3. [说明] 某软件公司受快递公司委托,拟开发一套快递业务综合管理系统,实现快递单和物流信息的综合管理.项 ...

  4. 如何去掉wordpress后台notice提示窗口

    我们在安装完wordpress插件后,有些会在后台页面弹出一个提示你去收费升级pro版,如下图所示,这无可厚非,基础功能可以免费用,如果要用高级功能可以升级.有些朋友觉得基础功能够用了,又不想看到弹出 ...

  5. 修改文件MD5值

    1.查看文件的MD5值 (1)下载MD5Checker http://getmd5checker.com/download.html 或者 链接: https://pan.baidu.com/s/1e ...

  6. jps命令详解

    JPS 名称: jps - Java Virtual Machine Process Status Tool 命令用法: jps [options] [hostid] options:命令选项,用来对 ...

  7. Linux的发展历史

    创始人: linux操作系统由林纳斯·本纳第克特·托瓦兹编写而成,是管理电脑硬件以及运行电脑软件的操作系统. 创始发展过程:Linux操作系统的诞生.发展和成长过程始终依赖着五个重要支柱:UNIX 操 ...

  8. 快速排序 之添加复合插入排序和原始序列取中值左pivot

    quicksort中,当n小于一定值时,排序效率就比直接插入排序底了,所以,此时就不要再递归下去了,直接插入排序好了:快速的原理就是因为折半递归,所以初始pivot应该有个好一点的选择,这里在原序列左 ...

  9. (转载)js日期格式化转化

    原文地址:http://www.cnblogs.com/zhangpengshou/archive/2012/07/19/2599053.html // 对Date的扩展,将 Date 转化为指定格式 ...

  10. python中利用matplotlib绘图可视化知识归纳

    python中利用matplotlib绘图可视化知识归纳: (1)matplotlib图标正常显示中文 import matplotlib.pyplot as plt plt.rcParams['fo ...