论文：Scale-Aware Trident Networks for Object Detection
发表时间：2019
发表作者：(University of Chinese Academy of Sciences)Yuntao Chen, (TuSimple)Naiyan Wang
发表刊物/会议：ICCV
论文链接：论文链接
论文代码：代码链接

DetNet

这篇文章主要要解决的问题便是目标检测中最为棘手的scale variation问题。使用了非常简单干净的办法在标准的COCO benchmark上，使用ResNet101单模型可以得到MAP 48.4的结果，远远超越了目前公开的单模型最优结果。

多尺度问题

先简单回顾一下现有处理多尺度问题的两大类方法。第一大类，也是从非Deep时代，乃至CV初期就被就被广泛使用的方法叫做image pyramid。在image pyramid中，我们直接对图像进行不同尺度的缩放，然后将这些图像直接输入到detector中去进行检测。虽然这样的方法十分简单，但其效果仍然是最佳，也后续启发了SNIP这一系列的工作。单论性能而言，multi-scale training/testing仍然是一个不可缺少的组件。然而其缺点也是很明显的，测试时间大幅度提高，对于实际使用并不友好。另外一大类方法，也是Deep方法所独有的，也就是feature pyramid。最具代表性的工作便是经典的FPN了。这一类方法的思想是直接在feature层面上来近似image pyramid。非Deep时代在检测中便有经典的channel feature这样的方法，这个想法在CNN中其实更加直接，因为本身CNN的feature便是分层次的。从开始的MS-CNN直接在不同downsample层上检测大小不同的物体，再到后续TDM和FPN加入了新的top down分支补充底层的语义信息不足，都是延续类似的想法。然而实际上，这样的近似虽然有效，但是仍然性能和image pyramid有较大差距。

总结如下：

图像金字塔，传统的检测算法
特征金字塔，FPN
本文的三叉戟网络，分为3个分支，所有的参数都一样，唯一的区别就是膨胀卷积的膨胀率不一样。

膨胀卷积Dilated convolution（空洞卷积Atrous convolution）

假设膨胀率为ds，使用的卷积核大小为$33$，则使用膨胀卷积的感受野大小为$3+22*(ds-1)$，
例如，假设
1、ds=1，表示不进行膨胀，感受野大小为$33$
2、ds=2，表示进行膨胀，感受野大小为$77$
3、ds=4，表示进行膨胀，感受野大小为$15*15$
实验验证，随着感受野的增大，小目标的检测准确性也开始下降，但是大目标的检测准确性开始上升。

膨胀卷积2

网络结构

网络结构 TridentNet 模块主要包括3个完全一样的分支，唯一不同的只是膨胀卷积的膨胀率。从上到下，膨胀率分别为1,2,3，分别检测小，中，大的目标。三个分支共享权值。

每个分支的详细结构如下，

网络结构

在训练过程中，对每一个分支都进行优化。因此，需要对目标的ground truth进行大小测试，

\[
l_i ≤ \sqrt{w_h} ≤ u_i
\]

假设，w,h为ground truth的宽，高。Li,ui表示实验中定义的最小的面积和最大的面积。在coco实验中分别为$3232$和$9696$。
基于此公式实现小的目标走第一个分支，中等目标走第二个分支，大的目标走第三个分支。而不是所有目标都走所有分支。这样就可以进行有针对性的训练。
在测试阶段，只使用中间的那个分支进行推断，然后对结果进行NMS，输出最终的结果。
当然这样做会有一些精度的损失，但是好处就是不会引入额外的参数，不会增加额外的计算量。

实验结果

Multi-branch ，Weight-sharing， Scale-aware有效性证明：

实验结果

TridentNet 每个分支中unit个数的实验：

实验结果

TridentNet 各分支检测结果的评估：

实验结果

TridentNet 中间分支在coco测试的结果：

实验结果

coco数据集结果：

实验结果

总结：

TridentNet 是一种尺度敏感的检测框架，并且训练过程也得进行尺度敏感的训练。检测准确性很高，并且不会有额外的参数，额外的计算量。是对ASPP结构的一种升华。

参考：
TridentNet

Paper Reading:TridentNet的更多相关文章

Paper Reading: Stereo DSO
开篇第一篇就写一个paper reading吧,用markdown+vim写东西切换中英文挺麻烦的,有些就偷懒都用英文写了. Stereo DSO: Large-Scale Direct Sparse ...
[Paper Reading]--Exploiting Relevance Feedback in Knowledge Graph
<Exploiting Relevance Feedback in Knowledge Graph> Publication: KDD 2015 Authors: Yu Su, Sheng ...
Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
Paper Reading: In Defense of the Triplet Loss for Person Re-Identification
In Defense of the Triplet Loss for Person Re-Identification 2017-07-02 14:04:20 This blog comes ...
Paper Reading - Attention Is All You Need ( NIPS 2017 ) ★
Link of the Paper: https://arxiv.org/abs/1706.03762 Motivation: The inherently sequential nature of ...
Paper Reading - Convolutional Sequence to Sequence Learning ( CoRR 2017 ) ★
Link of the Paper: https://arxiv.org/abs/1705.03122 Motivation: Compared to recurrent layers, convol ...
Paper Reading - Deep Captioning with Multimodal Recurrent Neural Networks ( m-RNN ) ( ICLR 2015 ) ★
Link of the Paper: https://arxiv.org/pdf/1412.6632.pdf Main Points: The authors propose a multimodal ...
Paper Reading - Deep Visual-Semantic Alignments for Generating Image Descriptions ( CVPR 2015 )
Link of the Paper: https://arxiv.org/abs/1412.2306 Main Points: An Alignment Model: Convolutional Ne ...
Paper Reading - Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation ( CVPR 2015 )
Link of the Paper: https://ieeexplore.ieee.org/document/7298856/ A Correlative Paper: Learning a Rec ...

随机推荐

ERNIE 2.0 理解与使用
更新中更新时间:2019-12-06 17:43:27 实验需要,在自己学习的过程中做如下笔记,欢迎指正,欢迎交流. 1. ERNIE简述 ERNIE和BERT一样,也是基于transformer来 ...
Redis集群部署与维护
Redis集群部署与维护目录: 一. 集群架构二. 集群部署 1. 创建redis-cluster目录 2. 编译redis 3. 编辑redis配置文件 4. 配置redis集群 5. redi ...
Java面试 - 什么是单例设计模式，为什么要使用单例设计模式，如何实现单例设计模式(饿汉式和懒汉式)？
什么是单例设计模式? 单例设计模式就是一种控制实例化对象个数的设计模式. 为什么要使用单例设计模式? 使用单例设计模式可以节省内存空间,提高性能.因为很多情况下,有些类是不需要重复产生对象的. 如果重 ...
如何使用js实现轮播图
<!DOCTYPE html><html lang="en"> <head> <meta charset="UTF-8" ...
todo---ezmorph
todo---ezmorph
将 MathType 公式转换为 Word 自带公式
以下操作是基于Office 365以及MathType 6.9b平台.有网友留言说第四步没出现「转换为 Office Math」选项,这个我就不清楚了,难道是只有Office 365才支持? 打开Ma ...
工具——eclipse debug小技巧
1.开启调试: 在代码编辑处右键单击,在弹出菜单中点击Debug As开始调试 2.几个快捷键: F5:跟入Step into, 一般会跟踪进入到调用函数的函数体,Step Over则不会跟踪进入,直 ...
MyCat 插件的应用
什么是MyCat MyCAT是一款由阿里Cobar演变而来的用于支持数据库,读写分离.分表分库的分布式中间件.MyCAT支持Oracle.MSSQL.MYSQL.PG.DB2关系型数据库,同时也支持M ...
（二）CXF之用CXF官方工具生成客户端Client
一.CXF工具的下载与使用登录CXF官网:http://cxf.apache.org/download.html 下载,本系列使用的是3.1.5版本: 添加path环境变量二.案例 2.1 发布w ...
（十）SpringBoot之web 应用开发-Servlets, Filters, listeners
一.需求 Web 开发使用 Controller 基本上可以完成大部分需求,但是我们还可能会用到 Servlet. FilterListene 二.案例 2.1 通过注册 ServletRegistr ...

Paper Reading:TridentNet

DetNet

多尺度问题

膨胀卷积Dilated convolution（空洞卷积Atrous convolution）

网络结构

实验结果

总结：

Paper Reading:TridentNet的更多相关文章

随机推荐

热门专题