Siam R-CNN: Visual Tracking by Re-Detection

Siam R-CNN: Visual Tracking by Re-Detection

2019-12-02 22:21:48

Paper：https://128.84.21.199/abs/1911.12836

Code: 静候佳音

1. Background and Motivation:

本文尝试从 Tracking by Re-Detection 的角度来处理跟踪问题，提出一种新颖的 re-detector，即将 Faster-RCNN 结合到 Siamese architecture 中，通过在一个图像中任何位置进行重新检测 template object，判断给定的 region proposal 是否是同一个物体，然后对该物体进行 BBox 的回归。本文所提出的 two-stage re-detection architecture 对物体的外观和长宽比有较好的鲁棒性。Tracking by Re-detection 已经有较长的历史，但是这种方法仍然有局限性是因为 distractor objects 和 template object 非常相似的时候，很难确定物体的位置。对于相似物体的挑战，前人的方法或者利用较强的空间先验（Spatial Priors）或者在线更新（Online Adaptation）的方式来解决，但是这些方法都可能会导致 model drift。

本文在 Siam R-CNN re-detector 的基础之上，提出两个改进点来解决 distractor 的问题：

1). 本文提出一种新颖的 hard example mining 方法，对困难的 distractors 进行特殊的训练；

2). 提出一种新颖的 Tracklet Dynamic Programming Algorithm （TDPA），该方法可以同时跟踪所有潜在的目标物体，包括：distractor objects, 通过从前一帧进行 re-detect 所有的物体候选 BBox，并将这些 BBox 划分为 tracklets（short object tracks）。然后利用动态规划的思想，选择当前时刻最优的 object。通过显示建模 motion 和 interaction of all potential objects，然后从检测中得到的相似物体进行 pooling, 得到 tracklets，Siam R-CNN 可以有效的进行 long-term tracking，对 tracker drift 有较好的抑制，在物体消失后，可以有效地进行重检测。

效率方面，该方法可以在 ResNet-101 上达到 4.7 FPS，在 ResNet-50 上取得 15 FPS 的速度。

2. The Proposed Method：

本文所提出的 Siam R-CNN 方法示意图如下图所示：

可以看到，本文方法是由多个模块构成的: CNN+RPN 生成 proposal，然后作者还把第一帧的物体也抠出来和提取的 proposal 组合到一起；输入到 Re-detection 模块中。

2.1. Siam R-CNN:

本小节主要是讲了如何将 Faster RCNN 的那一套用于 Proposal 生成，来得到多个候选。

2.2 Video Hard Example Mining：

在传统 Faster RCNN 训练阶段，negative examples 是从 target image 上用 RPN 来采样得到的。但是，在许多图像中，仅有少量的 negative examples。为了最大化 re-detection head 的判别能力，作者认为需要在 hard negative samples 上进行训练。类似的思路在物体检测和跟踪上也都被广泛的应用。

Embedding Network.

一种直观的方法选择相关的 videos 以得到 hard negative examples 的是：寻找与当前物体属于同一个类比的物体。然而，物体的类别标签并不总是可靠，一些同类的物体很容易区分，不同类别的物体反而可能是理想的 hard negative。所以，本文受到 person re-identification 的影响，提出利用 embedding network 的方法，将 Ground truth BBox 中的物体映射为 embedding vector 来表示目标物体。本文利用 PReMVOS 提出的网络，该网络是在 COCO 数据集上用 batch-hard triplet loss 来训练得到的：two distinct persons should be far away in the embedding space, while two crops of the same person iin different frames shoule be close.

Index Structure：

我们接下来构建一个有效的索引结构来估计紧邻 queries，然后用于寻找所需要跟踪的物体在 embedding space 中的最近邻。图 3 展示了一些检索得到的 negative examples。

Training Procedure.

本文对训练数据的每一个 Ground truth BBox 都提取其 RoI-aligned features。在每一个时刻，随机的选择一个 video 和 object，然后随机的选择一个 reference 和 target frame。在此之后，作者用上一节提到的 indexing structure 来检索 10000 个紧邻 reference box，从中选择出 100 个 negative training examples。

2.3 Tracklet Dynamic Programming Algorithm:

本文所提出的片段动态规划算法（Tracklet Dynamic Programming Algorithm）显示对感兴趣目标物体和潜在的 distrators 都进行跟踪，所以 distractor objects 可以得到抑制。为了达到这个目的，TDPA 保持了一组 tracklets，即：short sequences of detections。然后用基于 scoring algorithm 的方法来进行 dynamic programming 方式来选择最优的结果。每一个 detection 都定义为：a bounding box, a re-dection score, and its RoI-aligned features。此外，each detection 是 tracklet 的组成部分。每一个 tracklet 都有一个 start 和 end time，并且由 a set of detections 来定义。

Tracklet Building.

首先提取第一帧 ground truth BBox 的 features，并且用于初始化 tracklet。对于每一个新的视频帧来说，我们采用如下的方式来更新 tracklets（如算法1 所示）：

1. 我们提取当前帧的 backbone features，然后用 RPN 来评价当前的 feature。

Siam R-CNN: Visual Tracking by Re-Detection的更多相关文章

论文笔记之： Hierarchical Convolutional Features for Visual Tracking
Hierarchical Convolutional Features for Visual Tracking ICCV 2015 摘要:跟卢湖川的那个文章一样,本文也是利用深度学习各个 layer ...
论文笔记之：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
Learning Multi-Domain Convolutional Neural Networks for Visual Tracking CVPR 2016 本文提出了一种新的CNN 框架来处理 ...
Particle filter for visual tracking
Kalman Filter Cons: Kalman filtering is inadequate because it is based on the unimodal Gaussian dist ...
论文笔记：目标追踪-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking
基于自适应颜色属性的目标追踪 Adaptive Color Attributes for Real-Time Visual Tracking 基于自适应颜色属性的实时视觉追踪 3月讲的第一篇论文,个人 ...
Survey of single-target visual tracking methods based on online learning 翻译
基于在线学习的单目标跟踪算法调研摘要视觉跟踪在计算机视觉和机器人学领域是一个流行和有挑战的话题.由于多种场景下出现的目标外貌和复杂环境变量的改变,先进的跟踪框架就有必要采用在线学习的原理.本论文简 ...
Multi-hierarchical Independent Correlation Filters for Visual Tracking（MFT）略读
作者写道: 有幸在本届的VOT 2018 主赛中,我们的参赛方案Multi-solution Fusion for Visual Tracking(MFT)获得第一名的成绩,通过结果来看,MFT无论在 ...
（转）CVPR 2016 Visual Tracking Paper Review
CVPR 2016 Visual Tracking Paper Review 本文摘自:http://blog.csdn.net/ben_ben_niao/article/details/52072 ...
Correlation Filter in Visual Tracking系列二：Fast Visual Tracking via Dense Spatio-Temporal Context Learning 论文笔记
原文再续,书接一上回.话说上一次我们讲到了Correlation Filter类 tracker的老祖宗MOSSE,那么接下来就让我们看看如何对其进一步地优化改良.这次要谈的论文是我们国内Zhang ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...

随机推荐

HTML 注释和实体字符
一.注释在HTML中还有一种特殊的标签——注释标签.如果需要在HTML文档中添加一些便于阅读和理解但又不需要显示在页面中的注释文字,就需要使用注释标签. 注释内容不会显示在浏览器窗口中,但是作为HT ...
XenCenter安装VM
XenServer是服务器"虚拟化系统".系统设置为Linux_x86-64即可安装XenServer 和VMware ESX/ESXi有点不同的是,XenServer 不能在Xe ...
MVC4 Model View Controller分离成独立项目
适合人群:了解MVC项目的程序员开发工具:vs2012 开发语言:C# 小项目或功能比较单一的项目可以直接新建一个MVC基本项目类型即可,但随着需求不断迭代,项目的功能模块越来越多,甚至有些模块可以 ...
Mysql 存储过程初识
存储过程认识在一些编程语言中, 如pascal, 有一个概念叫"过程" procedure, 和"函数" function, 如VB中的sub. Java, ...
VUE 动态菜单管理
业务场景不同的用户登录,看到的菜单会不一样,因此需要根据不同人登录的身份去后端获取菜单. 实现思路 1.构建路由 2.从后端构建菜单 3.前端获取菜单 4.前端渲染菜单 1.构建路由. export ...
python调用C语言接口
python调用C语言接口注:本文所有示例介绍基于linux平台在底层开发中,一般是使用C或者C++,但是有时候为了开发效率或者在写测试脚本的时候,会经常使用到python,所以这就涉及到一个问题 ...
Distance(2019年牛客多校第八场D题+CDQ+树状数组)
题目链接传送门思路这个题在\(BZOJ\)上有个二维平面的版本(\(BZOJ2716\)天使玩偶),不过是权限题因此就不附带链接了,我也只是在算法进阶指南上看到过,那个题的写法是\(CDQ\), ...
Selenium_webdriver+java+TestNG入门UI自动化
web ui自动化测试需要的工作:Eclipse(JAVA编译器).selenium(库文件).webdriver(浏览器驱动).testng的lib; 如图: 第一步:先部署坏境,下载seleniu ...
python应用-跑马灯
import os import time def main(): str1='欢迎来到前锋学习Python' while True: os.system('cls') print(str1) tim ...
去除WordPress分类描述P标签
我们知道栏目页调用栏目描述直接用<?php echo category_description(); ?>就ok了,但是使用上面的代码调用Wordpress分类描述,会自动出现P标签,如& ...

Siam R-CNN: Visual Tracking by Re-Detection

Siam R-CNN: Visual Tracking by Re-Detection的更多相关文章

随机推荐

热门专题