Tracking without bells and whistles

Tracking without bells and whistles

2019-08-07 20:46:12

Paper: https://arxiv.org/pdf/1903.05625

Code: https://github.com/phil-bergmann/tracking_wo_bnw

1. Background and Motivation:

本文提出一种很霸道的观点：A detector is all you need for Multi-Object Tracking。我们知道 MOT 的常规思路都是要先检测，在做数据连接（data association）。但是，作者发现，最近两年，虽然有很多方法被提出，但是悲剧的是，在几个公共的 MOT 数据集上，并没有很明显的提升（两年才提升了2点多：multiple object tracking accuracy has only improved 2.4% in the last two years on the MOT16 MOTChallenge benchmark）。作者发现通过仅仅利用物体检测算法，如 Faster rcnn，就可以达到 state of the art 的效果。这也引出了一个很有意思的问题：如果一个检测器就可以很好地完成 MOT 的任务，那么，tracking algorithm 有什么用呢？这还是必要的吗？我们先来看看作者提出的算法框架到底是怎么样的。

2. A detector is all you need：

有一些物体检测算法中包含通过 regression 的方式进行 bounding box refinement 的模块。作者提出使用这种 regressor 来进行 MOT。这种方式有如下两种优势：

1). 不需要任何关于 tracking 的训练；

2). 在测试阶段不进行任何复杂的优化，因为该算法是 online 的。

此外，本文的方法也可以达到 SOTA 的效果。

2.1 Object detector：

这个貌似没啥说的，就是用基于 Resnet-101 和 Feature Pyramid Networks 的方法在 MOT17Det pedestrian detection dataset 上进行预训练。得到这种物体检测器之后呢？一起来看 2.2 小节。

2.2 Trackor：

MOT 的挑战在于：提取给定的视频帧中的多个物体的时间和空间上位置信息，即：轨迹。这种轨迹信息被定义为：一系列有序的物体包围盒的集合。

在时刻 t=0，作者的 tracker 用第一组检测的结果进行初始化，即：$D_0 = {d^1_0, d^2_0, ... } = B_0$。在图 1 中，我们展示了两个随后的步骤：the bounding box regression and track initialization。

Bounding box regression.

第一步就是，如上图蓝色箭头所示，探索 bounding box regression 来拓展激活的轨迹。通过将 t-1 帧的 bounding box $b^k_{t-1}$ 进行回归，得到第 t 帧新的位置 $b^k_t$。在 Faster RCNN 中，这就对应了在当前帧的 feature map 上进行 RoI Pooling 操作，但是用的是前一帧的 BBox。作者提出这种做法的一个假设就是：两帧之间的运动不是很明显，特别是在 high frame rates 的视频上。这个 identify 就自动的从之前的结果上迁移过来了，从而有效的得到了新的轨迹。这种操作可以对所有的视频帧进行重复处理。

在 BBox 回归以后，作者的跟踪器考虑两种情况来 kill 一个轨迹：

1). 一个物体在视频帧中消失了，或者被其他物体被遮挡了，即：如果新的 classification score 小于某一阈值；

2). 不同物体之间的遮挡，可以通过采用 NMS 来处理。

Bounding Box Initialization.

为了处理新出现的物体，物体检测器也提供了整个视频帧的检测结果 Dt。第二步，即图中红色箭头部分，类似于第一帧的初始化。但是，从 Dt 开始的检测，当且仅当 IoU 与任何已有的 active trajectories $b_t^k$ 小于某一阈值。即，我们考虑一个物体为新的 id，如果我们无法用任何已有的 trajectory 来描述该物体。

2.3 Tracking extensions.

作者将该模型进行了拓展，即：结合了 motion model 和 re-identification model。

Motion model. 作者之前的假设：两帧之间的变化不是很大，在有些情况下并不成立：large camera motion and low video frame rates. 在极端的情况下，BBox 从 frame t-1 在第 t 帧中可能根本不包含目标物体了。所以，作者设计了两种 motion model 来改善 BBox 的定位。对于运动相机，作者采用相机运动补偿（camera motion compensation, CMC）的方式进行缓解。作者采用了 image registration 的方式来对齐视频帧，用的是 Enhanced Correlation Coefficient (ECC) maximization。对于低帧率的视频，作者采用 a constant velocity assumption (CVA)。这个也是别人提出的，不太了解，不知道有啥好处么？

Re-identification. 为了让 tracker 能够保持 online，作者提出利用 short-term re-ID 的方式（借助 Siamese Network 来进行 appearance feature 的匹配）来改善效果。为了达到这个目标，作者将杀死的目标，存储固定帧数的样本。然后将这些样本和新检测的目标在 embedding space 进行重识别。

3. Experiment：

Tracking without bells and whistles的更多相关文章

paper 87：行人检测资源（下）代码数据【转载，以后使用】
这是行人检测相关资源的第二部分:源码和数据集.考虑到实际应用的实时性要求,源码主要是C/C++的.源码和数据集的网址,经过测试都可访问,并注明了这些网址最后更新的日期,供学习和研究进行参考.(欢迎补充 ...
paper 14 : 图像视觉领域部分开源代码
做图像处理,没有一定的知识储备是不可能的,但是一定要学会“借力打力”,搜集一些很实用的开源代码,你们看看是否需要~~ 场景识别: SegNet: A Deep Convolutional Encode ...
Best Practices for Speeding Up Your Web Site
The Exceptional Performance team has identified a number of best practices for making web pages fast ...
Frontend Development
原文链接: https://github.com/dypsilon/frontend-dev-bookmarks Frontend Development Looking for something ...
[转载]Best Practices for Speeding Up Your Web Site
原文:http://developer.yahoo.com/performance/rules.html 提升网站加载速度的一些优化技巧,大部分在前端层面. 不知道是多久以前写的,看起来有些已经过时了 ...
ECCV 2014 Results (16 Jun, 2014) 结果已出
Accepted Papers Title Primary Subject Area ID 3D computer vision 93 UPnP: An optimal O(n) soluti ...
PyTorch入门教程
https://www.zhihu.com/question/55720139 Deep Learning with PyTorch: A 60 Minute Blitz Author: Soumit ...
分享20个最新的免费 UI 设计素材给设计师
用户界面设计涉及到很多的创意,灵感以及需要与客户进行有效沟通的技能.良好的用户界面是一致的,可以使网站更容易理解和使用.UI设计的重点在于用户体验和互动,同时易于使用对于一个成功的移动应用程序来说非常 ...
PS网页设计教程XXVIII——如何在PS中创建一个干净的网页布局
作为编码者,美工基础是偏弱的.我们可以参考一些成熟的网页PS教程,提高自身的设计能力.套用一句话,“熟读唐诗三百首,不会作诗也会吟”. 本系列的教程来源于网上的PS教程,都是国外的,全英文的.本人尝试 ...

随机推荐

Oracle 11g新特性direct path read引发的系统停运故障诊断处理
黎俊杰 | 2016-07-28 14:37 声明:部分表名为了脱敏而用XX代替 1.故障现象 (1)一个业务系统输入用户名与密码后无法进入首页,表现为一直在运行等待,运行缓慢 (2)整个系统无法正常 ...
oracle 11g goldengate搭建（一）
初学ogg,基本了解ogg原理及架构之后,趁热打铁,搭建一个简单的学习环境,以实现目标:将sourcedb数据库的2个表:sourceuser.test01和sourceuser.dept通过ogg分 ...
一、Linux_文件操作
1.复制文件到当前目录: # 复制文件到当前目录下, ./表示当前目录 $ cp /home/book/poems.tar.gz ./ # 复制并改名,并存放在当前目录下 (cp源文件名新文件名) ...
golang读写文件
1. 标准输入输出 os提供了标准输入输出文件: Stdin = NewFile(uintptr(syscall.Stdin), "/dev/stdin") Stdout = Ne ...
用IntelliJ IDEA学习Spring--创建一个简单的项目
这段时间想学习一下Spring,其实之前学过Spring,只是有些忘记了.而且之前学的时候是适用eclipse学习的,现在好像对IntelliJ这个工具使用挺多的,现在就学习一下这个工具的用法,顺便复 ...
R笔记整理（持续更新中）
1. 安装R包 install.packages("ggplot2") #注意留意在包的名称外有引号!!! library(ggplot2) #在加载包的时候,则不需要在包的名称外 ...
实验八《Coderxiaoban团队》团队作业4：基于原型的团队项目需求调研与分析
实验八 <Coderxiaoban团队>团队作业4:基于原型的团队项目需求调研与分析项目内容这个作业属于哪个课程任课教师博客主页链接这个作业的要求在哪里实验八团队作业4:基于 ...
项目Alpha冲刺——测试
作业描述课程: 软件工程1916|W(福州大学) 作业要求: 项目Alpha冲刺(团队) 团队名称: 火鸡堂作业目标: 完成项目Alpha冲刺团队信息队名:火鸡堂队员学号队员姓名博客地址 ...
Vue的参数请求与传递
Vue不同模板之间的参数传递页面路由带参数的跳转: 参数接收: Vue向服务器请求资源的两种方式 VUE-RESOURCE 1.Vue.js是数据驱动的,这使得我们并不需要直接操作DOM,如果我们不 ...
jQ native 构造函数

Tracking without bells and whistles

Tracking without bells and whistles的更多相关文章

随机推荐

热门专题