Tracking without bells and whistles

Tracking without bells and whistles

2019-08-07 20:46:12

Paper: https://arxiv.org/pdf/1903.05625

Code: https://github.com/phil-bergmann/tracking_wo_bnw

1. Background and Motivation:

本文提出一种很霸道的观点：A detector is all you need for Multi-Object Tracking。我们知道 MOT 的常规思路都是要先检测，在做数据连接（data association）。但是，作者发现，最近两年，虽然有很多方法被提出，但是悲剧的是，在几个公共的 MOT 数据集上，并没有很明显的提升（两年才提升了2点多：multiple object tracking accuracy has only improved 2.4% in the last two years on the MOT16 MOTChallenge benchmark）。作者发现通过仅仅利用物体检测算法，如 Faster rcnn，就可以达到 state of the art 的效果。这也引出了一个很有意思的问题：如果一个检测器就可以很好地完成 MOT 的任务，那么，tracking algorithm 有什么用呢？这还是必要的吗？我们先来看看作者提出的算法框架到底是怎么样的。

2. A detector is all you need：

有一些物体检测算法中包含通过 regression 的方式进行 bounding box refinement 的模块。作者提出使用这种 regressor 来进行 MOT。这种方式有如下两种优势：

1). 不需要任何关于 tracking 的训练；

2). 在测试阶段不进行任何复杂的优化，因为该算法是 online 的。

此外，本文的方法也可以达到 SOTA 的效果。

2.1 Object detector：

这个貌似没啥说的，就是用基于 Resnet-101 和 Feature Pyramid Networks 的方法在 MOT17Det pedestrian detection dataset 上进行预训练。得到这种物体检测器之后呢？一起来看 2.2 小节。

2.2 Trackor：

MOT 的挑战在于：提取给定的视频帧中的多个物体的时间和空间上位置信息，即：轨迹。这种轨迹信息被定义为：一系列有序的物体包围盒的集合。

在时刻 t=0，作者的 tracker 用第一组检测的结果进行初始化，即：$D_0 = {d^1_0, d^2_0, ... } = B_0$。在图 1 中，我们展示了两个随后的步骤：the bounding box regression and track initialization。

Bounding box regression.

第一步就是，如上图蓝色箭头所示，探索 bounding box regression 来拓展激活的轨迹。通过将 t-1 帧的 bounding box $b^k_{t-1}$ 进行回归，得到第 t 帧新的位置 $b^k_t$。在 Faster RCNN 中，这就对应了在当前帧的 feature map 上进行 RoI Pooling 操作，但是用的是前一帧的 BBox。作者提出这种做法的一个假设就是：两帧之间的运动不是很明显，特别是在 high frame rates 的视频上。这个 identify 就自动的从之前的结果上迁移过来了，从而有效的得到了新的轨迹。这种操作可以对所有的视频帧进行重复处理。

在 BBox 回归以后，作者的跟踪器考虑两种情况来 kill 一个轨迹：

1). 一个物体在视频帧中消失了，或者被其他物体被遮挡了，即：如果新的 classification score 小于某一阈值；

2). 不同物体之间的遮挡，可以通过采用 NMS 来处理。

Bounding Box Initialization.

为了处理新出现的物体，物体检测器也提供了整个视频帧的检测结果 Dt。第二步，即图中红色箭头部分，类似于第一帧的初始化。但是，从 Dt 开始的检测，当且仅当 IoU 与任何已有的 active trajectories $b_t^k$ 小于某一阈值。即，我们考虑一个物体为新的 id，如果我们无法用任何已有的 trajectory 来描述该物体。

2.3 Tracking extensions.

作者将该模型进行了拓展，即：结合了 motion model 和 re-identification model。

Motion model. 作者之前的假设：两帧之间的变化不是很大，在有些情况下并不成立：large camera motion and low video frame rates. 在极端的情况下，BBox 从 frame t-1 在第 t 帧中可能根本不包含目标物体了。所以，作者设计了两种 motion model 来改善 BBox 的定位。对于运动相机，作者采用相机运动补偿（camera motion compensation, CMC）的方式进行缓解。作者采用了 image registration 的方式来对齐视频帧，用的是 Enhanced Correlation Coefficient (ECC) maximization。对于低帧率的视频，作者采用 a constant velocity assumption (CVA)。这个也是别人提出的，不太了解，不知道有啥好处么？

Re-identification. 为了让 tracker 能够保持 online，作者提出利用 short-term re-ID 的方式（借助 Siamese Network 来进行 appearance feature 的匹配）来改善效果。为了达到这个目标，作者将杀死的目标，存储固定帧数的样本。然后将这些样本和新检测的目标在 embedding space 进行重识别。

3. Experiment：

Tracking without bells and whistles的更多相关文章

paper 87：行人检测资源（下）代码数据【转载，以后使用】
这是行人检测相关资源的第二部分:源码和数据集.考虑到实际应用的实时性要求,源码主要是C/C++的.源码和数据集的网址,经过测试都可访问,并注明了这些网址最后更新的日期,供学习和研究进行参考.(欢迎补充 ...
paper 14 : 图像视觉领域部分开源代码
做图像处理,没有一定的知识储备是不可能的,但是一定要学会“借力打力”,搜集一些很实用的开源代码,你们看看是否需要~~ 场景识别: SegNet: A Deep Convolutional Encode ...
Best Practices for Speeding Up Your Web Site
The Exceptional Performance team has identified a number of best practices for making web pages fast ...
Frontend Development
原文链接: https://github.com/dypsilon/frontend-dev-bookmarks Frontend Development Looking for something ...
[转载]Best Practices for Speeding Up Your Web Site
原文:http://developer.yahoo.com/performance/rules.html 提升网站加载速度的一些优化技巧,大部分在前端层面. 不知道是多久以前写的,看起来有些已经过时了 ...
ECCV 2014 Results (16 Jun, 2014) 结果已出
Accepted Papers Title Primary Subject Area ID 3D computer vision 93 UPnP: An optimal O(n) soluti ...
PyTorch入门教程
https://www.zhihu.com/question/55720139 Deep Learning with PyTorch: A 60 Minute Blitz Author: Soumit ...
分享20个最新的免费 UI 设计素材给设计师
用户界面设计涉及到很多的创意,灵感以及需要与客户进行有效沟通的技能.良好的用户界面是一致的,可以使网站更容易理解和使用.UI设计的重点在于用户体验和互动,同时易于使用对于一个成功的移动应用程序来说非常 ...
PS网页设计教程XXVIII——如何在PS中创建一个干净的网页布局
作为编码者,美工基础是偏弱的.我们可以参考一些成熟的网页PS教程,提高自身的设计能力.套用一句话,“熟读唐诗三百首,不会作诗也会吟”. 本系列的教程来源于网上的PS教程,都是国外的,全英文的.本人尝试 ...

随机推荐

Guava Cache用法介绍
背景缓存的主要作用是暂时在内存中保存业务系统的数据处理结果,并且等待下次访问使用.在日长开发有很多场合,有一些数据量不是很大,不会经常改动,并且访问非常频繁.但是由于受限于硬盘IO的性能或者远程网络 ...
C#操作mongodb（聚合函数）-分组找出每组的最大值
public static void OnQuery_QXData(string DBName, string tablename,string layername) { ...
应用在App Store上被拒重新提交审核流程指南
1. 打开地址: https://itunesconnect.apple.com 2. 输入APPID和密码后,再输入绑定手机后的验证码. 3. 查看“”我的APP“”,如果显示拒绝,可能需打开Mac ...
我的oracle 健康检查报告
最近一直想用sql来生成oracle的健康检查报告,这样看起来一目了然,经过网上搜资料加自己整理终于算是成型了,部分结果如下图所示, 具体参考附件,恳请广大网友看看是否还有需要添加的地方. DB_he ...
Java开发环境之ActiveMQ
查看更多Java开发环境配置,请点击<Java开发环境配置大全> 柒章:ActiveMQ安装教程 1)去官网下载ActiveMQ安装包 http://activemq.apache.org ...
Docker搭建Portainer
1.介绍 Docker 图形化管理提供了很多工具,有Portainer.Docker UI.Shipyard等等,本文主要介绍Portainer. Portainer是一个开源.轻量级Docker管理 ...
【Mybatis异常】Caused by: java.sql.SQLException: Parameter index out of range (1 > number of parameters, which is 0).
一.错误原因分析从错误提示可以看出:实际传入的参数大于sql中待设置的参数,也就是sql中的?少于参数或?根本没有产生原因: ?号被单引号包围如: sql += " and artic ...
Linux实验：hdfs shell基本命令操作（一）
[实验目的] 1)熟练hdfs shell命令操作 2)理解hdfs shell和linux shell命令 [实验原理] 安装好hadoop环境之后,可以执行hdfs shell命令对hdfs 的空 ...
Thinkphp3.2下导入所需的类库同java的Import 本函数有缓存功能
* 导入所需的类库同java的Import 本函数有缓存功能 * @param string $class 类库命名空间字符串 * @param string $baseUrl 起始路径 * @pa ...
SparkSQL读写外部数据源-jext文件和table数据源的读写
object ParquetFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() ...

Tracking without bells and whistles

Tracking without bells and whistles的更多相关文章

随机推荐

热门专题