论文笔记：Learning Attribute-Specific Representations for Visual Tracking

Learning Attribute-Specific Representations for Visual Tracking

AAAI-2019

Paper：http://faculty.ucmerced.edu/mhyang/papers/aaai2019_tracking.pdf

本文提出一种新的学习思路，即：属性信息 (e.g., illumination changes, occlusion and motion) ，来进行 CNN 特征的学习，以得到更加鲁棒的 tracker。具体来说，就是设计一种基于属性的 CNN，并且带有多个分支，每一个分支用于分类特定属性的目标。这种设计的优势在于：在每一种挑战下，降低了目标外观的多样性，用更少的训练数据就可以训练模型（reduces the appearance diversity of the target under each attribute and thus requires less data to train the model)。我们将所有的特定属性feature，通过集成层（ensemble layer）进行聚合，得到更加具有判别力的特征来进行分类。其实这个思路，类似于 MDNet，但是又跟 MDNet 不同。

具体流程（ANT Tracker）：

1. Attribute-based Neural Network:

如上图所示，该网络的前几层是从 VGG-M 模型得到的几层卷积层，用于提取底层信息，如边缘和纹理信息等。然后，用五个属性分支来学习对应属性的表达。文章作者用了 VOT 数据集提供的五个属性：target motions, camera motions, illumination variations, occlusions, and scale change, 这些挑战性因素可以涵盖 OTB100 数据集的 11 种属性。此外，VOT数据集属性的标注是每一帧都进行了标注，这就允许作者可以将训练数据集划分为不同的属性组（attribute groups）来训练对应的分支。

紧跟着这些属性分支的是 ensemble layer 和 fc layer。在测试阶段，属性组是未知的，一个视频帧可能也包含多种属性。所以，仅仅将视频帧传送到每一个分支也是不合理的。所以，作者这里将输入图像区域传递到所有的属性分支，并且训练一个 ensemble layer 来自适应的组合所有的特征，得到一个充分并且具有判别性的表达。ensemble layer 的输出被传送到 FC layer 进行最终前景和背景的分类。

对于每一分支的结构，我们采用 Inception 的结构，如下图所示，以得到更好的feature。

2. Two-Stage Training：

作者这里提到 end-to-end learning 的方式，无法确保每个分支可以学会分类对应属性的数据（can not guarantee each branch to learn to classify data of the corresponding attribute），因为任何训练样本的分类损失都可以反向传递到所有的五个分支。为了解决这个问题，作者采用了两个阶段的训练策略。

Stage-I：training attribute branches.

这个五个分支是依次训练的。特别的，作者将 ensemble layer 和 last FC layer 移除，然后对每一种属性，添加一个 new FC layer，进行训练。

Stage-II：training ensemble layers.

一旦上述属性分支训练完毕，就开始训练 ensemble layer，以得到这些特征的最终集成特征，用于分类。首先将 FC 层给 remove 掉，然后，接上 ensemble layer 和 FC layer，继续训练。这里采用 softmax-loss 进行训练，大约 150 次迭代后，开始收敛。

3. Tracking：

在实际跟踪的时候，就直接通过采样，然后打分的方式进行：

4. 实验结果：

论文笔记：Learning Attribute-Specific Representations for Visual Tracking的更多相关文章

论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
论文笔记： Dual Deep Network for Visual Tracking
论文笔记: Dual Deep Network for Visual Tracking 2017-10-17 21:57:08 先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. ...
论文笔记：SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks
SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 2019-04-02 12:44:36 Paper:ht ...
Deep Reinforcement Learning with Iterative Shift for Visual Tracking
Deep Reinforcement Learning with Iterative Shift for Visual Tracking 2019-07-30 14:55:31 Paper: http ...
论文笔记之： Recurrent Models of Visual Attention
Recurrent Models of Visual Attention Google DeepMind 模拟人类看东西的方式,我们并非将目光放在整张图像上,尽管有时候会从总体上对目标进行把握,但是也 ...
论文笔记 — Learning to Compare Image Patches via Convolutional Neural Networks
论文: 引入论文中的一句话来说明对比图像patches的重要性,“Comparing patches across images is probably one of the most fundame ...
论文笔记：Fully-Convolutional Siamese Networks for Object Tracking
Fully-Convolutional Siamese Networks for Object Tracking 本文作者提出一个全卷积Siamese跟踪网络,该网络有两个分支,一个是上一帧的目标,一 ...
论文笔记-Deep Affinity Network for Multiple Object Tracking
作者: ShijieSun, Naveed Akhtar, HuanShengSong, Ajmal Mian, Mubarak Shah 来源: arXiv:1810.11780v1 项目:http ...
Summary on Visual Tracking: Paper List, Benchmarks and Top Groups
Summary on Visual Tracking: Paper List, Benchmarks and Top Groups 2018-07-26 10:32:15 This blog is c ...

随机推荐

css table之合并单元格
colspan 是合并列,rowspan是合并行,合并行的时候,比如rowspan="2",它的下一行tr会少一列:合并列的时候 colspan="2",此行的 ...
jmeter 之 beanshell sample
Lightweight Scripting for Java 官网:http://www.BeanShell.org/ 定时器: BeanShell Timer 前置处理器:BeanShell Pre ...
nodejs启动web项目
1.在根目录路径下输入 npm install ,会自动下载所需的包 2.安装完成对应的包以后,npm start,会自动打开浏览器
OpenDialog文件多选
procedure TForm1.OpenFileListClick(Sender: TObject); var openDialog: TOpenDialog; I: Integer; begin ...
在visual studio code 中配置python以及解决中文乱码问题
安装好 visual stuido code (下面简称 “ VSC ”)后,要想使用它运行调试 python 代码还需要做一些工作以解决下列问题: 搭建 python 环境 print 打印中文出现 ...
2019春第十周作业Compile Summarize
这个作业属于那个课程 C语言程序设计II 这个作业要求在哪里在这里我在这个课程的目标是能够对C语言的编写更加得心应手这个作业在那个具体方面帮助我实现目标结构体更进一步参考文献与网址 C语言 ...
Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggregated column 'userinfo.
安装了mysql5.7,用group by 查询时抛出如下异常: Expression # of SELECT list is not in GROUP BY clause and contains ...
使用LVM进行分区扩展的记录
场景:在磁盘分区空间不够的情况下,要扩展分区空间因为使用的是虚拟机,所以可以对原有的硬盘上进行扩展,而不需要新增一个硬盘 1.扩展磁盘并使用fdisk工具进行分区虚拟机关机后对磁盘进行扩展,扩展到 ...
mysql导入本地文件（作业）
1.准备本地文件(pet.txt) 2.在CMD中启动mysql服务,然后输入以下命令导入(pet.txt) load data local infile '路劲' into table pet; 3 ...
关于Linux与Windows的在服务器的一些区别
我们平时说学习运维要依托于Linux系统,因为在服务器领域Linux基本取得了市场,那么Linux在服务器领域与Windows相比有哪些优势呢?我们来看下:我们选择服务器主要是成本,安全稳定,这两大方 ...

论文笔记：Learning Attribute-Specific Representations for Visual Tracking

论文笔记：Learning Attribute-Specific Representations for Visual Tracking的更多相关文章

随机推荐

热门专题