基于内容感知深度特征压缩的高速视觉跟踪

论文下载:http://cn.arxiv.org/abs/1803.10537
对于视频这种高维度数据,作者训练了多个自编码器AE来进行数据压缩,至于怎么选择具体的网络,
作者又训练了一个基于目标选择具体AE的网络,再根据压缩后的特征图,进行协相关过滤操作追踪目标。
本文有趣的地方在于:
1. 两种加噪声的操作,既增加了鲁棒性,又相当于数据增强。
2. 为了自编码器的平稳训练和防过拟合提出了multi-stage distance loss。
3. 最后移除相应低的通道和自编码器针对通道而不针对图像大小。

摘要

作者提出了一种在实时跟踪领域高速且state-of-the-art表现的基于context-aware correlation filter的跟踪框架。这个方法的高速性依赖于会根据内容选择对应的专家自编码器来对图片进行压缩;context在本文中表示根据要跟踪目标的外观大致分的类。在预训练阶段,每个类训练一个自编码器。在跟踪阶段,根据给定目标选择最佳的自编码器——专家自编码器,并且在下面阶段中仅使用这个网络。为了在压缩后的特征图上达到好的跟踪效果,作者分别在与训练阶段和微调专家自编码器阶段提出了一种去噪过程和新的正交损失函数。多方认证这个方法表现良好且达到了显著的效果,超过100fps。

1. Introduction

视觉跟踪因为深度学习的出现效果提升显著。近年来,跟踪领域主要流行两种方法。一种是持续微调网络来学习目标的改变。虽然网络表现正确率高且具有鲁棒性,但是计算速度不足以满足在线跟踪的要求。第二种是先用深度网络提取特征,再接上correlation filters。但是表示大规模数据的特征如ImageNet,往往是高维度的。这往往也满足不了在线跟踪的速度需求。

本工作中,作者提出了一种基于correlation filter跟踪器,使用了context-aware的深度特征压缩来节省计算时间。这做法的动机是因为相比于分类和检测任务,低层次的特征图能充分表示单目标物体。更具体地说,作者训练了多个自编码器,每个种类一个。我们介绍一种无监督学习来对训练样本进行聚类,再根据每个类别训练一个自编码器。在跟踪阶段,给定特定的目标,context-aware网络会选择一个合适的自编码器。在使用新损失函数微调选定的专家网络后,网络输出压缩后的特征图。压缩的特征图降低了冗余性和稀疏性,并提升了追踪的正确率。

3. Methodology

TRAcker使用多个自编码器来压缩特征(TRACA)。每个专家自编码器根据各自类别对VGG-Net的特征图进行压缩。

3.1 Expert Auto-encoders

Architecture:自编码器提供了一种无监督的方法学习特征。假设有Ne个相同结构的专家自编码器。自编码器堆积了Nl个编码器和解码器,来对通道数进行压缩和解压。。所有卷积层kernel size为3x3 + ReLU。

Pre-training:预阶段分为三部分。首先用所有样本(VGG-Net的输出)训练一个初始自编码器AE0,然后使用AE0的压缩特征图进行聚类来得到Ne个类。训练初始自编码的目的是为了后面更好收敛和更好finetune。为了初始自编码器更具有鲁棒性,作者加入了两个噪声的操作。一是固定数量的特征通道置0。二是交换特征图的一些向量来模拟现实生活中遮挡的情况。

考虑到初始自编码器重输入和最终输出有一段距离不好学,实验也观察到经常出现过拟合和不平稳收敛。作者提出了基于multi-stage距离的损失函数。假设Xj为输入的特征图,AE(X)为一部分的编码和解码层。

其中,第一个求和针对一个mini batch所有样本,m为mini-batch size;第二个求和就是所有特征图和对加噪声的特征图进行不同层数加解码的复原图之间的差。

聚类的时候,首先重复1000次找到2Ne的样本,从中找到他们之间的欧几里得距离最大的初始点,然后聚类。然后减去Ne个拥有最小样本的中心。

3.2 Context-aware Network

Architecture:基于内容的网络根据跟踪的目标选择具体的自编码器。首先加载VGG-M网络,内容网络由{conv1, conv2, conv3}{fc4, fc5, fc6}组成,其中{conv1, conv2, conv3, fc4}加载VGG-M的权重。fc5输出1024,fc6输出类别,使用交叉熵训练。

3.3 Correlation Filter

本部分不熟悉,略。

3.4 Tracking Process

3.4.1 Initial Adaptation Process

Region of interest extraction:首先根据目标所在ROI扩大2.5倍crop。

Initial sample augmentation:对ROI进行多重高斯过滤和翻转进行数据增强。因为数据量少,所以使用前面提到的加噪声操作和协相关过滤器一起的损失函数。

Background channel removal:经过压缩的特征图通过微调的专家编码器得到。然后我们删除掉中对背景相应大的通道。定义Zbb操作为,对所有在bounding box(bb)外的像素点设置为0。定义第k通道的bb响应率(如下),删除响应率低的。

3.4.2 Online Tracking Sequence

对追踪不熟悉,这部分先hold着。(后补)

4. Experimental Result

[CVPR2018] Context-aware Deep Feature Compression for High-speed Visual Tracking的更多相关文章

  1. 论文阅读之:Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space

    Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space  2018-01-04  ...

  2. 论文笔记:Deep feature learning with relative distance comparison for person re-identification

    这篇论文是要解决 person re-identification 的问题.所谓 person re-identification,指的是在不同的场景下识别同一个人(如下图所示).这里的难点是,由于不 ...

  3. ICLR 2018 | Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

    为了降低大规模分布式训练时的通信开销,作者提出了一种名为深度梯度压缩(Deep Gradient Compression, DGC)的方法.DGC通过稀疏化技术,在每次迭代时只选择发送一部分比较&qu ...

  4. 《Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks》论文笔记

    论文题目<Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Ne ...

  5. 《Hyperspectral Image Classification With Deep Feature Fusion Network》论文笔记

    论文题目<Hyperspectral Image Classification With Deep Feature Fusion Network> 论文作者:Weiwei Song, Sh ...

  6. 论文笔记:SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

    SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 2019-04-02 12:44:36 Paper:ht ...

  7. 论文笔记: Dual Deep Network for Visual Tracking

    论文笔记: Dual Deep Network for Visual Tracking  2017-10-17 21:57:08  先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. ...

  8. 【论文阅读】Deep Clustering for Unsupervised Learning of Visual Features

    文章:Deep Clustering for Unsupervised Learning of Visual Features 作者:Mathilde Caron, Piotr Bojanowski, ...

  9. Deep Reinforcement Learning with Iterative Shift for Visual Tracking

    Deep Reinforcement Learning with Iterative Shift for Visual Tracking 2019-07-30 14:55:31 Paper: http ...

随机推荐

  1. python读取三维点云球坐标数据并动态生成三维图像与着色

    关键步骤: 1.首先通过读取.txt文本数据并进行一系列字符串处理,提取显示所需要的相关数据矩阵 2.然后利用python的matplotlib库来进行动态三维显示 备注:matplotlib在显示2 ...

  2. Algorithm --> Kruskal算法和Prim算法

    最小生成树之Kruskal算法和Prim算法 Kruskal多用于稀疏图,prim多用于稠密图. 根据图的深度优先遍历和广度优先遍历,可以用最少的边连接所有的顶点,而且不会形成回路.这种连接所有顶点并 ...

  3. Java 并发编程实践基础 读书笔记: 第三章 使用 JDK 并发包构建程序

    一,JDK并发包实际上就是指java.util.concurrent包里面的那些类和接口等 主要分为以下几类: 1,原子量:2,并发集合:3,同步器:4,可重入锁:5,线程池 二,原子量 原子变量主要 ...

  4. 基于node写了个工具,可以在线制作“sorry,为所欲为”的 GIF(开源)

    SnailDev.GifMaker 一个生成gif并添加自定义字幕的工具 client 微信小程序 server nodejs + express 欢迎 star&fork 如果您有好的com ...

  5. jdk 环境配置踩坑

    其实在网上已经有很多环境配置的介绍了.不过我还是想用切身经历告诉大家这里面可能遇到的坑. 首先,先给大家讲一下JAVA_HOME,path,CLASSPATH JAVA_HOME 指向的是JDK的安装 ...

  6. C语言字符数组作业

    一.PTA实验作业 题目1:7-1 字符串转换成十进制整数 1. 本题PTA提交列表 2. 设计思路 3.代码截图 4.本题调试过程碰到问题及PTA提交列表情况说明. 1.一开始我没想到怎么判断正负的 ...

  7. 2017-2018-1 我爱学Java 第二周 作业

    Android Game Discussion Questions Answers 20162309邢天岳 20162311张之睿 20162312张家铖 20162313苑洪铭 20162324春旺 ...

  8. 同一个页面同时拥有collectionView和navigationBar和tabBar时可能遇到的问题

    写一个页面的时候,遇到了页面加载时候collectionView的最下面少了49个像素的位置,切换去别的页面之后,再返回,又变回正常,多方求解无果后,发现原来是系统自带的适应功能导致的,加入以下代码即 ...

  9. 从PRISM开始学WPF(五)MVVM(一)ViewModel?

    从PRISM开始学WPF(一)WPF? 从PRISM开始学WPF(二)Prism? 从PRISM开始学WPF(三)Prism-Region? 从PRISM开始学WPF(四)Prism-Module? ...

  10. Linux入门(2)_给初学者的建议

    1 学习Linux的注意事项 严格区分大小写(命令, 文件, 选项) Linux中所有内容以文件形式保存, 包括硬件 硬盘文件是/dev/sd[a-p] 光盘文件是/dev/sr0等 Linux不靠扩 ...