Robust Online Visual Tracking with a Single Convolutional Neural Network

Abstract:这篇论文有三个贡献，第一提出了新颖的简化的结构损失函数，能保持尽量多的训练样本，通过适应模型输出的不确定性来减少跟踪误差累积风险。

第二是增强了普通的SGD，采用了暂时的选择策略来进行CNN训练。第三，更新CNN模型时采用一种更lazy的方式来加快训练，只有当目标外观发生较大变化时才更新网络。

Introduction:在本文提出的算法中，用CNN自动学习特定目标的特征描述，以在线的方式更新CNN模型，CNN在各个可能的目标位置生成相应的分数，分数最高的hypothesis被作为当前帧目标状态的预测。

传统的tracking-by-detection方法用正负样本来预测目标位置，但正样本少负样本多会导致跟踪不够准确；其次，除了第一帧的目标位置外，其余目标位置都是跟踪器的预测，并不一定准确。为了解决上面两个问题，本文CNN模型提出了一种特殊的损失函数形式，包括鲁棒部分、结构部分和简化部分。其中结构部分能获得大训练样本，在同一时刻考虑目标位置的不确定时，有着明显不同的层次；鲁棒部分在跟踪过程中考虑多个目标位置估计而不是一个，并用最优估计来确定目标位置；简化部分应用到CNN的响应，减少BP阶段中的样本，明显加快训练过程。

本文提出了新的SGD来优化CNN模型中的参数，传统的SGD并不适用于跟踪，主要有两方面的改进：首先为了防止CNN模型过拟合，本文提出了一个临时采样策略。

这个策略假定目标位置块在记忆中比背景块存留的时间更长。因此，我们将所有观测到的样本块存储在训练样本池里，并且我们从一个临时的序列中选正样本，这个序列要长于

负样本的序列。事实上，这是构建基于CNN的鲁棒跟踪器的重要因素，因为区分样本策略成功的正则化了有效外观模型的变化。

第二，我们用了多个image cues（低层的图像特征，比如归一化的灰度图像或图像梯度）作为网络输出的独立通道。我们独立的训练每个通道的参数，并在之后用一个全连接

层来联合训练。这就让训练更有效率，从经验上我们可以看到，这种两阶段的训练方式比所有cues联合起来训练更有效果。

CNN Architecture

CNN with Multiple Image Cues

本文CNN包括两层卷积层，激活函数为sigmod，采用平均池化操作。

输入为32*32，第一个卷积层有6个核，大小为13*13，第二个卷积层有72个核，大小为9*9，经过池化操作以后，得到一个12维的特征向量。

全连接层是个logistic regression操作，它将一个12维的向量生成一个分数向量s，s1代表正分，s2代现负分。为了增大正负样本分数的边界，可以采和如下的CNN分数计算

方式：

有效的跟踪需要多个cues，包括颜色啊梯度啊，这些cues之间相互补充。本文采用4个image cues,包括用不同参数配置的三个局部归一化图和一个梯度图。采用数据驱动的方式

让CNN选择最有信息量的cues。

Robust, Structural, Truncated Loss Function

Structural Loss:

结构化的二元分类器在定位目标时有着更好的表现，最大的优势是有着大量可训练样本，而普通的二元分类器只能用有着高置信（我的理解是有着较大概率属于哪一类）的

训练样本。定义如下的结构损失函数：

事实上，（5）衡量的是训练样本的重要性。

Structural Loss with a Robust Term and the Truncated Norm

接下来是使损失函数更鲁棒的方法，排除掉那些虽然CNN分数很高，但与训练标签有很大不符的样本。

为了加快BP训练速度，丢掉那些训练误差小的训练样本。

Optimization of CNN for Tracking

Online Learning: Iterative SGD with Temporal Sampling

不同于检测和识别，在跟踪过程中当新一帧到来时，训练样本池增长缓慢。这就需要在所有帧之前学习一个连贯的模型，用这个模型将背景与目标区分开来。

这就启示我们可以在一个long-term的正样本集和一个short-term的负样本集中来学习一个判别模型。基于此想法，我们将SGD嵌入到随机采样的过程中，

Iterative Stochastic Gradient Descent (IT-SDG)

因为使用了多个image cues，这可能会影响训练的速度、导致过拟合，因为每个image cue是弱相关的，因此我们以迭代的方式来训练网络。先训练卷积层的参数

然后在全连接层中评估所有image cues的响应，以一个小的学习速率更新全连接层的参数。

Lazy Update and the Overall Work Flow

Robust Online Visual Tracking with a Single Convolutional Neural Network的更多相关文章

1 - ImageNet Classification with Deep Convolutional Neural Network （阅读翻译）
ImageNet Classification with Deep Convolutional Neural Network 利用深度卷积神经网络进行ImageNet分类 Abstract We tr ...
XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network
XiangBai--[AAAI2017]TextBoxes:A Fast Text Detector with a Single Deep Neural Network 目录作者和相关链接方法概括 ...
论文阅读（Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection）
Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录作者 ...
Convolutional Neural Network in TensorFlow
翻译自Build a Convolutional Neural Network using Estimators TensorFlow的layer模块提供了一个轻松构建神经网络的高端API,它提供了创 ...
论文阅读（XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network）
XiangBai——[AAAI2017]TextBoxes:A Fast Text Detector with a Single Deep Neural Network 目录作者和相关链接方法概括 ...
ISSCC 2017论文导读 Session 14 Deep Learning Processors，A 2.9TOPS/W Deep Convolutional Neural Network
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下. A 2.9TOPS/W Deep Convolutional N ...
斯坦福大学卷积神经网络教程UFLDL Tutorial - Convolutional Neural Network
Convolutional Neural Network Overview A Convolutional Neural Network (CNN) is comprised of one or mo ...
ISSCC 2017论文导读 Session 14 Deep Learning Processors，A 2.9TOPS/W Deep Convolutional Neural Network SOC
最近ISSCC2017大会刚刚举行,看了关于Deep Learning处理器的Session 14,有一些不错的东西,在这里记录一下. A 2.9TOPS/W Deep Convolutional N ...
CNN(Convolutional Neural Network)
CNN(Convolutional Neural Network) 卷积神经网络(简称CNN)最早可以追溯到20世纪60年代,Hubel等人通过对猫视觉皮层细胞的研究表明,大脑对外界获取的信息由多层的 ...

随机推荐

Android 解决ScrollView嵌入ListView | GridView | ScrollView显示问题
一.ScrollView中嵌套ListView ScrollView和ListView都是滚动结构,很明显如果在ScrollView中加入ListView,可以预见性的知道,肯定会有显示/滚动的问题, ...
【JQuery】css操作
一.前言接着上一章的内容,继续JQuery的学习二.内容 css 设置或返回匹配元素的样式属性 $(selector).css(css-property-name) $(selec ...
Mobile Service
link 试题分析我们发现$dp(t,s1,s2,s3)$表示在$t$时刻$3$个人的位置.发现时间复杂度为$O(n \times L^3)$.不仅会$T$还会$MLE$,所以需要优化$dp$.我们 ...
PID控制算法的C语言实现四增量型PID的C语言实现
/*------------------------------------------- 2 位置型PID C实现(控制电机转速) --------------------------------- ...
C++ STL 一般总结（转载）
注:原博地址:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/22/2603525.html 以下内容来源网上经过整合而成一.一般介绍 STL ...
Codeforces 833B The Bakery dp线段树
B. The Bakery time limit per test 2.5 seconds memory limit per test 256 megabytes input standard inp ...
手脱nSPack 3.7
方法一: 1. OD查壳—nSpack3.7的壳 2. 载入OD 看起来很眼熟,F8一次,然后下面就可以使用ESP定律了,使用ESP定律下断点,然后F9四次 3. F9四次后落到这个位置接下 ...
关于HttpURLConnection/HttpsURLConnection请求出现了io.filenotfoundexception:url的解决方法
//从输入流读取返回内容InputStream is = null;int status = connection.getResponseCode();if(status>= HttpStatu ...
OpenCV---Canny边缘提取
一:Canny算法介绍 Canny 的目标是找到一个最优的边缘检测算法,最优边缘检测的含义是: 好的检测- 算法能够尽可能多地标识出图像中的实际边缘. 好的定位- 标识出的边缘要尽可能与实际图像中的实 ...
Ubuntu 火狐浏览器中，鼠标选择文字被删除的解决办法
copy from :http://blog.csdn.net/shadow066/article/details/50628019 在终端中输入命令:ibus-setup 将 “在应用程序窗口中启用 ...

Robust Online Visual Tracking with a Single Convolutional Neural Network

Robust Online Visual Tracking with a Single Convolutional Neural Network的更多相关文章

随机推荐

热门专题