Correlation Filter in Visual Tracking系列二：Fast Visual Tracking via Dense Spatio-Temporal Context Learning 论文笔记

原文再续，书接一上回。话说上一次我们讲到了Correlation Filter类 tracker的老祖宗MOSSE，那么接下来就让我们看看如何对其进一步地优化改良。这次要谈的论文是我们国内Zhang Kaihua团队在ECCV 2014上发表的STC tracker：Fast Visual Tracking via Dense Spatio-Temporal Context Learning。相信做跟踪的人对他们团队应该是比较熟悉的了，如Compressive Tracking就是他们的杰作之一。今天要讲的这篇论文的Matlab源代码已经放出了，链接如下：

http://www4.comp.polyu.edu.hk/~cslzhang/STC/STC.htm

首先来看看他们的跟踪算法示意图：

看到更新方式，快速傅里叶变换什么的是不是很眼熟？没错，这篇论文其实与MOSSE方法基本是一致的，那么其创新点在哪了？笔者觉得，其创新点在于点，一是以密集时空环境上下文Dense Spatio-Temporal Context作为卖点；二是以概率论的方式包装了CF类方法;三是在模板更新的时候把尺度变换也考虑了进去。

那么什么是密集的时空上下文呢？其最朴素的思想可以用下面这个图来表达：在跟踪的过程中，由于目标外观变换以及遮挡等原因的影响，仅仅跟踪目标本身的话比较困难，但如果把目标周围区域也考虑进去（空间上下文），那么能够在一定程度降低跟踪失败的风险。以图中的例子来说，就是假如仅仅考虑目标本身（黄色框），那么在发生遮挡的时候，就难以实现跟踪，但是如果把周围的像素也考虑进去（红色框），那么就可以借助周围环境来确定目标所在。这是一帧的情况，假如考虑多帧情况的话，就对应产生了时空上下文。那么dense的说法从何而来？这一点我们后面再解释。

主要思想已经有了，下面我们来看如何用概率论进行理论支持。假设$\mathbf{x}\in {{\mathbb{R}}^{2}}$为某一位置，$o$为需要跟踪的目标，首先定义如下的confident map用来衡量目标在$\mathbf{x}$出现的可能性：

然后定义${{X}^{c}}=\{\operatorname{c}(\mathbf{z})=(I(\mathbf{z}),\mathbf{z})|\mathbf{z}\in {{\Omega }_{c}}({{\mathbf{x}}^{\bigstar }})\}$ 为上下文特征集合，其中${{\mathbf{x}}^{\bigstar }}$代表目标位置，${{\Omega }_{c}}({{\mathbf{x}}^{\bigstar }})$表示在${{\mathbf{x}}^{\bigstar }}$点处两倍于跟踪目标大小的邻域，$I(\mathbf{z})$为$\mathbf{z}$点的图像灰度值。这一公式的意思其实就是把${{\mathbf{x}}^{\bigstar }}$作为中心点，取其周围两倍于目标框大小的图像作为特征，如上图的红色框。然后我们利用全概率公式，以上下文特征为中间量把(1)展开：

式(2)分为两项，左项$P(\mathbf{x}|\operatorname{c}(\mathbf{z}),o)$代表给定目标和其上下文特征，目标出现在$\mathbf{x}$点的概率，右项$P(\operatorname{c}(\mathbf{z})|o)$则是某一上下文特征属于目标的概率，也就是目标的上下文概率先验了。右项的作用在于选择与目标外观相似的上下文，左项的作用在于在选择外观相似的同时也考虑出现在某一位置是否合理，避免跟踪过程中的漂移现象。

然后，因为在第一帧的时候，目标的位置是已知的，那么这时候就可以构造一个confident map，使其满足距离目标越近可能性越高的性质。作者定义confident map的具体值为如公式(3)所示：

其中$b,\alpha ,\beta $都是经验常数。回想下上一篇我们讲的MOSSE方法，其实$m(\mathbf{x})$就是我们讲的响应输出，只不过MOSSE直接用一个高斯形状，而这里用的是如(3)式的定义。另外，之前谈到本篇论文标题中有一“dense”字样，体现在哪呢？就体现在这个地方，对于目标附近每一个点，都可以用(3)式对其概率值进行定义。传统的跟踪方法可能是随机采样或者隔段采样，而这里因为每一个点都进行了概率值的定义所以就是dense了。但其实目前所有的CF类方法都是dense sampling，而且这一个概念的明确提出应该是出现在后面会讲的CSK方法之中，只不过本篇作者将其改头换面成dense spatio temporal learning了。OK，闲话少说，接下来我们继续求解$P(\mathbf{x}|\operatorname{c}(\mathbf{z}),o)$和$P(\operatorname{c}(\mathbf{z})|o)$。

先看$P(\operatorname{c}(\mathbf{z})|o)$，是目标的上下文先验，定义为如下所示：

其就是目标框附近的图像灰度值的高斯加权和（换成其它特征也可以，后面另有一篇论文会谈到）。然后$P(\operatorname{c}(\mathbf{z})|o)$有了，$m(\mathbf{x})$有了，就可以带入(2)求解$P(\mathbf{x}|\operatorname{c}(\mathbf{z}),o)$了，套路还是跟MOSSE一样，首先将$m(\mathbf{x})$表示为$P(\mathbf{x}|\operatorname{c}(\mathbf{z}),o)$和$P(\operatorname{c}(\mathbf{z})|o)$的卷积(互相关)，通过FFT转到频率域变为点乘运算，运算完后逆变换回空间域，找响应最大值的地方作为目标位置。具体就是，设$P(\mathbf{x}|\operatorname{c}(\mathbf{z}),o)={{h}^{sc}}(\mathbf{x}-\mathbf{z})$，得

文中作者还强调了${{h}^{sc}}(\mathbf{x}-\mathbf{z})$是目标的位置与其环境上下文之间相对距离和方向的衡量，并且不是对称函数。

另外，根据卷积$f\otimes g$的定义：

所以(5)式其实就是一卷积（$\mathbf{x}$就是$t$或$m$，$\mathbf{z}$就是$\tau $或$n$），根据卷积定理：

与MOSSE不同的是，STC在训练模板、即计算${{h}^{sc}}(\mathbf{x}-\mathbf{z})$时只需考虑第一帧。而在跟踪过程中，${{h}^{sc}}(\mathbf{x}-\mathbf{z})$的更新方式如同MOSSE，这里不再叙述。另外论文中还给出了目标框大小更新的方法，其基本思路可以这样理解：看到公式(5)$m(\mathbf{x})=\sum\nolimits_{\mathbf{z}\in {{\Omega }_{c}}({{\mathbf{x}}^{\bigstar }})}{{{h}^{sc}}(\mathbf{x}-\mathbf{z})I(\mathbf{z}){{\omega }_{\sigma }}(\mathbf{z}-{{\mathbf{x}}^{\bigstar }})}$ ，其中${{\omega }_{\sigma }}(\mathbf{z}-{{\mathbf{x}}^{\bigstar }})$不就是高斯形状的权重嘛，稍微不恰当的说，就是用个圆圈把目标包住嘛，圈内的权重高，圈外的相反，那么假如目标的size变大了，我们就把这个圈的范围扩大就好了，而扩大或者缩小就靠调整$\sigma $的值就ok了。具体推导过程如下：

假设从$t$到$t+1$帧，目标的大小乘以了一个$s$倍，也即相当于坐标系的刻度乘以了$s$倍，为方便起见，我们设$(u,v)=(sx,sy)$，然后，不失一般性的，假设目标在第$t$帧的坐标为(0,0)，则有

由${{\omega }_{\sigma }}(x,y)=\alpha {{e}^{-\frac{{{x}^{2}}+{{y}^{2}}}{{{\sigma }^{2}}}}},{{\omega }_{\sigma }}(x/s,y/s)=\alpha {{e}^{-\frac{{{x}^{2}}+{{y}^{2}}}{{{(s\sigma )}^{2}}}}}$ 有${{\omega }_{\sigma }}(x/s,y/s)={{\omega }_{s\sigma }}(x,y)$，所以(8)式继续推导为：

然后，从$t$变到$t+1$帧，我们把变化后的坐标对应起来，因此有$h_{t}^{sc}(u/s,v/s)\approx h_{t+1}^{sc}(u,v)$和${{I}_{t}}(u/s,v/s)\approx {{I}_{t+1}}(u,v)$，所以式(9)继续变为

假设从$t$到$t+1$帧是缩小的，因此跟缩放示意图一样，我们将(10)的积分看成两部分组合成的：一是红框部分($t+1$帧的上下文框大小)，二是蓝框($t$帧的上下文框大小)减去红框的部分，用公式表达就是：

又因为$\omega $的高斯形状的关系，上式右项那一部分的权值都很小，因此整个右项都可视为0，同时将$s{{\sigma }_{t}}$视为${{\sigma }_{t+1}}$，所以上式的左项就近似成了${{c}_{t+1}}(0,0)$：

因此就有

剩下的就是一些技巧了，比如用滑动窗口取$s$的平均之类的，具体可以看作者的原文。这篇文章大概就到这里了。总结一下，其中比较吸引笔者的其中的概率论支撑和后面的窗口大小的变化部分，至于环境上下文部分的话，换用其它特征应该可以作进一步扩展以提高算法的鲁棒性。作者主页上有源代码，有兴趣的可以下载来跑跑看，运行时留意下像woman这类视频吧~

Correlation Filter in Visual Tracking系列二：Fast Visual Tracking via Dense Spatio-Temporal Context Learning 论文笔记的更多相关文章

Correlation Filter in Visual Tracking系列一：Visual Object Tracking using Adaptive Correlation Filters 论文笔记
Visual Object Tracking using Adaptive Correlation Filters 一文发表于2010的CVPR上,是笔者所知的第一篇将correlation filt ...
Correlation Filter in Visual Tracking
涉及两篇论文:Visual Object Tracking using Adaptive Correlation Filters 和Fast Visual Tracking via Dense Spa ...
论文笔记：Attentional Correlation Filter Network for Adaptive Visual Tracking
Attentional Correlation Filter Network for Adaptive Visual Tracking CVPR2017 摘要:本文提出一种新的带有注意机制的跟踪框架, ...
《Visual C++ 2010入门教程》系列二：安装、配置和首次使用VS2010
作者:董波日期:2010.6.15 写在前面在我还在上学的时候,我选择了C++,最初我用VC6作为我的IDE,我看过很多本C++的教材,有的适合我,有的不适合我,其中有一本叫<Visual ...
论文笔记之： Hierarchical Convolutional Features for Visual Tracking
Hierarchical Convolutional Features for Visual Tracking ICCV 2015 摘要:跟卢湖川的那个文章一样,本文也是利用深度学习各个 layer ...
Web 前端开发精华文章推荐（HTML5、CSS3、jQuery）【系列二十二】
<Web 前端开发精华文章推荐>2014年第一期(总第二十二期)和大家见面了.梦想天空博客关注前端开发技术,分享各类能够提升网站用户体验的优秀 jQuery 插件,展示前沿的 HTML ...
[知识库分享系列] 二、.NET（ASP.NET）
最近时间又有了新的想法,当我用新的眼光在整理一些很老的知识库时,发现很多东西都已经过时,或者是很基础很零碎的知识点.如果分享出去大家不看倒好,更担心的是会误人子弟,但为了保证此系列的完整,还是选择分享 ...
Wireshark入门与进阶系列(二)
摘自http://blog.csdn.net/howeverpf/article/details/40743705 Wireshark入门与进阶系列(二) “君子生非异也,善假于物也”---荀子本文 ...
VSTO之旅系列(二)：创建Excel解决方案
原文:VSTO之旅系列(二):创建Excel解决方案本专题概要引言创建VSTO项目 Excel对象模型创建Excel外接程序创建Excel文档级自定义项小结一.引言也许很多朋友都没有听 ...

随机推荐

How can I read binary files from Resources
How can I read binary files from Resourceshttp://answers.unity3d.com/questions/8187/how-can-i-read-b ...
linux下mysql函数的详细案列
MYSQL * STDCALL mysql_real_connect(MYSQL *mysql, const char *host, const char *user, const char *pas ...
如何有效使用Project（1）——编制进度计划、保存基准
1.前言: 软件产品的研发.升级.定制等,一般都是以项目的形式进行,此时项目进度计划以及资源使用情况就变成了项目经理关注的重点.如何让项目计划有效可控,及时暴露问题?如何查看资源的负荷情况,看资源分配 ...
csu 1809 Parenthesis
题目见此分析,把'('当成1, ')'当成-1, 计算前缀和sum. 记交换括号左边的序号为u, 右边为v,讨论左右括号: 1.s[u] == '(' && s[v] == ')' ...
解决cocopods不提示第三方库名字的方法
在使用第三方类库时,使用cocoaPods是非常方便的,具体使用方法可以参考:CocoaPods安装和使用教程的安装使用方法.今天讨论的问题是,我在使用的时候遇到了一些问题:用cocoaPod si ...
CAN基础知识
CAN:Controller Area Network,是ISO国际标准化的串行通信协议. CAN控制器根据两根线上的电位来判断总线电平.总线电平分为显性电平和隐性电平,二者必居其一.发送方通过使总线 ...
滤镜与CSS3效果
-webkit-filter是css3的一个属性,Webkit率先支持了这几个功能,感觉效果很不错.一起学习一下filter这个属性吧. 现在规范中支持的效果有: grayscale 灰度 ...
Asp.net MVC 视图（二）
Razor视图引擎使用C#语法的Razor视图文件扩展名为.cshtml:使用Visual Basic语法的Razor视图文件扩展名为.vbhtml.文件扩展名指出了Razor语法分析器的编码语言的 ...
怎么做一个bat文件
怎么做一个bat文件 | 浏览:639 | 更新:2014-11-25 17:02 1 2 3 4 5 6 7 分步阅读其实做一个.BAT文件很简单,下面我就以做一个清除系统垃圾.BAT文件为例,给 ...
asp.net导出word（word2007）
1.只能导出成word2007格式(.docx),可直接导出到客户端 2.服务器上不需要装任何东西,也没有权限限制,比较适合导出表格(支持图片) 3.需要一个国外的DocX.dll插件 4.需要添加引 ...

Correlation Filter in Visual Tracking系列二：Fast Visual Tracking via Dense Spatio-Temporal Context Learning 论文笔记

Correlation Filter in Visual Tracking系列二：Fast Visual Tracking via Dense Spatio-Temporal Context Learning 论文笔记的更多相关文章

随机推荐

热门专题