RATM: RECURRENT ATTENTIVE TRACKING MODEL

　　ICLR 2016

　　本文主要内容是结合 RNN 和 attention model 用来做目标跟踪。

　　其中模型的组成主要是：

　　1. an attention model 主要用来从输入图像中提取 patch；

　　2. RNN 用来预测 attention 参数，即：下一帧应该 look 的问题。

　　Paper: http://xueshu.baidu.com/s?wd=RATM%3A+RECURRENT+ATTENTIVE+TRACKING+MODEL&rsv_bp=0&tn=SE_baiduxueshu_c1gjeupa&rsv_spt=3&ie=utf-8&f=8&rsv_sug2=1&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&rsv_n=2

　　Code:https://github.com/wangxiao5791509/RATM

　　本文所使用的框架流程图如下所示：

　　1. Attention

　　本文提到， attention model 非常适合跟踪问题，因为他可以通过目标的历史轨迹来缩小 region-of-interst 的区域。

　　原本的 attention model 从输入图像中产生 glimpse（一瞥），是通过一个叫做 a grid of 2D Gaussian filters,顺序的执行一系列的 row filter 和 column filter。该 grid 拥有 4个参数，即：

　　the grid center $g_X, g_Y$，the isotropic standard deviation, and the stride between grid points.

　　对于在 attention patch中的行 i，列 j，平均距离 $\mu_X^i, \mu_Y^j$ 通过下式进行计算：

　　动态产生的参数作为一个向量 h 的线性转换：

　　然后对参数进行归一化：

　　其中 A 和 B 分别是输入图像的宽和高。

　　滤波器通过下面的公式计算得到提取的 patch，即：

　　在上式中， a 和 b 代表输入图像的列和行的索引。通过这两个公式就可以得到一个 N*N 的 patch p：

　　2. RNN

　　一个最简单的 RNN 包括一个输入，一个 hidden，一个输出层。在时间步骤 t，该网络，基于输入帧 $x_t$ 和之前的 hidden state $h_{t-1}$，计算新的 hidden state：

　　本文对 RNN 并未做过多介绍，因为创新点也不在于此，只是说是基于 Theano 框架做的实验。

　　3. Recurrent Attentive Tracking Model：

　　跟踪问题主要是将一系列的输入视频帧 $X = (x_1, x_2, ... , x_T)$ 映射成一系列的位置 $Y = (y_1, y_2, ... , y_T)$。那么在一个时刻 t 的位置预测 $y_t$，那么其轨迹通常具有非常高的相关内容信息，并且非常适合用一个隐层状态模型（a hidden state model）来对这个轨迹进行表示。所提出的 RNN 就是结合了 attention model 和 RNN 的优势，并且区别于普通的神经网络。

　　每一个时间步骤，RNN的 hidden state vector $h_t$ 通过公式2，3 映射成 window parameters。然后在下一个时刻，由 attention model 输出的image patch 作为 RNN 的输入。并非直接将原始图像输入给 RNN,而是用预先训练的 CNN model 提出其feature 传给 RNN。具体结构见下图：

　　实验：

　　本文实验做的并非经典跟踪算法所用的 benchmark，而是 Mnist video 和 Bouncing Balls。

　　说实话，我觉得这个挺扯得，这个也可以用于跟踪的实验？？？ Oh，My God 。。。

　　总体来讲，感觉就是两个模型的组合，并且实验做的并不充分，感觉只是一个示例。。。这要是放到 CVPR 或者 MultiMedia 能被喷死！

　　不过。。。

　　呵呵。。。

　　Mnist 数据集我们知道是一个手写体识别的数据集，我去作者将其转换为视频格式，自己造了一个跟踪视频，不知道是否有跟踪上的各种挑战，即：部分遮挡，阴影变化，以及复杂背景这些具有挑战性的因素估计都没有，额不喷了。。。浪费时间。。。。

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL的更多相关文章

论文笔记之： Recurrent Models of Visual Attention
Recurrent Models of Visual Attention Google DeepMind 模拟人类看东西的方式,我们并非将目光放在整张图像上,尽管有时候会从总体上对目标进行把握,但是也 ...
论文笔记之：Speed Up Tracking by Ignoring Features
Speed Up Tracking by Ignoring Features CVPR 2014 Abstract:本文提出一种特征选择的算法,来实现用最"精简"的特征以进行目标跟 ...
论文笔记：Fast Online Object Tracking and Segmentation: A Unifying Approach
Fast Online Object Tracking and Segmentation: A Unifying Approach CVPR-2019 2019-03-11 23:45:12 Pape ...
论文笔记：Deep Attentive Tracking via Reciprocative Learning
Deep Attentive Tracking via Reciprocative Learning NIPS18_tracking Type:Tracking-By-Detection 本篇论文地主 ...
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...
论文笔记： Dual Deep Network for Visual Tracking
论文笔记: Dual Deep Network for Visual Tracking 2017-10-17 21:57:08 先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
论文阅读：Deep Attentive Tracking via Reciprocative Learning
Deep Attentive Tracking via Reciprocative Learning 2018-11-14 13:30:36 Paper: https://arxiv.org/abs/ ...
论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...

随机推荐

Java内存模型---并发编程网 - ifeve.com
Java内存模型转自:http://ifeve.com/java-memory-model-6/ 原文地址作者:Jakob Jenkov 译者:张坤 Java内存模型规范了Java虚拟机与计算机 ...
SVG 2D入门8 - 文档结构
前面介绍了很多的基本元素,包括结构相关的组合和重用元素,这里先对SVG的文档结构中剩下的相关元素简单总结一下,然后继续向前领略SVG的其他特性. SVG文档的元素基本可以分为以下几类: 动画元素:an ...
2016 - 1 - 20 runloop学习（2）
一:CFRunLoopModeRef 1. CFRunLoopModeRef带表RunLoop的运行模式 2. 一个Runloop可以有若干个mode,每个mode又包含若干个sourse,timer ...
chrom,firefox,ie不能上网，百度浏览器却可以。。。
chrome和ie提示DNS查找失败,但是百度浏览器没任何问题,这是什么情况... 尝试很多方法后无用,命令行执行很多命令,无用, 试一下阿里的 DNS: 首选:223.5.5.5备用:223.6.6 ...
Drools规则文件结构说明
一.规则文件构成 package(规则文件所在包) import(导入java包) global(规则文件中的"全局变量") function(函数) query(查找) rule ...
Oracle存储过程基本语法
一.形式 1 CREATE OR REPLACE PROCEDURE 存储过程名 //是一个SQL语句通知Oracle数据库去创建一个叫做skeleton存储过程, 如果存在就覆盖它; 2 IS ...
[动态规划]状态压缩DP小结
1.小技巧枚举集合S的子集:for(int i = S; i > 0; i=(i-1)&S) 枚举包含S的集合:for(int i = S; i < (1<<n); ...
Extjs学习笔记(-):ComboBox联动
http://www.cnblogs.com/wumin97136/archive/2007/12/24/1012720.html http://examples.ext.net/ http://ex ...
alt text 与 tooltip区别
在做工具的Accessiblity测试时, 对于image对象,一直分不清它的alt属性与tooltip属性的区别与用法, 从网上查了下, 比较认同这样的观点: alt属性: alternative ...
Android FM模块学习之二 FM搜索频道
最近在学习FM模块,FM是一个值得学习的模块,可以从上层看到底层.上层就是FM的按扭操作和界面显示,从而调用到FM底层驱动来实现广播收听的功能. 看看FM启动流程:如下图: 先进入FMRadio.ja ...

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL

RATM: RECURRENT ATTENTIVE TRACKING MODEL

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL的更多相关文章

随机推荐

热门专题