Deep Reinforcement Learning with Iterative Shift for Visual Tracking

Deep Reinforcement Learning with Iterative Shift for Visual Tracking

2019-07-30 14:55:31

Paper: http://openaccess.thecvf.com/content_ECCV_2018/papers/Liangliang_Ren_Deep_Reinforcement_Learning_ECCV_2018_paper.pdf

Code: not find yet.

Paper List of Tracking with Deep Reinforcement Learning: https://github.com/wangxiao5791509/Tracking-with-Deep-Reinforcement-Learning

1. Background and Motivation:

本文的贡献在于：

1). 提出一种 Actor-Critic Network 来预测物体运动的参数，并根据跟踪状态选择动作，不同的动作，会根据对结果的影响不同，设置不同的奖励；

2). 将 tracking 看做是迭代的平移问题，而不是 CNN Classification 问题，所以定位更加高效和准确；

3). 在 OTB 和 TC128 数据集上取得了较好的效果；

2. Approach:

本文所提出的方法包含三个模块：1). the actor network; 2). the prediction network; 3). the critic network.

2.1 Iterative Shift for Visual Tracking

本文将 tracking 看做是迭代的平移问题。给定当前帧和之前的跟踪结果，prediction network 会迭代的平移候选框，以定位住目标物体，与此同时，action network 会在跟踪状态上进行预测，判断是否进行模型的更新，预测网络，甚至是重启跟踪过程。

正式的来说，给定上一帧的跟踪结果 $l_{t-1} = {x_{t-1}, y_{t-1}, w_{t-1}, h_{t-1}}$ 以及 feature $f_{t-1}^*$，我们先根据该位置，得到当前帧的大致位置，抠出该 feature $f_t$，然后用预测网络进行预测：

其中，预测网络的输出为：

此外，跟踪状态也可能会影响最终的结果，即：需要适时的更新预测网络。为了联合的基于 target's motion status 以及 tracker's status 进行决策，我们利用 actor network 根据多项式分布来产生动作：

其中，$a_k \in A = \{ continuous, stop & update, stop & ignore, restart \}$。

对于动作 continuous 来说，即：不用更新模型，继续平移，而进行的 shift 是根据 prediction network 进行的。

对于动作 step & update 来说，即：停止平移，更新模型，即：

对于动作 stop & ignore 来说，停止平移，不更新模型，表示目标物体已经找到，然而，跟踪器无法确定是否需要进行更新。

对于动作 restart 来说，重新进行跟踪过程，即：restart the iteration by re-sampling a random set of candidate patches $L_t$ around $l_{t-1}^*$ in $I_t$ and select the patch which has the highest Q-values.

DRL-IS with Actor-Critic:

我们探索 AC算法，来进行联合的训练三个网络。首先作者根据跟踪的性能，进行了奖励的设定：

对于 continue 动作，根据

对于 stop & update and stop & ignore 动作，奖励的设定是根据 final prediction 和 ground truth 之间的 IoU 进行评判的：

对于 restart 动作，当 final prediction 和 groundtruth 之间的 IoU 低于 0.4 时，给予 pos 的奖励：

然后，我们计算每一个动作的 Q-value。

对于 action continue 的 Q-value 来说：

对于其他的三个动作来说，是按照如下的式子进行计算：

最终，两个函数的优化是按照如下的式子进行的：

其中，s' 是下一个状态，a' 是选择的最优动作，Action-value 以及 Value function 是按照如下的方式进行计算的：

总体的算法过程如下所示：

Deep Reinforcement Learning with Iterative Shift for Visual Tracking的更多相关文章

论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...
(转) Deep Reinforcement Learning: Pong from Pixels
Andrej Karpathy blog About Hacker's guide to Neural Networks Deep Reinforcement Learning: Pong from ...
(zhuan) Deep Reinforcement Learning Papers
Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. Th ...
getting started with building a ROS simulation platform for Deep Reinforcement Learning
Apparently, this ongoing work is to make a preparation for futural research on Deep Reinforcement Le ...
论文笔记之：Asynchronous Methods for Deep Reinforcement Learning
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很 ...
18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
Paper Reading 1 - Playing Atari with Deep Reinforcement Learning
来源:NIPS 2013 作者:DeepMind 理解基础: 增强学习基本知识深度学习特别是卷积神经网络的基本知识创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控 ...
repost: Deep Reinforcement Learning
From: http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/ accessed 2016-03-10 深度 ...

随机推荐

AppDir【创建缓存目录】【建议使用这个工具类】
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言创建缓存目录 public static String APP_CACHE = "";// /storage/e ...
idea忽略并隐藏.idea文件夹.iml文件不提交到svn
File-->setting-->Editor-->File Types 选中.boringignore,添加*.iml;.idea;即可
使用ABAP操作Excel的几种方法
这篇文章本来不在我计划之内,因为最近一个朋友微信上问到我这个问题,但我平时在SAP研究院工作中从没遇到过需要用ABAP操作Excel的需求,因此也没有太多技术实现细节可以分享给大家,只能泛泛写一些. ...
Maven整合eclipse
1.配置eclipse本地Maven 点击Window-->Perference 选择Maven-->Installations 点击Add添加本地Maven 然后勾选本地Maven, ...
Mybatis环境搭建：自学随笔
环境:IDEA MySQL 1.建立maven工程,导入坐标:编辑pom.xml,建立mybatis约束. 在https://mybatis.org/mybatis-3/zh/getting-sta ...
php框架路由美化后提示No input file specified
此问题出现在.htaccess上 Apache按如下代码修改即可: RewriteEngine on RewriteCond %{REQUEST_FILENAME} !-d RewriteCond % ...
【转】移植vsftpd到arm linux
vsftpd即very secure FTP daemon(非常安全的FTP进程),是一个基于GPL发布的类UNIX类操作系统上运行的服务器的名字(是一种守护进程),可以运行在诸如Linux.BSD. ...
meibu ddns update command
http://main.meibu.com/ip/login.asp?name=[USERNAME]&pwd=[PASSWORD]
Python包模块化调用方式详解
Python包模块化调用方式详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一般来说,编程语言中,库.包.模块是同一种概念,是代码组织方式. Python中只有一种模块对象类型 ...
Cisco网络模拟器踩坑记录
1.在我们新建一个拓扑图的时候,选择设备之间的连线种类有时会导致线路不通的情况(两个端口上为红色点)这时候建议拆除这条线后选择闪电标记的万能线帮助我们自动创建连线(这时就能根据它显示的线条种类得知应 ...

Deep Reinforcement Learning with Iterative Shift for Visual Tracking

Deep Reinforcement Learning with Iterative Shift for Visual Tracking的更多相关文章

随机推荐

热门专题