Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

AHU-WangXiao 2024-10-27 10:46:58 原文

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

arXiv

　　摘要：本文提出了一种 DRL 算法进行单目标跟踪，算是单目标跟踪中比较早的应用强化学习算法的一个工作。

　在基于深度学习的方法中，想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的。

　尽管最近的 CNN based tracker 也取得了不错的效果，但是，其性能局限于：

　　1. Learning robust tracking features ；

　　2. maximizing long-term tracking performance ---->>> without taking coherency and correlation into account.

　　

　　本文的创新点在于：

　　1. 提出一种 convolutional recurrent neural network model, 可以学习到单帧图像的空间表示以及多帧图像之间的时序上的表示；

　　　得到的特征可以更好的捕获 temporal information，并且可以直接应用到跟踪问题上；

　　2. 我们的框架是端到端的进行训练的 deep RL algorithm，模型的目标是最大化跟踪性能；

　　3. 模型完全是 off-line的；

　　

　　

　　Tracking Framework ：

　　

　　

　　本文提出的 Deep RL 算法框架，由三个部分构成：

　　1 CNN 特征提取部分；

　　2 RNN 历史信息构建部分；

　　3 DEEP RL 模块

　　前两个部分没什么要说的，就是简单的 CNN, LSTM 结构。

　　第三个 RL 部分：

　　说到底，这个文章是在之前 attention model based Tracker ICLR 2016 年的一个文章基础上做的。

　　RL 部分就是没有变换，直接挪过来的。

　　状态，是跟踪视频的 frame ；

　　动作，是多变量高斯分布得到的 predicted location；

　　奖励，是 scalar reward signal, 定义为：$r_t = -avg(l_t - g_t) - max(l_t - g_t)$ ，lt 是RL单元的输出，gt 是时刻 t 的 gt ；

　　　　　avg() 是给定矩阵的 mean value； max() 是计算给定元素的最大值。

　　

　　训练的目标是最大化奖励信号 R。

　　

　　学习的目标函数为：

　　

　　其中，p(z1:T; W) 是可能交互的分布，参数化为 W （the distribution over possible interactions parameterized by W）.

　　

　　上述函数涉及到 an expectation over high-dimensional interactions，以传统的监督方法来解决是非常困难的。

　　利用 RL 领域中的 REINFORCE algorithm 进行近似求解。

　　

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记的更多相关文章

Online Object Tracking: A Benchmark 论文笔记（转）
转自:http://blog.csdn.net/lanbing510/article/details/40411877 有博主翻译了这篇论文:http://blog.csdn.net/roamer_n ...
Online Object Tracking: A Benchmark 论文笔记
Factors that affect the performance of a tracing algorithm 1 Illumination variation 2 Occlusion 3 Ba ...
论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
Deep Reinforcement Learning with Iterative Shift for Visual Tracking
Deep Reinforcement Learning with Iterative Shift for Visual Tracking 2019-07-30 14:55:31 Paper: http ...
论文笔记之：Active Object Localization with Deep Reinforcement Learning
Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算 ...
论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning
Hierarchical Object Detection with Deep Reinforcement Learning NIPS 2016 WorkShop Paper : https://a ...
getting started with building a ROS simulation platform for Deep Reinforcement Learning
Apparently, this ongoing work is to make a preparation for futural research on Deep Reinforcement Le ...
Paper Reading 1 - Playing Atari with Deep Reinforcement Learning
来源:NIPS 2013 作者:DeepMind 理解基础: 增强学习基本知识深度学习特别是卷积神经网络的基本知识创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控 ...
(zhuan) Deep Reinforcement Learning Papers
Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. Th ...

随机推荐

Java基础语法（一）
一.关键字关键字概述被Java语言赋予特定含义的单词关键字特点组成关键字的字母全部小写关键字注意事项 goto和const作为保留字存在,目前并不使用关键字单词用于定义数据类型的关键字 ...
Spring源码阅读（五）
这一讲我们分析真正的bean实例创建方法——doCreateBean,源码分析如下 /** * Actually create the specified bean. Pre-creation pro ...
Codeforce 733B - Parade （枚举）
Very soon there will be a parade of victory over alien invaders in Berland. Unfortunately, all soldi ...
51Nod 1433 0和5
小K手中有n张牌,每张牌上有一个一位数的数,这个字数不是0就是5.小K从这些牌在抽出任意张(不能抽0张),排成一行这样就组成了一个数.使得这个数尽可能大,而且可以被90整除. 注意: 1.这个数没有前 ...
how to backup your system of Autel MS908 Pro
how to backup your system of Autel Scan Tool Autel MS908 Pro: Connect the tablet to a PC desktop or ...
怎样从外网访问内网Zeus？
本地安装了一个Zeus,只能在局域网内访问,怎样从外网也能访问到本地的Zeus呢?本文将介绍具体的实现步骤. 准备工作安装并启动Zeus 默认安装的Zeus端口是9090. 实现步骤下载并解压ho ...
ltp makefile 解析
困惑于 /include/mk/automake.mk中出现了第一个目标而makefile却任然将all当做最终目标测试了一番后发觉: ifeq ($(MAKE_3_80_COMPAT),1)# ...
git学习总结 - 纯命令
全局安装git: npm intall git -g 查看git版本: git --version 进入目录,初始化git: 若在目录中使用上一个,不在目录中使用下一个. //已有目录: git in ...
PYTHON 对SQLITE3的简单使用
SQLite是一种嵌入式数据库,它的数据库就是一个文件.由于SQLite本身是C写的,而且体积很小,所以,经常被集成到各种应用程序中,甚至在iOS和Android的App中都可以集成.Python就内 ...
Golang的值类型和引用类型的范围、存储区域、区别
常见的值类型和引用类型分别有哪些? 值类型:基本数据类型 int 系列, float 系列, bool, string .数组和结构体struct,使用这些类型的变量直接指向存在内存中的值,值类型的变 ...