论文笔记之：Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking

Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking

arXiv Paper

　　Project Page：http://guanghan.info/projects/ROLO/

　　GitHub：https://github.com/wangxiao5791509/ROLO　　

　　摘要：本文提出了一种新的方法进行空间监督 RCNN 来进行目标跟踪。我们通过深度神经网络来学习到 locations 的历史信息和具有判别性的视觉特征。收到最近的 bbox 回归技术的启发，本文研究了 LSTM 在时间领域的回归能力，可以连接高层视觉特征。跟现有的跟踪算法训练二分类器不同，我们在卷积层和 recurrent unit 两个方面利用回归直接得到跟踪位置的预测。

　　由于受到各种跟踪问题的挑战，许多 tracker 都是采用产生式或者判别式的方法来区分前景或者背景，也就是将跟踪看做是一个二分类问题。一个主要的缺点在于：严重依赖于手工设计的feature，无法结合物体的语义信息（semantic information），对于突然的形变并不具有鲁棒性。所以，随着深度学习的火爆，越来愈多的 tracker 开始采用深度feature。但是，在时序上的探索，几乎还没有。

　　本文的关键动机是：tracking failures can often be effectively recovered by learning from historical visual semantic and tracking proposals.

　　算法流程：

　　如上图所示：算法的输入是 video frame，第一个框架是 YOLO，然后是 LSTM 单元，最终输出的是 target 的 location。

　　然后文章介绍了 LSTM 和 YOLO 的相关背景知识，此处略去，详情请参考相关文章。

　　本文提出的 tracker 的示意图，如下所示：

　　网络的训练分为三个阶段：

　　1. the pre-trained phrase of convolutional layers for feature learning; 卷积层的预训练，以提取 feature

　　2. the traditional YOLO training phase for object proposal 　　　　　　训练 YOLO 以产生 proposal

　　3. the LSTM training phase for object tracking. 　　　　　　　　　　　　训练 LSTM 进行跟踪

实验效果展示：

论文笔记之：Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking的更多相关文章

论文笔记之：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
Learning Multi-Domain Convolutional Neural Networks for Visual Tracking CVPR 2016 本文提出了一种新的CNN 框架来处理 ...
【论文笔记】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition
地址:https://arxiv.org/pdf/2006.11538.pdf github:https://github.com/iduta/pyconv 目前的卷积神经网络普遍使用3×3的卷积神经 ...
论文阅读：MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
前言 CVPR2016 来自Korea的POSTECH这个团队大部分算法(例如HCF, DeepLMCF)只是用在大量数据上训练好的(pretrain)的一些网络如VGG作为特征提取器,这些做法 ...
AlexNet论文翻译-ImageNet Classification with Deep Convolutional Neural Networks
ImageNet Classification with Deep Convolutional Neural Networks 深度卷积神经网络的ImageNet分类 Alex Krizhevsky ...
tensorfolw配置过程中遇到的一些问题及其解决过程的记录（配置SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving）
今天看到一篇关于检测的论文<SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real- ...
卷积神经网络用于视觉识别Convolutional Neural Networks for Visual Recognition
Table of Contents: Architecture Overview ConvNet Layers Convolutional Layer Pooling Layer Normalizat ...
Convolutional Neural Networks for Visual Recognition
http://cs231n.github.io/ 里面有很多相当好的文章 http://cs231n.github.io/convolutional-networks/ Table of Cont ...
Convolutional Neural Networks for Visual Recognition 8
Convolutional Neural Networks (CNNs / ConvNets) 前面做了如此漫长的铺垫,现在终于来到了课程的重点.Convolutional Neural Networ ...
Convolutional Neural Networks for Visual Recognition 5
Setting up the data and the model 前面我们介绍了一个神经元的模型,通过一个激励函数将高维的输入域权值的点积转化为一个单一的输出,而神经网络就是将神经元排列到每一层,形 ...

随机推荐

getSingleResult 和 selectone
都是返回一个对象,如果找到一个以上的对象会报错,这个在登录验证和添加的时候可能会有点小用,因为登录和添加的时候都要判断是不是数据库有这个username,登录的时候希望有,添加的时候希望没有,但是两者 ...
iis提示“另一个程序正在使用此文件，进程无法访问。（异常来自HRESULT:0x80070020)
看看IIS的网站,惊人的发现default web site是停止状态.印象中没有停止它啊.右键->管理网站->启动.点击启动后居然弹出:“另一个程序正在使用此文件,进程无法访问.(异常来 ...
MongoDB 查询 (转) 仅限于C++开发
1.find MongoDB使用find来进行查询.查询就是返回一个集合中文档的子集,子集合的范围从0个文档到整个集合.find的第一个参数决定了要返回哪些文档.其形式也是一个文档,说明要查询的细节 ...
理解NSTypesetter 和 NSATSTypesetter
先说通常意义上的typeset(排字.排版),然后再说NSTypesetter 和 NSATSTypesetter,最后是它们的区别. Typesetting is the composition o ...
UVALive 4682 XOR Sum （trie）
题意:求一段连续的数字使得它们的异或和最大. 思路:首先利用前缀和求sum[i],这样求某段连续数字异或和最大就是求某两个j和i满足sum[i]^sum[j-1]最大,问题就变成了找两个数的异或最大. ...
UVa 11020 Efficient Solutions（平衡二叉树/multiset ）
题意:有n个人,每个人有x.y两个属性,每次输入一个人(x,y).如果当前不存在一个人(x`,y`)的属性满足x`<=x,y`<y或者x`<x,y`<=y,就说这个人是有优势的 ...
Ubuntu 14.10 下CPU实时监控mpstat命令详解
简介 mpstat是Multiprocessor Statistics的缩写,是实时系统监控工具.其报告与CPU的一些统计信息,这些信息存放在/proc/stat文件中.在多CPUs系统里,其不但能查 ...
Cookies和Session的区别
原文:http://www.cnblogs.com/lijihong/p/4743818.html 今天主要学习了Cookies和Session,网络上关于这方面的知识可谓很多,让人眼花缭乱,在此作一 ...
iOS开发之吸附动画效果
步骤:1.使用singleviewapplication创建新的项目 2.在.h文件中创建两张图片的实例对象,并与相关的图片进行相连:创建一个UIDynamicAnimator实例对象 3.在.m文件 ...
Objective-C语言介绍、 Objc与C语言、面向对象编程、类和对象、属性和方法、属性和实例变量
1 第一个OC控制台程序 1.1 问题 Xcode是苹果公司向开发人员提供的集成开发环境(非开源),用于开发Mac OS X,iOS的应用程序.其运行于苹果公司的Mac操作系统下. 本案例要求使用集成 ...

论文笔记之：Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking

论文笔记之：Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking的更多相关文章

随机推荐

热门专题