【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios

论文的三个贡献

（1）提出了two-stream结构的CNN，由空间和时间两个维度的网络组成。

（2）使用多帧的密集光流场作为训练输入，可以提取动作的信息。

（3）利用了多任务训练的方法把两个数据集联合起来。

Two stream结构

视屏可以分成空间与时间两个部分，空间部分指独立帧的表面信息，关于物体、场景等；而时间部分信息指帧间的光流，携带着帧之间的运动信息。相应的，所提出的网络结构由两个深度网络组成，分别处理时间与空间的维度。

可以看到，每个深度网络都会输出一个softmax层，最后会通过一种方法把两个softmax层的输出融合：一种是平均层，一种是训练一个以这些softmax输出作为特征的SVM。

空间卷积网络

网络的输入是单帧，这样的分类网络其实有很多，例如AlexNext，GoogLeNet等，可以现在imageNet上预训练，再进行参数迁移。

光流场卷积网络（时间维度网络）

光流场卷积网络的输入是 stacking optical flow displacement fields between several consecutive frames（不会翻译……），就是多层两帧间的光流场，可以从上图看出。因为光流场可以描述物体的运动信息。

简单光流场叠加

方法是计算每两帧间的光流，简单地叠加在一起。假设需要追踪L+1帧（会产生L帧的光流），那么会把光流分解成X，Y两个方向的光流，这时会有2L个通道。

轨迹追踪光流叠加

假设一帧的像素点，可以通过光流来追踪它在视频中的轨迹点，从而计算它在每一帧的相应位置的光流向量。同样的会把光流分解成X，Y两个方向的光流，这时会有2L个通道。

对于这种方法，我想到DT的论文中谈到的一个问题就是：像素点的“漂移”，这很可能会出现在追踪多帧之后。猜想的是，这个L帧应该不是指训练视频的所有帧，这种方法可以很好地区分出前景和背景。

减去平均光流

这主要是为了消去摄像头运动引起的相对运动。

多任务训练

对于空间卷积网络，因为它输入的只是图像，而且只是一个分类网络，它有大量的数据集可供预训练，这是为了应对过拟合的问题。

但是对于时间卷积网络，可供训练的视频集很少。作者使用多任务训练的方法，提供两个softmax输出层，但网络只有一个。论文的依据是，提供两个softmax输出层相当于正则化的过程。这样融合两个数据集对网络进行训练时，其中一个softmax层对其中一个数据集的视频进行分类，另一个softmax层对另一个数据集进行分类，在最后BP算法时，把两个softmax层的输出加和，作为总的误差执行BP算法更新网络的权值。

一些细节问题

1、计算光流是预处理后保存的，因为这会影响网络的速度。

2、测试时，对于一个输入视频，随机抽样固定数的帧，它们的时间维度间隔是一样的。对于每帧，又计算它的光流场叠加。而每一帧又会在不同的位置采样，对于一个视频的误差，就是总的误差的平均。

【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios的更多相关文章

【CV论文阅读】Dynamic image networks for action recognition
论文的重点在于后面approximation部分. 在<Rank Pooling>的论文中提到,可以通过训练RankSVM获得参数向量d,来作为视频帧序列的representation.而 ...
【ML】Two-Stream Convolutional Networks for Action Recognition in Videos
Two-Stream Convolutional Networks for Action Recognition in Videos & Towards Good Practices for ...
目标检测论文阅读：Deformable Convolutional Networks
https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformab ...
[论文阅读]VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION(VGGNet)
VGGNet由牛津大学的视觉几何组(Visual Geometry Group)提出,是ILSVRC-2014中定位任务第一名和分类任务第二名.本文的主要贡献点就是使用小的卷积核(3x3)来增加网络的 ...
VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zi ...
SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
http://www.dengfanxin.cn/?p=403 原文地址我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加 ...
深度学习论文翻译解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神 ...
论文阅读 | FCOS: Fully Convolutional One-Stage Object Detection
论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述目前anchor-free大热,从DenseBoxes到CornerNet. ...
图像处理论文详解 | Deformable Convolutional Networks | CVPR | 2017
文章转自同一作者的微信公众号:[机器学习炼丹术] 论文名称:"Deformable Convolutional Networks" 论文链接:https://arxiv.org/a ...

随机推荐

263 Ugly Number 丑数
编写程序判断给定的数是否为丑数.丑数就是只包含质因子 2, 3, 5 的正整数.例如, 6, 8 是丑数,而 14 不是,因为它包含了另外一个质因子 7.注意: 1 也可以被当做丑数. 输 ...
P2668 斗地主贪心+深搜
题目描述牛牛最近迷上了一种叫斗地主的扑克游戏.斗地主是一种使用黑桃.红心.梅花.方片的A到K加上大小王的共54张牌来进行的扑克牌游戏.在斗地主中,牌的大小关系根据牌的数码表示如下:3<4< ...
前端--3、JavaScript
引入方式: 直接在HTML中写入(了解) 写到文件中引入声明变量变量赋值方式单个变量赋值多变量的变量赋值数据类型数字and字符串 boolean undefined 数据类型的存储数组 ...
Ubuntu 16.04安装Kate文本编辑工具
Kate支持很多语言,比如NASM,比SBL3低那么一点,但是比Gedit好. 安装: sudo apt-get install kate 启动: 额外配置: 1.安装Kwrite sudo apt- ...
C++（Typedef声明）
typedef 声明: 使用 typedef 为一个已有的类型取一个新的名字.下面是使用 typedef 定义一个新类型的语法: typedef type newname; 例如,下面的语句会告诉编译 ...
一次“MySQL server has gone away”故障及其解决
1,问题现象某次测试发现,程序失去响应.由于程序集成了EurekaLog组件,弹出了错误框.查看其给出的Call Stack信息,发现没有发生线程死锁(DeadLock=0;),问题在于 Wait ...
[Windows Server 2012] SQL Server 备份和还原方法
★ 欢迎来到[护卫神·V课堂],网站地址:http://v.huweishen.com ★ 护卫神·V课堂是护卫神旗下专业提供服务器教学视频的网站,每周更新视频. ★ 本节我们将带领大家:SQL S ...
javascript入门经典（第五版）-清华出版社之“经典”错误
学校教材太烂,于是自己买书. 果然是入门经典,开篇就把我惊着了~ 第九页≯1.4/ch1_example2.html / <script> //script block 2 documen ...
Clickhouse DDL&DML
(1)添加列: alter table [db.]table_name add column column_name [type] [default_expr] [after name_after] ...
CAD得到所有组名（网页版）
主要用到函数说明: _DMxDrawX::GetAllGroupName 得到所有组名. js代码实现如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ...

【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios

【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios的更多相关文章

随机推荐

热门专题