Temporal Segment Networks

摘要

解决问题

用CNN框架有效提取video长时序特征
在UCF101等训练集受限的情况下训练网络

贡献

TSN网络，基于长时间时序结构模型。稀疏时序采样策略，视频层监督有效学习整个视频。
HMDB51（69.4%），UCF101（94.2%）

介绍

动作识别有两个重要和补充的方面

appearance和dynamic
是否有效提取了特征并充分利用了相关信息
难点：image classification的难点。提取有效特征避开这些challenge并保留分类信息

CNN的局限

CNN网络关注于appearance和短时的motion，缺少处理长时间结构的能力
目前密集间隔采样CNN方法尝试处理video

长时间视频的计算量大，不能实时应用
由于网络固定帧数的限制，视频过长会丢失重要信息
需要大量的训练集，然而目前公开数据集在大小和多样性上受限很大，过拟合的风险

在双流的基础上采用稀疏采样：k=7或9更好，不是论文中的3

连续帧有高度的冗余性相似性，密集采样是不需要的
省时，省计算
不受帧长限制可以学习整个视频

数据处理

多种输入形式预训练：单一rgb，叠加rgb，叠加光流场，叠加形变光流场
正则化
数据增强

CNN for Action Recognition

深度CNN Karpathy
双流网络 appearance + motion 缺点：单帧，短时间多帧，复杂运动及跨时间多阶段动作很难处理
C3D Tran
64-120固定帧，对长时序视频建模（受限于固定长度的帧，不能处理过长的整个视频，提取全局信息）

时序结构模型

ASM 标注视频的原子动作
隐变量做复杂动作的时域分解，迭代方法隐SVM学习模型参数
LHM SGM 分层模型和分割模型
SSM 序列骨架模型
bag of visual words 视觉词袋模型
（都不是端到端的模型）

BN-Inception 结合双流网络
- TSN在双流上改进
对一个视频，切分为K 个等长片段 {S1, S2, · · · , SK}，从每一个片段中随机抽取一个短的snippet，过双流，不同snippet的分类得分通过片段聚合函数聚合成最后的视频分类的得分，双流融合产生最后的结果
T表示不同snippet，F表示CNN双流提特征，G是融合函数，H是softmax
Loss：，标准类别交叉熵损失
聚合函数
- 平均 (最好) 对所有snippet的属于同一类别的得分做个均值
- 取最大
- 加权平均

提特征的参数W的导数可以看出，tsn网络的是从视频整体进行参数学习，不是针对特定某个短的snippet。　

网络结构：

　　 BN-Inception作为双流的基础结构，RGB：一张rgb图，光流：堆叠的光流场

几种策略减少训练时过拟合

1 跨模态pretrain:

rgb直接用imageNet就好，光流的数据分布明显不同，不能直接用rgb model pretrain optical flow model.

先线性变换，将光流离散化为0-255，修改第一个卷积层的权重，rgb通道的权重取平均后沿着光流通道数复制，从而初始化光流网络。

2 partial BN正则化:

bn，估计batch数据中的均值和方差，从而将激活值转化为标准化正太分布，加速模型收敛，由于数据量的原因可能导致过拟合，所以实验采用，除了第一层， freeze 其他层 BN 中的 mean 和 variance 参数。

在全局池化后面加了dropout

3 数据增广

random cropping, horizontal flipping

New: corner cropping and scalejittering

　　　　4 corners and 1 center 防止过于关注图片中心区域。

　　　　先将rgb或光流resize到256×340，长宽在{256, 224, 192, 168}中随机选，crop后resize到224 × 224，送入网络训练

修改版Caffe和OpenMPI，多卡并行加速训练，4块TITANX，训练时间UCF101 is around 2 hours for spatial TSNs and 9 hours for temporal TSNs。

Temporal Segment Networks的更多相关文章

TSN(Temporal Segment Networks)
一.算法详解二.代码解析(pytorch版) 训练代码:https://blog.csdn.net/u014380165/article/details/79058147 测试代码:https:// ...
论文阅读 Predicting Dynamic Embedding Trajectory in Temporal Interaction Networks
6 Predicting Dynamic Embedding Trajectory in Temporal Interaction Networks link:https://arxiv.org/ab ...
论文阅读 A Data-Driven Graph Generative Model for Temporal Interaction Networks
13 A Data-Driven Graph Generative Model for Temporal Interaction Networks link:https://scholar.googl ...
论文阅读 TEMPORAL GRAPH NETWORKS FOR DEEP LEARNING ON DYNAMIC GRAPHS
14 TEMPORAL GRAPH NETWORKS FOR DEEP LEARNING ON DYNAMIC GRAPHS link:https://scholar.google.com.hk/sc ...
Temporal Action Detection with Structured Segment Networks (ssn)【转】
Action Recognition: 行为识别,视频分类,数据集为剪辑过的动作视频 Temporal Action Detection: 从未剪辑的视频,定位动作发生的区间,起始帧和终止帧并预测类别 ...
论文阅读-Clustering temporal disease networks to assist clinical decision support systems in visual analytics of comorbidity progression
一.问题描述: 二.相关工作: 三.方法描述: 四.实验及结果
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition (ST-GCN)
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 摘要动态人体骨架模型带有进行动 ...
Two-stream双流总结
1.2014.Two-stream convolutional networks for action recognition in videos 两个流:空间流做single frame,时间流做m ...
Paper Mark
BigCowPeking的CSDN博客 https://blog.csdn.net/wfei101/article/category/7120809 Low Rank Structure of Lea ...

随机推荐

第六章 MVC之 FileResult和JS请求二进制流文件
一.FileResult 1.简介表示一个用于将二进制文件内容发送到响应的基类.它有三个子类: FileContentResultFilePathResultFileStreamResult 推荐阅 ...
python操作三大主流数据库(12)python操作redis的api框架redis-py简单使用
python操作三大主流数据库(12)python操作redis的api框架redis-py简单使用 redispy安装安装及简单使用:https://github.com/andymccurdy/r ...
most asked interview questions for C/C++
1. compared to prefix ++, postfix increment needs one more step to create a temporary variable? w ...
CF D. One-Dimensional Battle Ships
一个set水 + 区间判断个数问题.... #include<iostream> #include<cstdio> #include<cstring> #inclu ...
[MySQL]子语句的查询技巧
一.统计group by语句的行数 group by语句中,如果包含字段统计函数(诸如:count(),sum()...),这种情况下统计函数只会作用于group by的字段,因此想拿到最终结果的行数 ...
Android广播机制
原文出处: Android总结篇系列:Android广播机制 1.Android广播机制概述 Android广播分为两个方面:广播发送者和广播接收者,通常情况下,BroadcastReceiver指的 ...
Hbase理论&&hbase shell&&python操作hbase&&python通过mapreduce操作hbase
一.Hbase搭建: 二.理论知识介绍: 1Hbase介绍: Hbase是分布式.面向列的开源数据库(其实准确的说是面向列族).HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hb ...
Java中数据类型默认转换和强制类型转换
默认转换: a:由低到高一次为:(byte short char )---int ---long ---float --- double b:注意:byte short char ...
Java 的 Api 文档生成工具 JApiDocs 程序文档工具
JApiDocs 详细介绍简介 JApiDocs 是一个符合 Java 编程习惯的 Api 文档生成工具.最大程度地利用 Java 的语法特性,你只管用心设计好接口,添加必要的注释,JApiDocs ...
Go 开源博客平台 Pipe 1.0.0 发布！
这是 Pipe 博客平台的第一个正式版,欢迎大家使用和反馈建议! 简介 Pipe 是一款小而美的开源博客平台,通过黑客派账号登录即可使用. 动机产品层面: 市面上缺乏支持多独立博客的平台级系统实现 ...

Temporal Segment Networks

Temporal Segment Networks的更多相关文章

随机推荐

热门专题