• 摘要

    • 解决问题

      • 用CNN框架有效提取video长时序特征

      • 在UCF101等训练集受限的情况下训练网络

    • 贡献

      • TSN网络,基于长时间时序结构模型。稀疏时序采样策略,视频层监督有效学习整个视频。

      • HMDB51(69.4%),UCF101(94.2%)

  • 介绍

    • 动作识别有两个重要和补充的方面

      • appearance和dynamic

      • 是否有效提取了特征并充分利用了相关信息

      • 难点:image classification的难点。提取有效特征避开这些challenge并保留分类信息

    • CNN的局限

      • CNN网络关注于appearance和短时的motion,缺少处理长时间结构的能力

      • 目前密集间隔采样CNN方法尝试处理video

        • 长时间视频的计算量大,不能实时应用

        • 由于网络固定帧数的限制,视频过长会丢失重要信息

        • 需要大量的训练集,然而目前公开数据集在大小和多样性上受限很大,过拟合的风险

    • TSN

      • 在双流的基础上采用稀疏采样:k=7或9更好,不是论文中的3

        • 连续帧有高度的冗余性相似性,密集采样是不需要的

        • 省时,省计算

        • 不受帧长限制可以学习整个视频

      • 数据处理

        • 多种输入形式预训练:单一rgb,叠加rgb,叠加光流场,叠加形变光流场

        • 正则化

        • 数据增强

    • CNN for Action Recognition

      • 深度CNN   Karpathy

      • 双流网络 appearance + motion 缺点:单帧,短时间多帧,复杂运动及跨时间多阶段动作很难处理

      • C3D   Tran

      • 64-120固定帧,对长时序视频建模(受限于固定长度的帧,不能处理过长的整个视频,提取全局信息)
    • 时序结构模型

      • ASM 标注视频的原子动作

      • 隐变量做复杂动作的时域分解,迭代方法隐SVM学习模型参数

      • LHM SGM 分层模型和分割模型

      • SSM 序列骨架模型

      • bag of visual words 视觉词袋模型

      • (都不是端到端的模型)

  • BN-Inception 结合 双流网络

    • TSN在双流上改进

      • 双流的缺陷:空域-RGB单帧,时域-短的snippet堆叠帧的输入使得

        • 无法处理长时序结构
        • 复杂运动及跨时间多阶段动作很难处理
  • 对一个视频,切分为K 个等长片段 {S1, S2, · · · , SK},从每一个片段中随机抽取一个短的snippet,过双流,不同snippet的分类得分通过片段聚合函数聚合成最后的视频分类的得分,双流融合产生最后的结果

  • T表示不同snippet,F表示CNN双流提特征,G是融合函数,H是softmax

  • Loss:,标准类别交叉熵损失
  • 聚合函数
    • 平均 (最好) 对所有snippet的属于同一类别的得分做个均值
    • 取最大
    • 加权平均

提特征的参数W的导数可以看出,tsn网络的是从视频整体进行参数学习,不是针对特定某个短的snippet。 

网络结构:

   BN-Inception作为双流的基础结构,RGB:一张rgb图,光流:堆叠的光流场

几种策略减少训练时过拟合

1  跨模态pretrain:

rgb直接用imageNet就好,光流的数据分布明显不同,不能直接用rgb model pretrain optical flow model.

先线性变换,将光流离散化为0-255,修改第一个卷积层的权重,rgb通道的权重取平均后沿着光流通道数复制,从而初始化光流网络。

2 partial BN正则化:

bn,估计batch数据中的均值和方差,从而将激活值转化为标准化正太分布,加速模型收敛,由于数据量的原因可能导致过拟合,所以实验采用,除了第一层, freeze 其他层 BN 中的 mean 和 variance 参数。

在全局池化后面加了dropout

3 数据增广

random cropping, horizontal flipping

New:  corner cropping and scalejittering

    4 corners and 1 center 防止过于关注图片中心区域。

    先将rgb或光流resize到256×340,长宽在{256, 224, 192, 168}中随机选,crop后resize到224 × 224,送入网络训练

修改版Caffe和OpenMPI,多卡并行加速训练,4块TITANX,训练时间UCF101 is around 2 hours for spatial TSNs and 9 hours for temporal TSNs。

Temporal Segment Networks的更多相关文章

  1. TSN(Temporal Segment Networks)

    一.算法详解 二.代码解析(pytorch版) 训练代码:https://blog.csdn.net/u014380165/article/details/79058147 测试代码:https:// ...

  2. 论文阅读 Predicting Dynamic Embedding Trajectory in Temporal Interaction Networks

    6 Predicting Dynamic Embedding Trajectory in Temporal Interaction Networks link:https://arxiv.org/ab ...

  3. 论文阅读 A Data-Driven Graph Generative Model for Temporal Interaction Networks

    13 A Data-Driven Graph Generative Model for Temporal Interaction Networks link:https://scholar.googl ...

  4. 论文阅读 TEMPORAL GRAPH NETWORKS FOR DEEP LEARNING ON DYNAMIC GRAPHS

    14 TEMPORAL GRAPH NETWORKS FOR DEEP LEARNING ON DYNAMIC GRAPHS link:https://scholar.google.com.hk/sc ...

  5. Temporal Action Detection with Structured Segment Networks (ssn)【转】

    Action Recognition: 行为识别,视频分类,数据集为剪辑过的动作视频 Temporal Action Detection: 从未剪辑的视频,定位动作发生的区间,起始帧和终止帧并预测类别 ...

  6. 论文阅读-Clustering temporal disease networks to assist clinical decision support systems in visual analytics of comorbidity progression

    一.问题描述:      二.相关工作: 三.方法描述: 四.实验及结果

  7. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition (ST-GCN)

    Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 摘要 动态人体骨架模型带有进行动 ...

  8. Two-stream双流总结

    1.2014.Two-stream convolutional networks for action recognition in videos 两个流:空间流做single frame,时间流做m ...

  9. Paper Mark

    BigCowPeking的CSDN博客 https://blog.csdn.net/wfei101/article/category/7120809 Low Rank Structure of Lea ...

随机推荐

  1. ES6学习笔记七Generator、Decorators

    Generator异步处理 { // genertaor基本定义,next()一步步执行 let tell=function* (){ yield 'a'; yield 'b'; return 'c' ...

  2. python3+selenium入门15-执行JavaScript

    有时有些功能需要通过js来执行,比如拖动浏览器的滚动条.通过execute_script()方法可以执行js的代码 window.scrollTo()可以传两个参数,第一个参数是下方滚动条的位置,第二 ...

  3. Python调用subprocess.Popen卡死的解决方案

    转载自:https://www.cnblogs.com/keke-xiaoxiami/p/7875009.html 在Python中,调用:subprocess.Popen(cmd, stdout = ...

  4. translate.py

    #!/usr/bin/python # -*- coding: UTF-8 -*- import xlrd import xlwt from xlutils.copy import copy impo ...

  5. ansible笔记(5):常用模块之文件操作(二)

    ansible笔记():常用模块之文件操作(二) 文件操作类模块 find模块 find模块可以帮助我们在远程主机中查找符合条件的文件,就像find命令一样. 此处我们介绍一些find模块的常用参数, ...

  6. mysql5.6基于主从复制的mmm高可用架构详解

    MMM规划192.168.3.12 master192.168.3.13 slave1192.168.3.198 slave2 MMM部署步骤1.配置主主复制及主从同步集群2.安装主从节点所需要的支持 ...

  7. Linux虚拟串口

    将下列Python代码保存成VitrualCom.py: Code#! /usr/bin/env python #coding=utf-8 import pty import os import se ...

  8. [转]GitHub上优秀的Go开源项目

    转载于GitHub上优秀的Go开源项目 正文 近一年来,学习和研究Go语言,断断续续的收集了一些比较优秀的开源项目,这些项目都非常不错,可以供我们学习和研究Go用,从中可以学到很多关于Go的使用.技巧 ...

  9. CDH hive metastore启动报错:Unknown column 'A0.SCHEMA_VERSION_V2' in 'field list'

    新集群CDH版本,刚刚搭建起来,5个节点起了1个hive服务,另外5个节点又单独起了1个hive服务,一共2个人hive服务.老哥对其中的一个hive进行了数据迁移,对hive数据库进行了替换,就这样 ...

  10. a标签的4种状态及设置CSS

    a:link 超链接的默认样式 a:visited 访问过的(已经看过的)链接样式 a:hover 鼠标处于鼠标悬停状态的链接样式 a:active 当鼠标左键按下时,被激活(就是鼠标按下去那一瞬间) ...