Motivation:减少时空网络的计算量,保持视频分类精度的基础上,使速度尽可能接近对应网络的2D版本。

为此提出 Multi-Fiber 网络,将复杂网络拆分成轻量网络的集成,利用 fibers 间的信息流引入多路器模块。

Result:比I3D和R(2+1)D分别少9倍,13倍的计算量,但精度更高,UCF-101, HMDB-51 and Kinetics 上的 state of the art。

2D网络需要10s GFLOP来处理单帧,3D网络需要100s GFLOP处理一个clip,作者认为3D网络有能力进一步提高因为融入了时空信息。

3D卷积开销很大,与Du tran和Xie Saining提出的R(2+1)D和S3D用1x3x3, 3x1x1时空分解卷积替代3x3x3这种做法不同,因为相对其2D版本仍有数量级的复杂度,以上两种方法很难在实际应用,受low-power MobileNet-v2网络的启发以及通过分组卷积稀疏化做法的启发,作者提出稀疏连接结构,并在2D CNN图片分类上实验确认结构的有效性,后扩展为时空CNN。

(a) resnet block (b) resNeXt block (c) fibers(author) (d) 加入multiplexer 传递不同fiber间信息 (e) 两个线性层降维和升维

resNeXt的中间模块对通道分组后分别用3x3卷积,bottleneck结构+分组卷积会很大程度降低计算量。d中可以看出去除了对整个通道的1x1卷积(全连接),引入了multiplexer层弥补信息损失,将主干feature的channel全部分组后,平行的残差计算,其中每一个分支称为(fiber)

resnet两个conv的简化连接数计算,其中Min表示输入channel,Mmid,Mout等同:

如果这个运算单元channel的维数增加k倍,那么运算量将增加K的平方倍。反之,减小也是2次的减小。

对channel切分为N个并行且独立的模块后,总的简化连接的数量,可见是直接resnet模块的1/N倍,实验中N=16。

Multi-Fiber Networks 

2D图片域的验证:

1. 基于ResNet-18和MobileNet-v2的baseline,将其中的模块替换为多纤维模块

2. 重新设计了一个2D MF-Net

可以看出,Multi-Fiber结构在ResNet-18和MobileNet-v2上可以在少量降低计算量和参数量的情况下,精度上有一定提高,表明模块的有效性。而MF-Net也在参数和计算量较低的情况下达到了不错的效果。最后一栏实验则表明了Multiplexer模块大概会占据30%的计算量,但对效果的提升也是比较明显的。

3D版本

为了降低计算量,两层卷积只有一层进行了时序上的卷积

UCF101和HMDB51上的结果

Kinetics分类结果分析

在400类中有190类准确率超过80%,349类超过50%。只有17类低于30%效果糟糕。

特别的是那些准确率高的类,其特点:

1. 相对别的类有特殊的物体/背景

2. 跨越较长时间所发生的特殊动作

识别不好的类,其特点:

通常没有可区分的物体或在长视频中目标动作持续很短

部分参考自:

知乎林天威

Multi-Fiber Networks for Video Recognition (MFNet)的更多相关文章

  1. 【ML】Two-Stream Convolutional Networks for Action Recognition in Videos

    Two-Stream Convolutional Networks for Action Recognition in Videos & Towards Good Practices for ...

  2. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zh ...

  3. 目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)

    Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangy ...

  4. PredNet --- Deep Predictive coding networks for video prediction and unsupervised learning --- 论文笔记

    PredNet --- Deep Predictive coding networks for video prediction and unsupervised learning   ICLR 20 ...

  5. SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    http://www.dengfanxin.cn/?p=403 原文地址 我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加 ...

  6. Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition

    Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition IC ...

  7. 深度学习论文翻译解析(九):Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

    论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神 ...

  8. Local Relation Networks for Image Recognition

    目录 概 主要内容 Hu H., Zhang Z., Xie Z., Lin S. Local relation networks for image recognition. In Internat ...

  9. 论文阅读笔记二十五:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition(SPPNet CVPR2014)

    论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要 深度卷积网络需要输入 ...

随机推荐

  1. HDU 3333 Turing Tree 离线 线段树/树状数组 区间求和单点修改

    题意: 给一个数列,一些询问,问你$[l,r]$之间不同的数字之和 题解: 11年多校的题,现在属于"人尽皆知傻逼题" 核心思想在于: 对于一个询问$[x,R]$ 无论$x$是什么 ...

  2. rman 示例

    背景 rman,听这名字,好像有点真的男人意思.这玩意其实也简单,只是老忘,作为一个oracle dba爱好者,怎么少了rman呢,这个好像是oracle体系的最后一环,把它掌握了,就完成oracle ...

  3. 关于在Fragment中设置toolbar及菜单的方法

    在NoActionBar的主题中onCreateOptionsMenu方法不会运行,这里就需要将toolbar强制转换为ActionBar 在加入toolbar的监听之类后需要在onCreateVie ...

  4. HNU 2015暑期新队员训练赛2 H Blanket

    把每个 bi *x + ri ( 0 <= ri <= ai)标记, 输出被标记 0 – N 次的个数 #include<iostream> #include<cstdi ...

  5. wx.chooseImage

    <view>上传图片</view> <view> <view> <button bindtap="getImg">上传图 ...

  6. Confluence 6 通过 SSL 或 HTTPS 运行 - 修改你 Confluence 的 server.xml 文件

    下一步你需要配置 Confluence 来使用 HTTPS: 编辑 <install-directory>/conf/server.xml 文件. 取消注释下面的行: <Connec ...

  7. Confluence 6 log4j 日志级别

    日志级别 DEBUG - 被设计为用来获得最多的信息和事件,在对应用程序进行调试的时候,这个日志级别通常能够提供最多的有效信息(查看应用程序怎么了) INFO - 有关系统正常运行-计划任务运行,服务 ...

  8. Confluence 6 启用和禁用 Office 连接器

    如果你希望限制访问 Office 连接器的所有组件或者部分组件,你可以禁用整个插件也可以禁用插件中的某个模块. 希望启用或禁用 Office 连接器模块: 进入  > 基本配置(General ...

  9. maven项目使用log4j

    日志是应用软件中不可缺少的部分,Apache的开源项目 log4j 是一个功能强大的日志组件,提供方便的日志记录. 1.maven项目在pom.xml导入log4j依赖: <dependency ...

  10. selenium+python之 辨识alert、window以及操作

    1.分辨 首先区别下alert.window和伪装对话框: alert,浏览器弹出框,一般是用来确认某些操作.输入简单的text或用户名.密码等,根据浏览器的不同,弹出框的样式也不一样,不过都是很简单 ...