论文的三个贡献 (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成. (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息. (3)利用了多任务训练的方法把两个数据集联合起来. Two stream结构 视屏可以分成空间与时间两个部分,空间部分指独立帧的表面信息,关于物体.场景等:而时间部分信息指帧间的光流,携带着帧之间的运动信息.相应的,所提出的网络结构由两个深度网络组成,分别处理时间与空间的维度. 可以看到,每个深度网络都会输出一个softmax层,最后会通过…
论文的重点在于后面approximation部分. 在<Rank Pooling>的论文中提到,可以通过训练RankSVM获得参数向量d,来作为视频帧序列的representation.而在dynamic论文中发现,这样的参数向量d,事实上与image是同等大小的,也就是说,它本身是一张图片(假如map与image同大小而不是提取的特征向量),那么就可以把图片输入到CNN中进行计算了.如下图可以看到一些参数向量d pooling的样例 参数向量d的快速计算 把计算d的过程定义一个函数.一个近似…
Two-Stream Convolutional Networks for Action Recognition in Videos & Towards Good Practices for Very Deep Two-Stream ConvNets Note here: it's a learning note on the topic of video representations. This note incorporates two papers about popular two-s…
https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformable的卷积如何实现的一步上,在写这篇博客之前,我也查阅了很多其他人的分享或者去github找代码,当然也不敢说完全了解了这种特殊的卷积……仅仅做一点自己的阅读心得与体会吧.这是一篇很有意义的工作,但是和深度学习很多论文一样,在读完之后内心也不免有着种种疑云. Deformable Convoluti…
VGGNet由牛津大学的视觉几何组(Visual Geometry Group)提出,是ILSVRC-2014中定位任务第一名和分类任务第二名.本文的主要贡献点就是使用小的卷积核(3x3)来增加网络的深度,并且可以有效提高网络的性能,而且在其他数据集上也有很好的泛化能力. 总结本文,能为网络带来比较好的方法有: 1) 加深网络的深度(网络太深,可能造成过拟合,需要小心): 2) 将较大的卷积核替换为小的卷积核,比如3x3,效果会变好,参数也会降低: 3) 使用1x1卷积,可以为网络增加非线性,某…
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zisserman[§] Visual Geometry Group, Department of Engineering Science, University of Oxford {karen,az}@robots.ox.ac.uk 用于大规模图像识别的深度卷积网络 Karen Simonyan[‡] &am…
http://www.dengfanxin.cn/?p=403 原文地址 我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加灵活,分析到卷积网络对尺寸并没有要求,固定尺寸的要求完全来源于全连接层部分,因而借助空间金字塔池化的方法来衔接两者,SPPNet在检测领域的重要贡献是避免了R-CNN的变形.重复计算等问题,在效果不衰减的情况下,大幅提高了识别速度.   用于视觉识别的深度卷积网络空间金字塔池化方法 Spatial…
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神经网络中的空间金字塔池 论文作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 论文地址:https://arxiv.org/pdf/1406.4729.pdf SPP的GitHub地址:https://github.com/yueruc…
论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述 目前anchor-free大热,从DenseBoxes到CornerNet.ExtremeNet,以及最近的FSAF.FoveaBox,避免了复杂的超参数设计,而且具有很好的检测效果.本文作者提出了一种全卷积的单阶段目标检测算法,类似于语义分割的做法使用像素级预测.该检测框架简单有效,而且可以方便地用于其他任务. 简介 再啰嗦一下基于anchor的检测算法的缺陷: 1.检测…
文章转自同一作者的微信公众号:[机器学习炼丹术] 论文名称:"Deformable Convolutional Networks" 论文链接:https://arxiv.org/abs/1703.06211 0 前言 首先理解: deformable Convolution可变卷积针对的对象是卷积本身,因此膨胀卷积,3D卷积都可以用可变卷积的形式 本篇文章讲解理论和论文,我还没有用上这个可变卷积测试效果,因为PyTorch好像还没有封装这个卷积方式,有点麻烦.所以我计划下一篇文章结合g…