空间金字塔池化(Spatial Pyramid Pooling, SPP)原理和代码实现(Pytorch)

想直接看公式的可跳至第三节 3.公式修正一.为什么需要SPP 首先需要知道为什么会需要SPP. 我们都知道卷积神经网络(CNN)由卷积层和全连接层组成,其中卷积层对于输入数据的大小并没有要求,唯一对数据大小有要求的则是第一个全连接层,因此基本上所有的CNN都要求输入数据固定大小,例如著名的VGG模型则要求输入数据大小是 (224*224) . 固定输入数据大小有两个问题: 1.很多场景所得到数据并不是固定大小的,例如街景文字基本上其高宽比是不固定的,如下图示红色框出的文字. 2.可能你会说可以…

SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

http://www.dengfanxin.cn/?p=403 原文地址我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加灵活,分析到卷积网络对尺寸并没有要求,固定尺寸的要求完全来源于全连接层部分,因而借助空间金字塔池化的方法来衔接两者,SPPNet在检测领域的重要贡献是避免了R-CNN的变形.重复计算等问题,在效果不衰减的情况下,大幅提高了识别速度. 用于视觉识别的深度卷积网络空间金字塔池化方法 Spatial…

【神经网络与深度学习】【计算机视觉】SPPNet-引入空间金字塔池化改进RCNN

转自: https://zhuanlan.zhihu.com/p/24774302?refer=xiaoleimlnote 继续总结一下RCNN系列.上篇RCNN- 将CNN引入目标检测的开山之作介绍了CNN用于目标检测的基本思想和流程.后续出现了SPPnet,Fast-RCNN ,Faster-RCNN等一些列改进.最终实现了端对端学习,同时带来速度与精度的提升. 在RCNN中CNN阶段的流程大致如下: 红色框是selective search 输出的可能包含物体的候选框(ROI). 一张图…

Spatial pyramid pooling (SPP)-net （空间金字塔池化）笔记（转）

在学习r-cnn系列时,一直看到SPP-net的身影,许多有疑问的地方在这篇论文里找到了答案. 论文:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 转自:http://blog.csdn.net/xzzppp/article/details/51377731 另可参考:http://zhangliliang.com/2014/09/13/paper-note-sppnet/ http:/…

空间金字塔池化（Spatial Pyramid Pooling，SPP）

基于空间金字塔池化的卷积神经网络物体检测原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一.相关理论本篇博文主要讲解大神何凯明2014年的paper:<Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition>,这篇paper主要的创新点在于提出了空间金字塔池化.paper主页:http://researc…

SPP空间金字塔池化技术的直观理解

空间金字塔池化技术, 厉害之处,在于使得我们构建的网络,可以输入任意大小的图片,不需要经过裁剪缩放等操作. 是后续许多金字塔技术(psp,aspp等)的起源,主要的目的都是为了获取场景语境信息,获取上下文的联系. 如图所示,对于选择的不同大小的区域对应到卷积之后的特征图上,得到的也是大小不一致的特征图区域,厚度为256,对于每个区域(厚度为256),通过三种划分方式进行池化: (1)直接对整个区域池化,每层得到一个点,共256个点,构成一个1x256的向量 (2)将区域划分成2x2的格子,每个格…

空间金字塔池化 ssp-net

<Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition>,这篇paper提出了空间金字塔池化. 之前学习的RCNN,虽然使用了建议候选区域使得速度大大降低,但是对于超大容量的数据,计算速度还有待提高.对RCNN来说,计算冗余很大一部分来自于:对每一个proposal region提取一次特征,而不同region之间有很多的交集,这就导致很大的计算冗余.因此fast-rcnn提出了,先对图片进行…

深度学习论文翻译解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神经网络中的空间金字塔池论文作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 论文地址:https://arxiv.org/pdf/1406.4729.pdf SPP的GitHub地址:https://github.com/yueruc…

论文阅读笔记二十五：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要深度卷积网络需要输入固定尺寸大小的图片(224x224),这引入了大量的手工因素,同时,一定程度上,对于任意尺寸的图片或者子图会降低识别的准确率.SPP-net对于任意大小的图片,可以生成固定长度的特征表述.SPP-net对于变形的图片仍有一定的鲁棒性.基于上述优点,SPP-net会提高基于CNN的图像分类的效果. S…

论文解读2——Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

背景用ConvNet方法解决图像分类.检测问题成为热潮,但这些方法都需要先把图片resize到固定的w*h,再丢进网络里,图片经过resize可能会丢失一些信息.论文作者发明了SPP pooling(空间金字塔池化)层,让网络可以接受任意size的输入. 方法首先思考一个问题,为什么ConvNet需要一个固定size的图片作为输入,我们知道,Conv层只需要channel固定(彩色图片3,灰度图1),但可以接受任意w*h的输入,当然输出的w*h也会跟着变化:然而,后面的FC层却需要固定长度的…

SPP(Spatial Pyramid Pooling)详解

一直对Fast RCNN中ROI Pooling层不解,不同大小的窗口输入怎么样才能得到同样大小的窗口输出呢,今天看到一篇博文讲得挺好的,摘录一下,方便查找. Introduction 在一般的CNN结构中,在卷积层后面通常连接着全连接.而全连接层的特征数是固定的,所以在网络输入的时候,会固定输入的大小(fixed-size).但在现实中,我们的输入的图像尺寸总是不能满足输入时要求的大小.然而通常的手法就是裁剪(crop)和拉伸(warp). 这样做总是不好的:图像的纵横比(ratio aspe…

目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)

Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 引用: He, Kaiming, et al. "Spatial pyramid pooling in deep convolutional networks for visual recognition." IEEE…

SPPNet(特征金字塔池化)学习笔记

SPPNet paper:Spatial pyramid pooling in deep convolutional networks for visual recognition code 首先介绍最为传统的alexNet,本文以及R-CNN有基于该网络上进行改进 1.输入224*224的图片,经过卷积池化等操作后在最后的卷积层会变成13*13的图片 2.后面接两个全连接层 3.最后接一个softmax进行打分分类(分成1000类是因为ImageNet上的图片总类为1000类) SPPNet的…

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun The 13th European Conference on Computer Vision (ECCV), 2014 声明:本文所有图片均来自原始文章,自己的理解也未必正确,请查看原图并拍砖本文的两个亮点: 1. 多尺度训练CN…

利用pytorch复现spatial pyramid pooling层

sppnet不讲了,懒得写...直接上代码 from math import floor, ceil import torch import torch.nn as nn import torch.nn.functional as F class SpatialPyramidPooling2d(nn.Module): r"""apply spatial pyramid pooling over a 4d input(a mini-batch of 2d inputs with…

SPP Net（Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）论文理解

论文地址:https://arxiv.org/pdf/1406.4729.pdf 论文翻译请移步:http://www.dengfanxin.cn/?p=403 一.背景: 传统的CNN要求输入图像尺寸是固定的(因为全连接网络要求输入大小是固定的) crop处理,可能不包含整个物体,还会丢失上下文信息 warping处理,会导致图像变形以上都会导致CNN对不同scale/size泛化能力不强于是SPP做了如下改进,即将SPP层加在最后一个卷积层后面,然后再送入FC网络. 优点不管输入…

SPP NET (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

1. https://www.cnblogs.com/gongxijun/p/7172134.html (SPP 原理) 2.https://www.cnblogs.com/chaofn/p/9305374.html (SPP原理) 3.https://blog.csdn.net/wait_ButterFly/article/details/81461988 (卷积核参数计算)…

tensorflow 1.0 学习：池化层（pooling)和全连接层(dense)

池化层定义在 tensorflow/python/layers/pooling.py. 有最大值池化和均值池化. 1.tf.layers.max_pooling2d max_pooling2d( inputs, pool_size, strides, padding='valid', data_format='channels_last', name=None ) inputs: 进行池化的数据. pool_size: 池化的核大小(pool_height, pool_width),如[3,3]…

Dense Semantic Labeling with Atrous Spatial Pyramid Pooling and Decoder for High-Resolution Remote Sensing Imagery（高分辨率语义分割）

对 Potsdam and Vaihingen 公开数据集进行处理,得到了SOTA的结果,超越DeepLab_v3+,提出的网络结构如下:结合了ASPP和FCN,UNet…

池化层的back proporgation 原理

转载:https://www.jianshu.com/p/6928203bf75b…

神经网络中的池化层(pooling)

在卷积神经网络中,我们经常会碰到池化操作,而池化层往往在卷积层后面,通过池化来降低卷积层输出的特征向量,同时改善结果(不易出现过拟合).为什么可以通过降低维度呢? 因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用.因此,为了描述大的图像,一个很自然的想法就是对不同位置的特征进行聚合统计,例如,人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)来代表这个区域的特征. 1. 一般池化(General Pooling) 池化作用于图像中…

目标检测（二）SSPnet--Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognotion

作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 以前的CNNs都要求输入图像尺寸固定,这种硬性要求也许会降低识别任意尺寸图像的准确度.为避免这个问题,何凯明等人在该论文中提出了一种池化策略,"spatial pyramid pooling(SSP)",即空间金字塔池化.带有该池化层的网络被称为SPPnet,对任何尺寸的输入图像都能生成固定长度的特征表示.由此可见,理论上SPPnet可以改进所有基于CNN的图像分类等方法中…

【37】池化层讲解（Pooling layers）

池化层(Pooling layers) 除了卷积层,卷积网络也经常使用池化层来缩减模型的大小,提高计算速度,同时提高所提取特征的鲁棒性,我们来看一下. 先举一个池化层的例子,然后我们再讨论池化层的必要性.假如输入是一个4×4矩阵,用到的池化类型是最大池化(max pooling).执行最大池化的树池是一个2×2矩阵.执行过程非常简单,把4×4的输入拆分成不同的区域,我把这个区域用不同颜色来标记.对于2×2的输出,输出的每个元素都是其对应颜色区域中的最大元素值. 左上区域的最大值是9,右上区域…

Deep Learning 学习随记（七）Convolution and Pooling --卷积和池化

图像大小与参数个数: 前面几章都是针对小图像块处理的,这一章则是针对大图像进行处理的.两者在这的区别还是很明显的,小图像(如8*8,MINIST的28*28)可以采用全连接的方式(即输入层和隐含层直接相连).但是大图像,这个将会变得很耗时:比如96*96的图像,若采用全连接方式,需要96*96个输入单元,然后如果要训练100个特征,只这一层就需要96*96*100个参数(W,b),训练时间将是前面的几百或者上万倍.所以这里用到了部分联通网络.对于图像来说,每个隐含单元仅仅连接输入图像的一小片相邻…

【空间金字塔池化(Spatial Pyramid Pooling, SPP)原理和代码实现(Pytorch)】的更多相关文章