空间金字塔池化 ssp-net

《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》，这篇paper提出了空间金字塔池化。

　　之前学习的RCNN，虽然使用了建议候选区域使得速度大大降低，但是对于超大容量的数据，计算速度还有待提高。对RCNN来说，计算冗余很大一部分来自于：对每一个proposal region提取一次特征，而不同region之间有很多的交集，这就导致很大的计算冗余。因此fast-rcnn提出了，先对图片进行一次总体的特征提取，然后再提取每个proposal region的特征。

　　说跑题了，回归正题。先说说ssp-net的优点，在ssp-net之前，使用卷积神经网络需要统一图片的输入大小，那我们自己思考一下为什么需要固定输入大小呢？

　　cnn包括三个部分：卷积池化和全连接。那到底哪一个部分需要固定输入呢？

　　先说卷积，卷积操作对图片的输入大小要求吗？貌似固定卷积核大小，给定输入图片，卷积核都能进行计算，然后输入特征值，任意大小的图片都可以进行卷积。

　　再说池化，池化是更加不需要要求输入大小的，池化只需要根据池化大小，进行平均或者最大池化就可以了。

　　那最后就是全连接喽，分析一下为什么全连接需要固定输入大小。又要拿出之前随笔中的那张图了：

看看全连接是怎么进行计算的，x是输入，根据矩阵运算的规则，不同的输入x对应这不同的w，因此要进行全连接，首先要固定下来输入x。因此罪魁祸首找到了，传统cnn之所以要固定输入，是因为全连接层的存在。原博客地址：http://www.cnblogs.com/smartwhite/p/8601477.html。因此空间金字塔池化层要做的就是卷积层到全连接层的过度，把卷积层不固定的输出，通过空间金字塔池化层，固定下来，作为全连接层的输入。

算法过程：

输入层：一张任意大小的图片

输出层：21维向量

如上图所示，当我们输入一张图片的时候，我们利用不同大小的刻度，对一张图片进行了划分。上面示意图中，利用了三种不同大小的刻度，对一张输入的图片进行了划分，最后总共可以得到16+4+1=21个块，我们即将从这21个块中，每个块提取出一个特征，这样刚好就是我们要提取的21维特征向量。

第一张图片,我们把一张完整的图片，分成了16个块，也就是每个块的大小就是(w/4,h/4);

第二张图片，划分了4个块，每个块的大小就是(w/2,h/2);

第三张图片，把一整张图片作为了一个块，也就是块的大小为(w,h)

空间金字塔最大池化的过程，其实就是从这21个图片块中，分别计算每个块的最大值，从而得到一个输出神经元。最后把一张任意大小的图片转换成了一个固定大小的21维特征（当然你可以设计其它维数的输出，增加金字塔的层数，或者改变划分网格的大小）。上面的三种不同刻度的划分，每一种刻度我们称之为：金字塔的一层，每一个图片块大小我们称之为：windows size了。如果你希望，金字塔的某一层输出n*n个特征，那么你就要用windows size大小为：(w/n,h/n)进行池化了。

当我们有很多层网络的时候，当网络输入的是一张任意大小的图片，这个时候我们可以一直进行卷积、池化，直到网络的倒数几层的时候，也就是我们即将与全连接层连接的时候，就要使用金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量，这就是空间金字塔池化的奥义（多尺度特征提取出固定大小的特征向量）。具体的流程图如下：

此处直接复制粘贴原作者，因为是在讲得太清晰了，算法概述的原博客地址：https://blog.csdn.net/hjimce/article/details/50187655

空间金字塔池化 ssp-net的更多相关文章

Spatial pyramid pooling (SPP)-net （空间金字塔池化）笔记（转）
在学习r-cnn系列时,一直看到SPP-net的身影,许多有疑问的地方在这篇论文里找到了答案. 论文:Spatial Pyramid Pooling in Deep Convolutional Net ...
空间金字塔池化(Spatial Pyramid Pooling, SPP)原理和代码实现(Pytorch)
想直接看公式的可跳至第三节 3.公式修正一.为什么需要SPP 首先需要知道为什么会需要SPP. 我们都知道卷积神经网络(CNN)由卷积层和全连接层组成,其中卷积层对于输入数据的大小并没有要求,唯一对 ...
SPP空间金字塔池化技术的直观理解
空间金字塔池化技术, 厉害之处,在于使得我们构建的网络,可以输入任意大小的图片,不需要经过裁剪缩放等操作. 是后续许多金字塔技术(psp,aspp等)的起源,主要的目的都是为了获取场景语境信息,获取上 ...
空间金字塔池化（Spatial Pyramid Pooling，SPP）
基于空间金字塔池化的卷积神经网络物体检测原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一.相关理论本篇博文 ...
SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
http://www.dengfanxin.cn/?p=403 原文地址我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加 ...
【神经网络与深度学习】【计算机视觉】SPPNet-引入空间金字塔池化改进RCNN
转自: https://zhuanlan.zhihu.com/p/24774302?refer=xiaoleimlnote 继续总结一下RCNN系列.上篇RCNN- 将CNN引入目标检测的开山之作介 ...
SPPNet(特征金字塔池化)学习笔记
SPPNet paper:Spatial pyramid pooling in deep convolutional networks for visual recognition code 首先介绍 ...
神经网络中的池化层(pooling)
在卷积神经网络中,我们经常会碰到池化操作,而池化层往往在卷积层后面,通过池化来降低卷积层输出的特征向量,同时改善结果(不易出现过拟合).为什么可以通过降低维度呢? 因为图像具有一种“静态性”的属性,这 ...
CVPR 2019|PoolNet:基于池化技术的显著性检测论文解读
作者 | 文永亮研究方向 | 目标检测.GAN 研究动机这是一篇发表于CVPR2019的关于显著性目标检测的paper,在U型结构的特征网络中,高层富含语义特征捕获的位置信息在自底向上的传播过 ...

随机推荐

（一）DB、DBMS、SQL之间的关系
一.概念 DB:数据库(database)相当于一个仓库,用于有组织的采存储数据. DBMS:数据库管理系统(database manage system)数据库是通过DBMS来创建和操作,种类很多( ...
链式前向星存树图和遍历它的两种方法【dfs、bfs】
目录一.链式前向星存图二.两种遍历方法一.链式前向星存图:(n个点,n-1条边) 链式前向星把上面的树图存下来,输入: 9 ///代表要存进去n个点 1 2 ///下面是n-1条边,每条边连接两 ...
Swift Core Data 图片存储与读取
1.首先推出选择拍照还是相册的alert,代码如下: UIAlertController *alert = [UIAlertController alertControllerWithTitle:ni ...
ca75a_c++_标准IO库-利用流对象把文件内容读取到向量-操作文件
/*ca75a_c++_标准IO库习题练习习题8.3,8.4,8.6习题8.9.8.10 ifstream inFile(fileName.c_str());1>d:\users\txwtech ...
s7-200高速脉冲输出与高速计数器讲解
s7-200高速脉冲输出与高速计数器讲解
解除git文件处于lock状态方法
解决办法: 去git文件夹下删除lock文件就可以
Thunk函数的使用
Thunk函数的使用编译器的求值策略通常分为传值调用以及传名调用,Thunk函数是应用于编译器的传名调用实现,往往是将参数放到一个临时函数之中,再将这个临时函数传入函数体,这个临时函数就叫做Thun ...
Beta冲刺<8/10>
这个作业属于哪个课程软件工程 (福州大学至诚学院 - 计算机工程系) 这个作业要求在哪里 Beta冲刺这个作业的目标 Beta冲刺--第八天(05.26) 作业正文如下其他参考文献 ... B ...
android屏幕适配的全攻略--支持不同的屏幕尺寸适配平板和手机
一. 核心概念与单位详解 1. 什么是屏幕尺寸.屏幕分辨率.屏幕像素密度? 屏幕分辨率越大,手机越清晰 dpi就是dot per inch dot意思是点,就是每英寸上面的像素点数 android原始 ...
Spring系列.SpEL表达式
Spring表达式语言 SpEL语言是一种强大的表达式语言,支持在运行时查询和操作对象.SpEL表达式不一定要创建IOC容器后才能使用.用户完全可以单独调用SpEL的API来独立的使用时SpEL表达式 ...

空间金字塔池化 ssp-net

空间金字塔池化 ssp-net的更多相关文章

随机推荐

热门专题