想直接看公式的可跳至第三节 3.公式修正

一、为什么需要SPP

首先需要知道为什么会需要SPP。

我们都知道卷积神经网络(CNN)由卷积层和全连接层组成，其中卷积层对于输入数据的大小并没有要求，唯一对数据大小有要求的则是第一个全连接层，因此基本上所有的CNN都要求输入数据固定大小，例如著名的VGG模型则要求输入数据大小是 (224*224) 。

固定输入数据大小有两个问题：

1.很多场景所得到数据并不是固定大小的，例如街景文字基本上其高宽比是不固定的，如下图示红色框出的文字。

2.可能你会说可以对图片进行切割，但是切割的话很可能会丢失到重要信息。

综上，SPP的提出就是为了解决CNN输入图像大小必须固定的问题，从而可以使得输入图像高宽比和大小任意。

二、SPP原理

更加具体的原理可查阅原论文：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

上图是原文中给出的示意图，需要从下往上看:

首先是输入层(input image),其大小可以是任意的
进行卷积运算，到最后一个卷积层(图中是$conv_5$)输出得到该层的特征映射(feature maps)，其大小也是任意的
下面进入SPP层
- 我们先看最左边有16个蓝色小格子的图，它的意思是将从$conv_5$得到的特征映射分成16份，另外16X256中的256表示的是channel，即SPP对每一层都分成16份(不一定是等比分，原因看后面的内容就能理解了)。
- 中间的4个绿色小格子和右边1个紫色大格子也同理，即将特征映射分别分成4X256和1X256份

那么将特征映射分成若干等分是做什么用的呢？我们看SPP的名字就是到了，是做池化操作，一般选择MAX Pooling，即对每一份进行最大池化。

我们看上图，通过SPP层，特征映射被转化成了16X256+4X256+1X256 = 21X256的矩阵，在送入全连接时可以扩展成一维矩阵，即1X10752，所以第一个全连接层的参数就可以设置成10752了，这样也就解决了输入数据大小任意的问题了。

注意上面划分成多少份是可以自己是情况设置的，例如我们也可以设置成3X3等，但一般建议还是按照论文中说的的进行划分。

三、SPP公式

理论应该理解了，那么如何实现呢？下面将介绍论文中给出的计算公式，但是在这之前先要介绍两种计算符号以及池化后矩阵大小的计算公式：

1.预先知识

取整符号：

⌊⌋:向下取整符号 ⌊59/60⌋=0，有时也用 floor() 表示

⌈⌉:向上取整符号 ⌈59/60⌉=1，有时也用ceil() 表示

池化后矩阵大小计算公式：

没有步长(Stride)：$(h+2p-f+1)*(w+2p-f+1)$

有步长(Stride)：⌊$\frac{h+2p-f}{s}$+1⌋*⌊$\frac{w+2p-f}{s}$+1⌋

2.公式

假设

输入数据大小是$(c, h_{in}, w_{in})$,分别表示通道数，高度，宽度
池化数量：$(n,n)$

那么则有

核(Kernel)大小: $⌈\frac{h_{in}}{n},\frac{w_{in}}{n}⌉=ceil(\frac{h_{in}}{n},\frac{w_{in}}{n})$
步长(Stride)大小: $⌊\frac{h_{in}}{n},\frac{w_{in}}{n}⌋=floor(\frac{h_{in}}{n},\frac{w_{in}}{n})$

我们可以验证一下，假设输入数据大小是$(10, 7, 11)$, 池化数量$(2, 2)$:

那么核大小为$(4,6)$, 步长大小为$(3,5)$, 得到池化后的矩阵大小的确是$2*2$。

3.公式修正

是的，论文中给出的公式的确有些疏漏，我们还是以举例子的方式来说明

假设输入数据大小和上面一样是$(10, 7, 11)$, 但是池化数量改为$(4,4)$：

此时核大小为$(2,3)$, 步长大小为$(1,2)$，得到池化后的矩阵大小的确是$6*5$ ←[简单的计算矩阵大小的方法：(7=2+1*5, 11=3+2*4)]，而不是$4*4$。

那么问题出在哪呢？

我们忽略了padding的存在(我在原论文中没有看到关于padding的计算公式，如果有的话。。。那就是我看走眼了，麻烦提示我一下在哪个位置写过，谢谢)。

仔细看前面的计算公式我们很容易发现并没有给出padding的公式,在经过N次使用SPP计算得到的结果与预期不一样以及查找各种网上资料(尽管少得可怜)后，现将加入padding后的计算公式总结如下。

$K_h = ⌈\frac{h_{in}}{n}⌉=ceil(\frac{h_{in}}{n})$

$S_h = ⌈\frac{h_{in}}{n}⌉=ceil(\frac{h_{in}}{n})$

$p_h = ⌊\frac{k_h*n-h_{in}+1}{2}⌋=floor(\frac{k_h*n-h_{in}+1}{2})$

$h_{new} = 2*p_h +h_{in}$

$K_w = ⌈\frac{w_{in}}{n}⌉=ceil(\frac{w_{in}}{n})$

$S_w = ⌈\frac{w_{in}}{n}⌉=ceil(\frac{w_{in}}{n})$

$p_w = ⌊\frac{k_w*n-w_{in}+1}{2}⌋=floor(\frac{k_w*n-w_{in}+1}{2})$

$w_{new} = 2*p_w +w_{in}$

$k_h$: 表示核的高度

$S_h$: 表示高度方向的步长

$p_h$: 表示高度方向的填充数量，需要乘以2

注意核和步长的计算公式都使用的是ceil()，即向上取整，而padding使用的是floor()，即向下取整。

现在再来检验一下：

假设输入数据大小和上面一样是$(10, 7, 11)$, 池化数量为$(4,4)$：

Kernel大小为$(2,3)$，Stride大小为$(2,3)$，所以Padding为$(1,1)$。

利用矩阵大小计算公式：⌊$\frac{h+2p-f}{s}$+1⌋*⌊$\frac{w+2p-f}{s}$+1⌋得到池化后的矩阵大小为：$4*4$。

四、代码实现(Python)

这里我使用的是PyTorch深度学习框架，构建了一个SPP层，代码如下：

#coding=utf-8

import math

import torch

import torch.nn.functional as F

# 构建SPP层(空间金字塔池化层)

class SPPLayer(torch.nn.Module):

    def __init__(self, num_levels, pool_type='max_pool'):

        super(SPPLayer, self).__init__()

        self.num_levels = num_levels

        self.pool_type = pool_type

    def forward(self, x):

        num, c, h, w = x.size() # num:样本数量 c:通道数 h:高 w:宽

        for i in range(self.num_levels):

            level = i+1

            kernel_size = (math.ceil(h / level), math.ceil(w / level))

            stride = (math.ceil(h / level), math.ceil(w / level))

            pooling = (math.floor((kernel_size[0]*level-h+1)/2), math.floor((kernel_size[1]*level-w+1)/2))

            # 选择池化方式

            if self.pool_type == 'max_pool':

                tensor = F.max_pool2d(x, kernel_size=kernel_size, stride=stride, padding=pooling).view(num, -1)

            else:

                tensor = F.avg_pool2d(x, kernel_size=kernel_size, stride=stride, padding=pooling).view(num, -1)

            # 展开、拼接

            if (i == 0):

                x_flatten = tensor.view(num, -1)

            else:

                x_flatten = torch.cat((x_flatten, tensor.view(num, -1)), 1)

        return x_flatten

上述代码参考: sppnet-pytorch

为防止原作者将代码删除，我已经Fork了，也可以通过如下地址访问代码：

marsggbo/sppnet-pytorch

空间金字塔池化(Spatial Pyramid Pooling, SPP)原理和代码实现(Pytorch)的更多相关文章

SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
http://www.dengfanxin.cn/?p=403 原文地址我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加 ...
【神经网络与深度学习】【计算机视觉】SPPNet-引入空间金字塔池化改进RCNN
转自: https://zhuanlan.zhihu.com/p/24774302?refer=xiaoleimlnote 继续总结一下RCNN系列.上篇RCNN- 将CNN引入目标检测的开山之作介 ...
Spatial pyramid pooling (SPP)-net （空间金字塔池化）笔记（转）
在学习r-cnn系列时,一直看到SPP-net的身影,许多有疑问的地方在这篇论文里找到了答案. 论文:Spatial Pyramid Pooling in Deep Convolutional Net ...
空间金字塔池化（Spatial Pyramid Pooling，SPP）
基于空间金字塔池化的卷积神经网络物体检测原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一.相关理论本篇博文 ...
SPP空间金字塔池化技术的直观理解
空间金字塔池化技术, 厉害之处,在于使得我们构建的网络,可以输入任意大小的图片,不需要经过裁剪缩放等操作. 是后续许多金字塔技术(psp,aspp等)的起源,主要的目的都是为了获取场景语境信息,获取上 ...
空间金字塔池化 ssp-net
<Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition>,这篇paper提出了空间金字 ...
深度学习论文翻译解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神 ...
论文阅读笔记二十五：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要深度卷积网络需要输入 ...
论文解读2——Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
背景用ConvNet方法解决图像分类.检测问题成为热潮,但这些方法都需要先把图片resize到固定的w*h,再丢进网络里,图片经过resize可能会丢失一些信息.论文作者发明了SPP pooling ...

随机推荐

laypage 使用
最近发现一个特别好用的前端分页插件,分享一下 <!doctype html> <html> <head> <meta charset="utf-8& ...
thinkphp5判断移动或pc端访问并调用不同模板
废话不多说,直接上代码先修改\thinkphp\library\think\view\driver\Think.php文件把 public function __construct($config ...
spring 组件自动装载示例(@ComponentScan,@Component,@Scope)
今天学习spring的bean组件装载功能,个人不太喜欢xml文件一个个配置bean的方式,所以主要学习测试注解式的自动装载方式.下面将简单说明下@Component的用法,简单入门示例献给大家. ...
剑指offer第五天
28.数组中出现次数超过一半的数字数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字.例如输入一个长度为9的数组{1,2,3,2,2,2,5,4,2}.由于数字2在数组中出现了5次,超过数 ...
python项目使用jsonschema进行参数校验
python项目使用jsonschema进行参数校验最近想要给一个新的openstack项目加上参数校验,过完年回来准备开工的时候,发现其他人已经在做了,对应的patch是:https://revi ...
datanode启动不起来的各种原因
一般在数据节点的log日志信息里能找到导致启动不起来的原因. 1.Namenode和Datanode的NamenodeID不一致描述:一般在集群多次重新格式化HDFS之后,或者刚安装时会碰到.日志信 ...
MySQL参数log_bin_trust_function_creators介绍
MySQL的有个参数log_bin_trust_function_creators,官方文档对这个参数的介绍.解释如下所示: log_bin_trust_function_creators Comma ...
通用的Android控件抖动效果实现
这个小程序的功能在实际的开发中会用到,比如:设置Button左右晃动,或者上下的晃动效果,下面就给出示例代码. 首先:要定义一个xml文件,命名为Shake [html] view plain cop ...
Android类似Periscope点赞效果
原文 https://github.com/AlanCheen/PeriscopeLayout 主题安卓开发 PeriscopeLayout A layout with animation li ...
【mysql】mysql内置函数
mysql常用内置函数 1.mysql字符串函数 contact 字符串连接函数 mysql>select contact("he",'llo');# hello lcase ...

空间金字塔池化(Spatial Pyramid Pooling, SPP)原理和代码实现(Pytorch)