论文解读2——Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

背景

　　用ConvNet方法解决图像分类、检测问题成为热潮，但这些方法都需要先把图片resize到固定的w*h，再丢进网络里，图片经过resize可能会丢失一些信息。论文作者发明了SPP pooling(空间金字塔池化)层，让网络可以接受任意size的输入。

方法

　　首先思考一个问题，为什么ConvNet需要一个固定size的图片作为输入，我们知道，Conv层只需要channel固定(彩色图片3，灰度图1），但可以接受任意w*h的输入，当然输出的w*h也会跟着变化；然而，后面的FC层却需要固定长度的vector作为输入，图片size变化->conv层输出的size变化->FC层输入的vector长度变化，这就产生了错误。

　　怎么解决这个问题呢？作者给出的方法是在最后一层Conv层后面加上一个SPP pooling层，SPP pooling层可以将接收到的不同size的输入转换成为固定的输出，保证FC层的输入长度固定。

　　如图，SPP pooling层的原理很简单，例子如下：给定一个w*h的特征图，把其分别分成4*4、2*2、1*1的bin，在每个bin上面作pooling操作(文中使用的是max pooling)，最后能得到16*256-d(256-d是最后一个conv层的输出通道数)，4*256-d、1*256-d的feature vector，最后连接在一起，得到的就是21*256-d的feature vector。

　　可以看到，不管一开始的w和h取值多少，最后都能得到固定长度的feature vector作为FC层的输入，这样，ConvNet就能接受不同size的图片作为输入了。

总结

　　论文作者通过在FC层前面加上一个SPP pooling层，有效解决了ConvNet必须接受固定size的图片。

论文解读2——Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition的更多相关文章

深度学习论文翻译解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神 ...
SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
http://www.dengfanxin.cn/?p=403 原文地址我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加 ...
目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)
Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangy ...
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zh ...
论文阅读笔记二十五：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要深度卷积网络需要输入 ...
SPP Net（Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition）论文理解
论文地址:https://arxiv.org/pdf/1406.4729.pdf 论文翻译请移步:http://www.dengfanxin.cn/?p=403 一.背景: 传统的CNN要求输入图像尺 ...
SPP NET (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)
1. https://www.cnblogs.com/gongxijun/p/7172134.html (SPP 原理) 2.https://www.cnblogs.com/chaofn/p/9305 ...
目标检测（二）SSPnet--Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognotion
作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 以前的CNNs都要求输入图像尺寸固定,这种硬性要求也许会降低识别任意尺寸图像的准确度. ...
论文笔记：（2019CVPR）PointConv: Deep Convolutional Networks on 3D Point Clouds
目录摘要一.前言 1.1直接获取3D数据的传感器 1.2为什么用3D数据 1.3目前遇到的困难 1.4现有的解决方法及存在的问题二.本文idea 2.1 idea来源 2.2 初始思路 2.3 ...

随机推荐

mimalloc剖析
mimalloc是微软最近开源的一个malloc实现,其实验数据表明相比于jemalloc.tcmalloc等实现大约快了10%.其通过将空闲块列表(Free List)进行分片(Sharding)来 ...
java学习笔记(基础篇)—变量与表达式
一:局部变量和实例变量定义变量是指设定变量的数据类型和变量的名字,Java语言要求变量遵循先定义,再初始化,然后使用的规则. 作用域:指它的存在范围,只有在这个范围内,程序代码才能访问它. 变量的生 ...
EPPLUS 实现excel报表数据及公式填充
年后工作第一天,根据客户要求修善EPPLUS报表. Epplus: Epplus是一个使用Open Office XML(Xlsx)文件格式,能读写Excel 2007/2010文件的开源组件好处很 ...
深入了解数据校验：Bean Validation 2.0（JSR380）
每篇一句 > 吾皇一日不退役,尔等都是臣子对Spring感兴趣可扫码加入wx群:`Java高工.架构师3群`(文末有二维码) 前言前几篇文章在讲Spring的数据绑定的时候,多次提到过数据校 ...
字符串的排列(剑指offer)
题目描述: 输入一个字符串,按字典序打印出该字符串中字符的所有排列.例如输入字符串abc,则打印出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba. 思路: 利用 ...
CentOS下配置apache+gitweb
GitWeb支持多个版本库,可以对多个版本库进行目录浏览(包括历史版本),可以查看文件内容,查看提交历史,提供搜索及 RSS feed支持,也可以提供目录文件的打包下载等.可以看https://git ...
apache自动打包日志脚本
#!/bin/bash # apachedata=$(date +%Y%m%d) time=$(date +%Y%m%d%H --date='1 hour ago') cd /logs/apache/ ...
Java--UTF-8
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码.由Ken Thompson于1992年创建.现在已经标准化为 ...
Spring Boot如何设计防篡改、防重放攻击接口
Spring Boot 防篡改.防重放攻击本示例要内容请求参数防止篡改攻击基于timestamp方案,防止重放攻击使用swagger接口文档自动生成 API接口设计 API接口由于需要供第三方 ...
UPC Contest RankList – 2019年第二阶段我要变强个人训练赛第十五场
传送门 A: Colorful Subsequence •题意给一个长为n的小写字母序列,从中选出字母组成子序列问最多能组成多少种每个字母都不相同的子序列 (不同位置的相同字母也算是不同的一种) ...

论文解读2——Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

论文解读2——Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition的更多相关文章

随机推荐

热门专题