1、RCNN - the original idea

"Rich feature hierarchies for accurate object detection and semantic segmentation"这篇文章提出了用CNN网络来对物体进行检测的思路。

　　a. CNN网络中存在卷积层和池化层，每次池化都会弱化物体的位置信息，强化物体的特征信息，所以CNN网络最终会告诉我们是什么，而不是在哪儿

　　b. 要使用CNN网络来检测，直觉上我们可以训练一个识别某物体的网络，来对小方块进行分类。但是这需要大量的训练集，可能对于待检测物体，我们没有收集大量训练集的机会

　　c. CNN网络的图像输入层具有固定的维度，任意大小的小方块是无法直接输入到CNN网络里的

　　a. 文章提出了可以在已经训练好的网络上利用小规模的训练集进行优化，也能达到很好的效果。

　　b.通过 selective search来确定可能含有物体的小方块

　　c.将消方块进行拉伸（warp），送入CNN进行分类，最终实现检测

细节：

　　1、使用了ILSVRC 2012对网络进行预训练，步长0.01

　　2、精训练使用的步长是0.001

　　3、mini-batch size = 128, 其中背景96，带东西的32。有意的bias，让网络更大概率判为背景

　　4、loss function 中，IoU超过50%判为1，否则为0

　　5、使用svm对物体类别进行判断

　　6、对box进行线性回归，获得更高的精度(后面还会提到)

2、SPPNet - 结合金字塔

Spatial pyramid pooling in deep convolutional networks for visual recognition -- 在第一步使用rcnn中，检测需要将图片拉伸成特定的大小，便于输入网络。这显然很不合理，很多东西拉伸以后就完全变形了，这会降低检测的精度。所以需要一种不拉伸方块的方法，来对物体进行检测。

　　a.拉伸图像会带来识别精度的下降，在r-cnn中尤其明显

　　a.金字塔池化：将任意维度的图片池化成同一维度。例如，图片为256*256，金字塔接受的就是maxpool2dlayer(16,'stride',16),如果图片为128*128，金字塔接受的就是maxpool2dlayer(8,'stride',8)

细节：只用了两种bin size 来构建训练集，180 * 180， 224 * 224. 因为只有两种情况，所以可以很方便的构建bp函数

3、FastCNN - 要啥金字塔，一层就够啦

　　a.对于每个 box/proposal 都需要进行一次feed forward.

　　b.训练时需要对分类函数和回归函数分开训练

　　a.对图像进行一次整体的feed forward，得到总的卷积结果；对总结果中的box，每个box一次，分别进行ROI pooling (其实就是金字塔的第一层)

　　b. ROI pooling 后会得到固定维度的向量，送入多次全连接层，直接映射成类别和box的回归

细节：1、训练时，所有的权重都得到迭代

4、Faster R-CNN — 这才是颠覆

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

　　a. 对每张图都要进行一次 selective search 以获得proposal太耗时了

　　a.设计一个神经网络 Region Proposal Net 自动来提出proposal 吧！

RPN 本质上可以看作一个非常独立的部分，虽然它号称使用了整幅图像的feature，但功能上RPN是独立的。RPN的任务是输入图像，输出一系列Proposal（四点坐标+是否有物体）

1、使用卷积网络的最后一个卷积层卷积完的结果 Last_Image * final_convolution2dlayer(n,d). 作为RPN的真正输入（前面都是公用的，后面才是RPN）

2、使用一个3*3的小卷积掩模将1中的结果抽象成d 维向量。

3、将该向量送入2个全连接层——分类全连接（2K输出）和坐标全连接（4K输出）————k个proposal （3 scale,2 aspect ratio）

4、在2中，掩模的位置决定了全连接输出参数的"原点"

5、总结

在神经网络中，全连接是最强的非线性映射方式，也是花费最重的。在结果层少量的使用全连接以换取强大的映射方程是很有意义的。

说了那么多，和三维视觉有毛关系？其实关系在这里，在二维图像中检测物体位置和在三维图像中检测物体位姿是对偶的。不信？见 <Deep Sliding Shapes for amodal 3D object detection in RGB-D images>

PCL —— RCNN Family 中层次点云处理的更多相关文章

PCL — Point Pair Feature 中层次点云处理
博客转载自:http://www.cnblogs.com/ironstark/p/5971976.html 机器人视觉中有一项重要人物就是从场景中提取物体的位置,姿态.图像处理算法借助Deep Lea ...
从PCD文件中读取点云数据
博客转载自:http://www.pclcn.org/study/shownews.php?lang=cn&id=84 在本小节我们学习如何从PCD文件中读取点云数据. 代码章例1文件夹中, ...
MeshLab中进行点云配准
MeshLab是一个开源.可移植和可扩展的三维几何处理系统,主要用于交互处理和非结构化编辑三维三角形网格.它支持多种文件格式: import:PLY, STL, OFF, OBJ, 3DS, COLL ...
在OneThink（ThinkPHP3.2.3）中整合阿里云OSS的PHP-SDK2.0.4，实现Web端直传，服务端签名直传并设置上传回调的实现流程
在OneThink(ThinkPHP3.2.3)中整合阿里云OSS的PHP-SDK2.0.4,实现本地文件上传流程 by shuijingwan · 2016/01/13 1.SDK安装 github ...
【阿里云产品公测】在Laravel4框架中使用阿里云ACE的缓存服务
作者:阿里云用户dvbhack 受论坛排版和格式限制,这篇帖子的格式不是很利于阅读,如果你看帖子觉得不那么舒服,可以看我发表在自己博客上的原文:http://www.ofcss.com/2014/04 ...
Ubuntu系统中登陆阿里云服务器的方法
如果您购买了阿里云服务器,恰巧又在使用Ubuntu操作系统,那么恭喜你来对地方了,今天给大家分享一下如何在Ubuntu中登陆阿里云服务器: 主要使用两款软件:1.SecureCRT:2.SecureF ...
在VSCode中使用码云
在VSCode中使用码云一.SSH公钥使用SSH公钥可以让你在你的电脑和码云通讯的时候使用安全连接(Git的Remote要使用SSH地址) 链接 https://gitee.com/profile ...
如何在 Centos7 中使用阿里云的yum源
如何在 Centos7 中使用阿里云的yum源 1. 备份原来的yum源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Ba ...
在我的电脑中删除wps云文档图标
在我的电脑中删除wps云文档图标右键点击win10左下角选择运行,输入regedit打开注册表后,找到以下注册表路径: HKEY_CURRENT_USER\Software\Microsoft\Wi ...

随机推荐

eclipse提交Git时忽略文件
为了避免每次使用都有百度查找,自己保存一份,方便使用. 实现方式: Eclipse切换到Navigator视图,找到.gitignore文件(如果是maven项目,一般找作为modules的项目的.g ...
Microsoft Visual Studio Ultimate 2013 RC 离线安装程序
Microsoft Visual Studio Ultimate 2013 RC 离线安装程序 ☆ 微软官网地址:☆ http://www.microsoft.com/en-us/download/d ...
hdoj-1032-The 3n + 1 problem(坑题)
题目链接 //巨坑的一道题,输入的m,n要判断大小,输出还要按照原来的顺序,范围还是i<=n<=j #include <iostream> #include <cstd ...
grep搜索子目录中包含某字符串的特定文件
grep -n "str" -r ./ 这是查找当前目录下以及下辖子目录下所有包含str字符串的文件,会列出文件名.以及该行的内容.以及行号比如,我想搜源码目录src下,包含“n ...
uuid 学习
#include <vector> #include <iostream> #include <boost/uuid/uuid.hpp> #include < ...
Express+Mongoose(MongoDB)+Vue2全栈微信商城项目全记录(一)
最近用vue2做了一个微信商城项目,因为做的比较仓促,所以一边写一下整个流程,一边稍做优化. 项目github地址:https://github.com/seven9115/vue-fullstack ...
Maven环境下多模块项目构建
Maven环境下多模块项目构建一.新建项目 1.建立我们的父模块par 2.建立我们的子模块dao层 3.建立我们的子模块service层 4.建立我们的子模块web层 5.全部配置完成后,怎么把我 ...
swing之复杂登陆界面的实现
package jiemian; import gonggong.message; import gonggong.messageType; import gonggong.user; import ...
前端项目使用module.exports文件一定要Webpack编译吗？请问gulp可以编译这种文件吗
import引入类似这种文件,一定要用webpack去编译吗 module.pxports 是CMD规范的一个全局函数,功能是当前模块对外提供接口.require可以直接使用这个接口.例子: echo ...
从XML文件乱码问题，探寻其背后的原理 (ZHUAN)
出现应用程序读取XML文件乱码的场景: 加入xml文件以<?xml version="1.0" encoding="utf-8" ?> 格式的:如果 ...

PCL —— RCNN Family 中层次点云处理