faster-rcnn自己的理解总结(包括它的前世今身R-CNN和fast R-CNN)

1、grandfather: R-CNN网络

结构如下：

工作流程：

Input(an image) Proposals(~2K个，在使用CNN提取特征之前还要先resize) feature maps 每类得分，再经过NMS筛选，再使用手工设计的回归器进行box regression；

缺点：

（1）速度慢，2K多个proposals都要经过CNN提取特征；

（2）先分类在再回归，没有实现end to end；

2、father: fast R-CNN网络

结构如下：

工作流程：

Input(an Image，同时已经用SS提取了proposals，知道了它们的位置) 整图的feature map（同时将proposals映射到了feature map上）（经过Rol Pooling的resize操作）再使用softmax分类以及box regssion

改进：

（1）不用再对每一个proposal单独提取特征，大大提高了速度；

（2）引入了ROI Pooling层；

（3）将分类和回归加入了网络，且共享卷积层，不用再像R-CNN中那样单独训练SVM和回归器了；

缺点：

（1）依然在使用SS(selective search)提取候选框，很耗时；

为了摒弃SS，我们取而代之使用RPN网络，即用CNN实现提取特征框的功能，这样一来所有的操作都可以通过CNN实现了，真正实现了end to end，然后我们的猪脚登场了：

3、son : faster-rcnn的网络结构如下：

如上图所示，（im_info = [M , N , scale_factor]），说一下它的前向传播流程：

（1）一般对于输入的图像，P*Q的原图先统一缩放为M*N，并且在前面的特征提取层（也可称“共享卷积层”）中，由于stride = 1 , pad = 1 , kernel size = 3 * 3，所以卷积前后图像大小不变，只有四个Pool层起到了作用，因此原始图像经过提取层后的feature map大小为（M / 16）* (N /16)，这样做也是为了使原始图像到feature map的缩放系数为整数从而使得feature map上的每个特征点和M*N的原始图像的区域坐标更方便地实现一一映射关系，这对后面生成proposal会有帮助；

（2）RPN结构中第一个层是一个3*3的卷积层，它作用在经过特征提取层后的feature map上，我觉得这个3*3的卷积作用是为了增加目标附近区域的语义理解；然后再经过两条支路，每条都首先经过一个1*1的卷积。先看上面一条，这条的作用是对“foreground”和"background"进行二分类，所以经过1*1之后的深度为18（9*2，对应每个点生成9个anchors和每个anchor两个类别），再看下面一条，也是经过一个1*1的卷积，深度为36（9*4）进行矩形框回归，然后这两条支路汇合，首先去除掉background类别，然后对于剩下的forground类别，利用im_info先将anchors放大到M*N的原始图像上，这些放大后在原始图像上的区域就是一开始的proposals，数量很多所以我们还要进行两次筛选：第一次，判断这些proposals是否大范围超出图像边界，剔除严重超出边界的；第二次，对剩下的proposals进行nms，然后对nms后的proposals根据cls scores进行排序，选取top-N个作为最终的proposals（一般在600个左右），其实到这里检测任务差不多就完成了，但作者后面还加另一步，相当于一个refine；

（3）之后就涉及到ROI Pooling层了，由于RPN输出的proposals对应的M*N的输入图像，所以我们先通过im_info中的scale_factor将其映射到特征提取层的feature map上，但由于后面需要经过全连接层，而这里每个proposals映射到feature map上的大小均不同，所以我们使用了ROI Pooling层将这些proposals映射后的大小固定（7*7或者6*6，好像论文和实现里稍微有点不同，看代码就知道了），然后这块固定的区域再经过全连接层进行分类和坐标框回归；

关于如何训练，参考这个：https://www.cnblogs.com/zf-blog/p/7142463.html

补充：

（1）bounding box regression:

faster-rcnn自己的理解总结(包括它的前世今身R-CNN和fast R-CNN)的更多相关文章

Faster RCNN代码理解（Python）
转自http://www.infocool.net/kb/Python/201611/209696.html#原文地址第一步,准备从train_faster_rcnn_alt_opt.py入: 初 ...
目标检测（四）Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
作者:Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun SPPnet.Fast R-CNN等目标检测算法已经大幅降低了目标检测网络的运行时间. ...
从编程实现角度学习Faster R-CNN（附极简实现）
https://www.jianshu.com/p/9da1f0756813 从编程实现角度学习Faster R-CNN(附极简实现) GoDeep 关注 2018.03.11 15:51* 字数 5 ...
小刘的深度学习---Faster RCNN
前言: 对于目标检测Faster RCNN有着广泛的应用,其性能更是远超传统的方法. 正文: R-CNN(第一个成功在目标检测上应用的深度学习的算法) 从名字上可以看出R-CNN是 Faster RC ...
原 CNN--卷积神经网络从R-CNN到Faster R-CNN的理解(CIFAR10分类代码)
1. 什么是CNN 卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Netwo ...
（原）faster rcnn的tensorflow代码的理解
转载请注明出处: https://www.cnblogs.com/darkknightzh/p/10043864.html 参考网址: 论文:https://arxiv.org/abs/1506.01 ...
Faster rcnn代码理解（4）
上一篇我们说完了AnchorTargetLayer层,然后我将Faster rcnn中的其他层看了,这里把ROIPoolingLayer层说一下: 我先说一下它的实现原理:RPN生成的roi区域大小是 ...
Faster rcnn代码理解（2）
接着上篇的博客,咱们继续看一下Faster RCNN的代码- 上次大致讲完了Faster rcnn在训练时是如何获取imdb和roidb文件的,主要都在train_rpn()的get_roidb()函 ...
Faster rcnn代码理解（1）
这段时间看了不少论文,回头看看,感觉还是有必要将Faster rcnn的源码理解一下,毕竟后来很多方法都和它有相近之处,同时理解该框架也有助于以后自己修改和编写自己的框架.好的开始吧- 这里我们跟着F ...

随机推荐

python csv与字典操作
# encoding: utf-8 import csv d1 = {'banana':3,'apple':4,'pear':1,'orange':2} d2 = {'banana':3,'orang ...
Ipython Notebook ipynb文件转化为Python脚本
欢迎关注博主主页,学习python视频资源方法1. pycharm可以打开方法2 https://jingyan.baidu.com/article/19192ad8edc736e53e57072 ...
MAC操作系统使用小技巧
MAC操作系统使用小技巧作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.修改主机名名称 1>.修改主机名称修改和查询的Ulinx命令如下: sudo scutil ...
Linux虚拟内存（swap）调优篇-“swappiness”,“vm.dirty_background_ratio”和“vm.dirty_ratio”
Linux虚拟内存(swap)调优篇-“swappiness”,“vm.dirty_background_ratio”和“vm.dirty_ratio” 作者:尹正杰版权声明:原创作品,谢绝转载 ...
SpringBoot笔记十二：缓存
目录非缓存项目缓存 JSR-107 Spring缓存抽象 @Cacheable @CachePut @CacheEvict @Caching @CacheConfig 整合Redis 先在Dock ...
Windows-kms
系统下载 Windows 长期服务版 Windows 10 Enterprise LTSC 2019 (x64) - DVD (Chinese-Simplified) 文件名 cn_windows_1 ...
ubuntu 配置minicom 进行串口开发
sudo apt-get install minicom sudo minicom -s Serial port setup Save setup as d ...
Centos配置ARP和Tomcat Native
Tomcat Native是用于Tomcat的一个可选组件,能够允许Tomcat使用一定的本地资源.性能.兼容性. 具体来说,Tomcat Native给了Tomcat访问 Apache Portab ...
【转】javascript代码混淆和压缩
隐藏 JavaScript 源代码?不,你只能混淆和压缩JavaScript源代码 http://www.yaohaixiao.com/tools/confuse-and-compressing-ja ...
java 用PDFBox 删除 PDF文件中的某一页
依赖: <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox-app ...

faster-rcnn自己的理解总结(包括它的前世今身R-CNN和fast R-CNN)

faster-rcnn自己的理解总结(包括它的前世今身R-CNN和fast R-CNN)的更多相关文章

随机推荐

热门专题