Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks(理解)
0 - 背景
R-CNN中检测步骤分成很多步骤,fast-RCNN便基于此进行改进,将region proposals的特征提取融合成共享卷积层问题,但是,fast-RCNN仍然采用了selective search来进行region proposals的预测,者称为性能的瓶颈(selective search不能在GPU上运行,还没搞懂为何?)。因此faster-RCNN提出采用RPN网络来生成region proposals,且RPN和ROI Pooling之前的特征提取共享特征提取卷积层来加速模型。
R-CNN/fast-RCNN/faster-RCNN的对比图如下(图来自博客)

1 - 整体思路
  

(图来自博客)
1.1 - Region Proposal Networks(RPN)
RPN网络将一张图片(大小不限制)作为输入,输出一系列的proposals,并且每一个都有非背景(前景)得分。

(图来自博客)
1.2 - Anchors
参照图片金字塔思想,对于窗口(sliding windows)的每一个坐标,同时预测k个尺度的proposals,因此CLS有2k个输出(即每一个proposal是否为背景),reg有4k个输出(即对该边框回归偏移量),对于同一个位置的k个proposals称之为anchor,其可以通过面积以及长宽比进行定义。文中采用了9个anchor:三种面积$\{128^2,256^2,512^2\}\times$三种比例$\{1:1,1:2,2:1\}$。
           
注意到,由于Anchors是对称出现了,所以保证了Translation-Invariant Anchors(翻转不变性),即对于同一个物体被翻转但仍然可以用相同的函数进行预测。
1.3 - 窗口分类&位置精修
分类层输出每一个位置上anchor属于前景还是背景的概率(从proposal提取出256维特征),窗口回归层输出每一个位置上anchor对应窗口与真实边界框的平移缩放参数(4个平移缩放参数)。
1.4 - 训练
1.4.1 - 样本
考虑训练集中的每张图片:
- 对于每个标注了真实边界框的位置,与其IOU最大的anchor记为前景样本
 - 对第一步剩下的anchor,若其与真实边界框的IOU值大于0.7,记为前景样本,如果小于0.3,记为背景样本
 - 对于上述两步剩下的anchor丢弃不用
 - 跨越图像边界的anchor丢弃不用
 
1.4.2 - 损失函数
$$L({p_i},{t_i})=\frac{1}{N_{cls}}\sum_{i}L_{cls}(p_i,p_i^*)+\lambda \frac{1}{N_{reg}}\sum_{i}p_i^*L_{reg}(t_i,t_i^*)$$
1.4.3 - 近似联合训练
在SGD过程中,在训练的时候先前向传播,产生proposals后就认为proposlas是固定的,接着用其训练Fast RCNN,损失函数是它们共同的损失函数,这种方法同时迭代两个网络的参数,作者认为效果不好(我认为是将共有的特征抽取分离了?)
1.4.4 - 交替训练
- 从$W_0$开始,训练PRN,用PRN提取训练集上的proposals
 - 从$W_0$开始,用proposals训练Fast RCNN,参数记为$W_1$
 - 从$W_1$开始,训练PRN
 
执行两次迭代,并且在训练时冻结部分共享层,可以达到不错的效果。
2 - 实验
相比Fast RCNN消除了selective search的性能瓶颈,提高了模型效率。且与使用selective search方法相比,每张图生成的proposals从2000减少到300时,RPN方法(红蓝)的召回率下降不大,这说明RPN目的性更明确。
    
使用更大的Miscrosoft COCO库训练,直接在PASCAL VOC上测试,准确率提高6%,说明faster RCNN的泛化能力(迁移能力)良好,没有在训练集上过拟合。
        
3 - 参考资料
https://segmentfault.com/a/1190000012789608
https://blog.csdn.net/shenxiaolu1984/article/details/51152614
https://www.cnblogs.com/CZiFan/p/9903518.html
https://www.cnblogs.com/CZiFan/p/9901729.html
https://www.cnblogs.com/CZiFan/p/9901000.html
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks(理解)的更多相关文章
- 中文版 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
		
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 摘要 最先进的目标检测网络依靠区域提出算法 ...
 - 深度学习论文翻译解析(十三):Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
		
论文标题:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 标题翻译:基于区域提议(Regi ...
 - [论文理解] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
		
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 简介 Faster R-CNN是很经典的t ...
 - 目标检测(四)Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
		
作者:Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun SPPnet.Fast R-CNN等目标检测算法已经大幅降低了目标检测网络的运行时间. ...
 - 论文阅读笔记二十七:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks(CVPR 2016)
		
论文源址:https://arxiv.org/abs/1506.01497 tensorflow代码:https://github.com/endernewton/tf-faster-rcnn 室友对 ...
 - Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks论文理解
		
一.创新点和解决的问题 创新点 设计Region Proposal Networks[RPN],利用CNN卷积操作后的特征图生成region proposals,代替了Selective Search ...
 - Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
		
将 RCN 中下面 3 个独立模块整合在一起,减少计算量: CNN:提取图像特征 SVM:目标分类识别 Regression 模型:定位 不对每个候选区域独立通过 CN 提取特征,将整个图像通过 CN ...
 - 【CV论文阅读】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
		
由RCNN到FAST RCNN一个很重要的进步是实现了多任务的训练,但是仍然使用Selective Search算法来获得ROI,而FASTER RCNN就是把获得ROI的步骤使用一个深度网络RPN来 ...
 - 目标检测--Scalable Object Detection using Deep Neural Networks(CVPR 2014)
		
Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander ...
 
随机推荐
- day8-基础函数的学习(三)
			
开始今日份总结 今日目录 1.生成器 2.列表推导式 3.匿名函数 4.装饰器 开始今日份总结 1.生成器 1.1 生成器的定义 定义:生成器本质就是迭代器,生成器是自己用python代码写的迭代器 ...
 - 011_如何decode url及图片转为base64文本编码总结
			
一.咱们经常会遇到浏览器给encode后的url,如何转换成咱们都能识别的url呢?很简单,talk is easy,Please show me your code,如下所示: (1)英文decod ...
 - pytorch实现性别检测
			
卷积神经网络的训练是耗时的,很多场合不可能每次都从随机初始化参数开始训练网络. 1.训练 pytorch中自带几种常用的深度学习网络预训练模型,如VGG.ResNet等.往往为了加快学习的进度,在 ...
 - 性能测试中的最佳用户数、最大用户数、TPS、响应时间、吞吐量和吞吞吐率
			
一:最佳用户数.最大用户数 转:http://www.cnblogs.com/jackei/archive/2006/11/20/565527.html 二: 事务.TPS 1:事务:就是用户某一步 ...
 - python3 闭包函数
			
'''闭包函数:内部函数引用外部函数变量(非全局变量)'''def func(y): x = 1 def func1(): print(x, y) return func1 f = func(2)pr ...
 - 修改xampp-apache访问目录
			
文章转自 https://my.oschina.net/u/3618644/blog/1569972 问题来源: 一般情况下,每个项目占用一个根目录,而不是一个根目录下面有多个项目. 比如说,安装xa ...
 - shell杀死指定端口的进程
			
杀死端口代码如下: lsof -i: kill - PID 上面的与下面的代码作用相同. 命令如下所示(这种方式更自动化): kill - $(netstat -nlp | grep : | awk ...
 - 学习笔记《Mustache》模板
			
Mustache 是一款经典的前端模板引擎,在前后端分离的技术架构下面,前端模板引擎是一种可以被考虑的技术选型,随着重型框架(AngularJS.ReactJS.Vue)的流行,前端的模板技术已经成为 ...
 - Andriod App类型简介
			
App三种类型与区别 原生应用程序:(Native App) 原生APP是什么?原生APP就是利用Android.iOS平台官方的开发语言.开发类库.工具进行开发.比如安卓的java语言,iOS的ob ...
 - tensorflow分布式训练
			
https://blog.csdn.net/hjimce/article/details/61197190 tensorflow分布式训练 https://cloud.tencent.com/dev ...