第三节,目标检测---R-CNN网络系列
1、目标检测
检测图片中所有物体的
- 类别标签
- 位置(最小外接矩形/Bounding box)

区域卷积神经网络R-CNN
模块进化史

2、区域卷积神经网络R-CNN
- Region proposals+手工特征+分类器

R-CNN模块划分
- 模块1:Selective Search(SS)获取区域
- ~2000个区域Region proposals
- 跟分类无关,包含物体
- 区域预处理
- Bounding box膨胀
- 尺寸变换成227x227
- 模块2:AlexNet 网络
- 对所有区域进行特征提取
- fine-tune
- 模块3:线性SVMs分类器
- 对CNN特征(4096)进行分类
- 每个分类一个SVM
- 模块4:Bounding box回归模型
- 对SS提供的区域进行精化
- 基于CNN特征
- 每个分类一个SVM

正样本:所有Ground-truth区域
负样本:跟Ground-truth重合IoU<0.3的SS区域
R-CNN训练流程
- M<——在ImageNet上对CNN模型进行预训练pre-train
- M‘<——在SS生成的所有区域上对M进行fine-tune
- C<——在M’的Fc7特征上训练线性SVMs分类器
- R<——在M‘的Conv5特征上训练Bounding box回归模型
R-CNN测试阶段
- Selective Search(fast mode)提取~2000区域/图片
- 将所有区域膨胀+缩放到227x227
- 使用fine-tune过的AlexNet计算两套特征
- 为每个类别执行
- Fc7特征——>SVM分类器——>类别分值
- 使用非极大值抑制(IoU>=0.5)获取无冗余的区域子集
- 所有区域分值从大到小排序
- 剔除冗余:与最大分值区域IoU>=0.5的所有区域
- 保留该最大分值区域,剩余区域作为新候选集
- Conv5特征——>Bounding box回归模型——>Bbox偏差
- 使用Bbox偏差修正区域子集
- 为每个类别执行
R-CNN性能评价
True Positive区域:IoU>=0.5
False Positive区域:IoU<0.5
False Negative区域:遗漏的Ground truth区域
准确率precision:TP/(TP+FP)
号召率recall:TP/(TP+FN)
第C类的平均精度(AP):PR曲线之下的面积,是Precision对于Recall的积分。
mAP:所有类别的平均精度求和初一所有类别,即数据集中所有类的平均精度的平均值。
3、SSP-Net
- R-CNN速度慢的原因之一:卷积特征重复计算量太大,每张图片的~2000区域都会计算CNN特征
- 两大改进
- 直接输入整张图片,所有区域共享卷积计算(一遍):在Conv5层输出上提取所有区域的特征
- 引入空间金字塔池化(Spatial Pyramid Pooling):为不同尺寸的区域,在Conv5输出上提取特征;映射到尺寸固定的全连接层上。

SSP-空间金字塔池化:
- 替换Conv5的Pooling层
- 3个level和21个Bin:1x1,2x2,4x4
- Bin内使用Max pooling
SPP-Net训练过程
- M<——在ImageNet上对CNN模型进行pre-train
- F<——计算所有SS区域的SPP特征
- M'<——使用F特征fine tune新fc6——>fc7——>fc8层
- 与R-CNN区别:SPP特征<——Pool5特征;只finetune全连接层
- F'<——计算M'的fc7特征
- C<——使用F'特征训练线性SVM分类器
- R<——适应F特征训练Bounding box回归模型
4、Fast R-CNN网络
改进:
- 比R-CNN,SPP-Net更快的training/test
- 更高的mAP
- 实现end-to-end(端对端)单阶段训练:多任务损失函数(Multi-task loss)
- 所有层的参数都可以fine-tune
- 不需要离线存储特征文件
在SPP-Net基础上引入2个新技术

- 感兴趣区域池化层(RoI pooling layer)
- 多任务损失函数(Multi-task loss):分类器loss;Bounding box回归L1 loss。
5、Faster R-CNN=Fast R-CNN+RPN
集成Region Proposal Network(RPN)网络:取代离线Selective Search模块,解决性能瓶颈。
进一步共享卷积层计算;基于Attention注意机制;Region proposals量少质优:高precision,高recall。
训练过程:
Step1---训练RPN网络
- 卷积层初始化<——ImageNet上pretrained模型参数
Step2---训练Fast R-CNN网络
- 卷积层初始化<——ImageNet上pretrained模型参数
- Region proposals由Step1的RPN生成
Step3---调优RPN
- 卷积层初始化<——Fast R-CNN的卷积层参数
- 固定卷积层,finetune剩余层
Step4---调优Fast R-CNN
- 固定卷积层,finetune剩余层
- Region proposals由Step3的RPN生成
Region Proposal Network(RPN)网络:全卷积网络
- 3x3,256-d卷积层+ReLU<——输入图片的Conv5特征
- 1x1,4k-d卷积层——>输出k组proposal的offsets(r,c,w,h)
- 1x1,2k-d卷积层——>输出k组(object score,non-object score)
第三节,目标检测---R-CNN网络系列的更多相关文章
- 深度学习与CV教程(12) | 目标检测 (两阶段,R-CNN系列)
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
- 目标检测复习之YOLO系列
目标检测之YOLO系列 YOLOV1: blogs1: YOLOv1算法理解 blogs2: <机器爱学习>YOLO v1深入理解 网络结构 激活函数(leaky rectified li ...
- 使用Caffe完成图像目标检测 和 caffe 全卷积网络
一.[用Python学习Caffe]2. 使用Caffe完成图像目标检测 标签: pythoncaffe深度学习目标检测ssd 2017-06-22 22:08 207人阅读 评论(0) 收藏 举报 ...
- 目标检测复习之Anchor Free系列
目标检测之Anchor Free系列 CenterNet(Object as point) 见之前的过的博客 CenterNet笔记 YOLOX 见之前目标检测复习之YOLO系列总结 YOLOX笔记 ...
- 深度学习与CV教程(13) | 目标检测 (SSD,YOLO系列)
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
- AI佳作解读系列(五) - 目标检测二十年技术综述
计算机视觉中的目标检测,因其在真实世界的大量应用需求,比如自动驾驶.视频监控.机器人视觉等,而被研究学者广泛关注. 上周四,arXiv新出一篇目标检测文献<Object Detection ...
- 目标检测复习之Faster RCNN系列
目标检测之faster rcnn系列 paper blogs1: 一文读懂Faster RCNN Faster RCNN理论合集 code: mmdetection Faster rcnn总结: 网络 ...
- 关于目标检测的anchor问题
关于目标检测其实我一直也在想下面的两个论断: Receptive Field Is Natural Anchor Receptive Field Is All You Need 只是一直没有实验.但是 ...
- CNN目标检测系列算法发展脉络——学习笔记(一):AlexNet
在咨询了老师的建议后,最近开始着手深入的学习一下目标检测算法,结合这两天所查到的资料和个人的理解,准备大致将CNN目标检测的发展脉络理一理(暂时只讲CNN系列部分,YOLO和SSD,后面会抽空整理). ...
随机推荐
- day 13 迭代器、可迭代对象、迭代器对象、生成器、生成器对象、枚举对象
迭代器大概念 # 迭代器:循环反馈的容器(集合类型)# -- 不同于索引取值,但也可以循环的从容器对象中从前往后逐个返回内部的值# 优点:不依赖索引,完成取值# 缺点:不能计算长度,不能指定位取值( ...
- Shiro学习(一)——Shiro简介
Apache Shiro是Java的一个安全框架.目前,使用Apache Shiro的人越来越多,因为它相当简单,对比Spring Security,可能没有Spring Security做的功能强大 ...
- mysql分割逗号办法
https://blog.csdn.net/xcymorningsun/article/details/73436568
- System.getProperty System.getenv 区别 log4j取法
log4j 可以${}取系统变量相关属性 getProperty Java提供了System类的静态方法getenv()和getProperty()用于返回系统相关的变量与属性,getenv方法返回 ...
- 在Winform开发框架中使用DevExpress的内置图标资源
在开发Winform程序界面的时候,我们往往会使用一些较好看的图表,以便能够为我们的程序界面增色,良好的图标设置可以让界面看起来更加美观舒服,而且也比较容易理解,图标我们可以通过一些网站获取各种场景的 ...
- 传统C/S软件的"断骨增高"
前言: 由于院内临床业务需要高频强功能的用户界面互操作性要求,使得在HIT行业中存在大量的C/S型软件,尽管B/S软件应用范围正在扩大,但在很多场景中,C/S软件仍然顽强的生存和发展着. 不过随着行业 ...
- Vue slot插槽内容分发
slot插槽使用 使用场景,一般父组件中又一大段模板内容需要运用到子组件上.或者更加复杂的,子组件需要运用到父组件大段模板内容,而子组件却不知道挂载的内容是什么.挂载点的内容是由父组件来决定的. Sl ...
- 云计算openstack共享组件(3)——消息队列rabbitmq
队列(MQ)概念: MQ 全称为 Message Queue, 消息队列( MQ ) 是一种应用程序对应用程序的通信方法.应用程序通过读写出入队列的消息(针对应用程序的数据)来通信,而无需专用连接来链 ...
- vue应用或者是项目其实就是 实例(完成基本逻辑) + 组件(单文件组件,全局组件,局部组件,内置组件)来完成 ;
以上! 组件里面包含HTML,css, js,也就是一个完整的功能!
- Python——Flask框架
Flask框架相关知识构架 程序的基本结构 模板 Web表单 数据库 电子邮件 程序的结构 用户认证