目标检测算法（一）：R-CNN详解

参考博文：https://blog.csdn.net/hjimce/article/details/50187029

R-CNN（Regions with CNN features）--2014年提出

算法流程

　　1.输入一张图片，通过selective search算法找出2000个可能包括检测目标的region proposal（候选框）

　　2.采用CNN提取候选框中的图片特征（AlexNet输出特征向量维度为4096）

　　3.使用SVM对特征向量分类

　　4.bounding-box regression修正候选框位置

（一）候选框搜索

　　通过selective search算法可以搜索出2000个大小不同的矩形框，得到对应的坐标

　　遍历候选框：

　　　　对候选框进行筛选，去掉重复的、太小的方框等，假设剩余1500个。截取剩余的方框对应的图片，得到了1500张图片

　　　　由于CNN对输入图片的大小有要求，需要对以上图片进行缩放处理，方法有：各向异性缩放、各向同性缩放。缩放到CNN要求的大小

　　　　根据IOU对每一张图片进行标注，如IOU>0.5标注为目标类别（正样本），否则为背景类别（负样本）

　　我的理解：每一张原始图片都会生成1500个训练样本

（二）CNN提取特征

　　可选网络结构：AlexNet，Vgg-16

　　预训练：有监督预训练

　　　　物体检测的一个难点在于，物体标签训练数据少，如果要直接采用随机初始化CNN参数的方法，那么目前的训练数据量是远远不够的。

　　　　这种情况下，最好的是采用某些方法，把参数初始化了，然后在进行有监督的参数微调，文献采用的是有监督的预训练。

　　　　有监督预训练，我们也可以把它称之为迁移学习。比如你已经有一大堆标注好的人脸年龄分类的图片数据，训练了一个CNN，

　　　　用于人脸的年龄识别。然后当你遇到新的项目任务是：人脸性别识别，那么这个时候你可以利用已经训练好的年龄识别CNN模型，

　　　　去掉最后一层，然后其它的网络层参数就直接复制过来，继续进行训练。这就是所谓的迁移学习，说的简单一点就是把一个任务训练好的参数，

　　　　拿到另外一个任务，作为神经网络的初始参数值,这样相比于你直接采用随机初始化的方法，精度可以有很大的提高。

　　　　图片分类标注好的训练数据非常多，但是物体检测的标注数据却很少，如何用少量的标注数据，训练高质量的模型，这就是文献最大的特点，

　　　　这篇paper采用了迁移学习的思想。文献就先用了ILSVRC2012这个训练数据库（这是一个图片分类训练数据库），先进行网络的图片分类训练。

　　　　这个数据库有大量的标注数据，共包含了1000种类别物体，因此预训练阶段cnn模型的输出是1000个神经元，

　　　　或者我们也直接可以采用Alexnet训练好的模型参数。

　　fine-tuning

　　　　将最后一层的输出层单元数修改为目标检测的类别数+1,多出的一类为背景。输出层参数采用随机初始化，之前的参数不变。继续对网络进行训练。

（三）训练SVM

　　CNN最后的softmax层可以做分类，在论文中为什么要把softmax层换成SVM进行分类？

　　　　因为SVM和CNN分类时的正负样本定义不同，导致CNN+softmax输出比SVM精度要低。由于CNN容易过拟合，需要大量的训练样本，

　　　　所以CNN的样本标注比较宽松，IOU>0.5即标记为正样本。SVM适用于小样本训练，对样本的IOU要求较高，在训练时，IOU>0.7时标记为正样本。

　　由于SVM是二分类器，因此对每一个类别都需要训练一个SVM

（四）Bounding Box Regression--边框回归

　　详解

　　任务描述：G为目标边框（人为标注），P为网络计算得到的边框。边框回归的任务是计算从P到G^的映射f，使P经过映射以后得到与真实窗口G

　　　　　　更接近的G^

　　思路：平移+尺度缩放

　　输入：（训练时）CNN提取到的该边框的特征+Ground Truth即G的坐标

　　　　　（预测时）CNN提取到的该边框的特征

　　输出：需要进行的平移量和尺度缩放量，即P到G^的映射，包括4个值：Δx，Δy，Sw，Sh

　　通过计算得到新的回归框

目标检测算法（一）：R-CNN详解的更多相关文章

第二十九节，目标检测算法之R-CNN算法详解
Girshick, Ross, et al. “Rich feature hierarchies for accurate object detection and semantic segmenta ...
目标检测算法之R-CNN算法详解
R-CNN全称为Region-CNN,它可以说是第一个成功地将深度学习应用到目标检测上的算法.后面提到的Fast R-CNN.Faster R-CNN全部都是建立在R-CNN的基础上的. 传统目标检测 ...
深度学习之卷积神经网络(CNN)详解与代码实现（一）
卷积神经网络(CNN)详解与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10430073.html 目 ...
深度剖析目标检测算法YOLOV4
深度剖析目标检测算法YOLOV4 目录简述 yolo 的发展历程介绍 yolov3 算法原理介绍 yolov4 算法原理(相比于 yolov3,有哪些改进点) YOLOV4 源代码日志解读 yo ...
如何使用 pytorch 实现 SSD 目标检测算法
前言 SSD 的全称是 Single Shot MultiBox Detector,它和 YOLO 一样,是 One-Stage 目标检测算法中的一种.由于是单阶段的算法,不需要产生所谓的候选区域,所 ...
深度学习笔记之目标检测算法系列（包括RCNN、Fast RCNN、Faster RCNN和SSD）
不多说,直接上干货! 本文一系列目标检测算法:RCNN, Fast RCNN, Faster RCNN代表当下目标检测的前沿水平,在github都给出了基于Caffe的源码. • RCNN RCN ...
FCOS : 找到诀窍了，anchor-free的one-stage目标检测算法也可以很准 | ICCV 2019
论文提出anchor-free和proposal-free的one-stage的目标检测算法FCOS,不再需要anchor相关的的超参数,在目前流行的逐像素(per-pixel)预测方法上进行目标检测 ...
CNN详解
CNN详解版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7450413.html 前言这篇博客主要就是卷积神经网络(CNN) ...
目标检测算法YOLO算法介绍
YOLO算法(You Only Look Once) 比如你输入图像是100x100,然后在图像上放一个网络,为了方便讲述,此处使用3x3网格,实际实现时会用更精细的网格(如19x19).基本思想是, ...
FAIR开源Detectron：整合全部顶尖目标检测算法
昨天,Facebook AI 研究院(FAIR)开源了 Detectron,业内最佳水平的目标检测平台. 昨天,Facebook AI 研究院(FAIR)开源了 Detectron,业内最佳水平的目标 ...

随机推荐

一篇文章快速搞懂Qt文件读写操作
导读:Qt当中使用QFile类对文件进行读写操作,对文本文件也可以与QTextStream一起使用,这样读写操作会更加简便.QFileInfo可以用来获取文件的信息.QDir可以用于对文件夹进行操作. ...
Java 类初始化和实例初始化过程
1.类初始化过程 2.实例初始化过程 3.方法的重写
【转】Python进度条tqdm的使用
有时候在使用Python处理比较耗时操作的时候,为了便于观察处理进度,这时候就需要通过进度条将处理情况进行可视化展示,以便我们能够及时了解情况.这对于第三方库非常丰富的Python来说,想要实现这一功 ...
Linux教学资源服务器构建
1. 需求分析 1.1 课题简介随着计算机互联网的迅速发展,大多数学校已经实现教学的信息化,从传统的黑板教学方式转变为现阶段的多媒体教学,教学的资源,素材课件,甚至学生的作业也都实现数字化,为了实现 ...
重拾Java Web应用的基础体系结构
目录一.背景二.Web应用 2.1 HTML 2.2 HTTP 2.3 URL 2.4 Servlet 2.4.1 编写第一个Servlet程序 2.5 JSP 2.6 容器 2.7 URL映射到 ...
“大地主”IPV6的邻居发现BD
引入因为当初设计IPv4的时候,没有考虑到网络发展的速度这么快,到今现在IPv4有很多不足,32位的 IPv4地址不够用,现在128位的IPv6能完全够用,据说可以地球上每一粒沙子都分配一个地址,而 ...
UnitTest框架的快速构建与运行
我们先来简单介绍一下unittest框架,先上代码: 1.建立结构的文件夹: 注意,上面的文件夹都是package,也就是说你在new新建文件夹的时候不要选directory,而是要选package: ...
rtmp规范1.0全面指南
RTMP(real time messaging protocol)协议本文为Adobe rtmp规范1.0的中文介绍,其中内容大部分都是翻译自rtmp官方文档rtmp_specification_ ...
C#还原对图像做的修改
在C#程序中对图像进行处理,有的时候需要将处理后的图像还原,便于观察两者之间的区别,避免重新运行程序造成的麻烦.我是将之前写的Tab页中打开的图像进行还原,将原始图像数据保存在数据流中,然后从数据流中 ...
【原】通过Jenkin传值进Android代码
1) Jenkin中用-Pxxxx = yyyy来传值进gradle 2) 在AndroidManifest.xml中定义占位符: <meta-data android:name="X ...

目标检测算法（一）：R-CNN详解

目标检测算法（一）：R-CNN详解的更多相关文章

随机推荐

热门专题