论文阅读笔记二十四：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)

论文源址：http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn

摘要

在PASCAL VOC数据集上，最好的方法的思路是将低级信息与较高层次的上下文信息进行结合。该文的两个亮点：（1）将CNN应用到region proposals 用于对目标物体的定位。（2）对于较少数量的标签数据，先在规模较大的数据集上进行有监督的预训练，然后针对特定场景进行微调，发现性能提升的较大。R-CNN：region with CNN features

介绍

特征问题：视觉识别任务主要基于SIFT 和HOG等特征。该文首次将CNN引入了目标检测任务中。该文主要针对两个问题：用深度网络对目标进行定位，在少量有标签的数据集上训练一个较大规模的模型。

不同于图像分类任务，检测要求在一张图片中对多个目标物进行定位。一种方法是将目标检测问题看作为是回归问题，但是效果并不理想。另一种方法是建立一个滑窗检测器。为了保留较多的空间信息，CNN只包含两层卷积和池化层。而该文网络中包含5层卷积层有较大的感受野，造成了滑动窗口式的精确定位发展为一项挑战。

该文通过对区域进行识别来解决CNN的定位问题。该网络对输入图片产生了2000个类别独立的候选框，使用CNN从每一个候选框中提取出固定长度的特征向量。然后使用不同类别分类的SVM对提取的特征进行分类。没有考虑候选框的形状只是简单的计算CNN的固定输入大小。

目标检测中存在的另一个挑战为有标记的数据量较少不足以训练较大的CNN。传统的解决方法是首先使用无监督进行预训练，然后进行有监督的微调。本文的另一个贡献是展示在大规模数据集上进行预训练，后在特定数据集上进行微调，其结果有较大的提升。较好的解决了在稀少数据集上训练大规模的卷积网络。R-CNN中唯一一个确定类别的组件为轻量级的矩阵乘和基于贪恋的非最大抑制处理。

基于R-CNN的目标检测

本文目标检测包含三个模型:（1）生成类别独立的感兴趣区域，定义可用于目标检测的候选框（2）卷积网络用于从每个候选框中提取出固定尺寸的特征向量。（3）一系列类别确定的线性SVM分类器。

region proposals: 一些用于区域框生成的方法如下。该文使用Selective Search作为候选框的生成方法。

特征提取: 从每个region proposal中提取4096维的特征向量。输入图片经过5个卷积层和两个全连接层提取特征，输入图片大小为227x227并经过了一个减均值处理。对于每个候选区域，首先调整其尺寸，使其变为大小为227x227满足CNN的输入要求。

目标检测的测试:首先基于SS方式从一张图片上提取2000张region proposals，然后将proposals wrap至227x227大小，送入CNN网络进行特征提取。对于分类，使用训练好的对应类别的分类器对提取的特征进行预测。得到图片中所有的scored 区域后，利用非最大抑制处理来删除冗余区域，标准是挑出IOU比阈值大的scored 区域。

运行时间分析：两个属性使检测过程高效：I：CNN的所有参数是共享的，减少了计算资源。II：经过CNN提取后的特征是低维的。类别确定的计算包含：矩阵乘和NMS，特征矩阵大小为2000x4096,SVM的权重为4096xN。N代表的为类别数。

训练过程：首先在ILSVRC2012数据集上进行预训练，然后，只在与ground truth IOU值大于0.5作为正训练样本，其余的作为负训练样本的wrapped proposals上进行微调训练。使用SGD优化方法，在没次迭代中，选择32个正训练样本，96个背景组成一个mini-batch，同时，由于负样本过少，偏向采样正样本。

目标类别的分类：要实现检测车的二分类问题，图片中围绕在车周围的区域很明显是一个正样本。不包含任何车的区域为负样本。难点在于如何检测到与车重叠的区域。该文通过IOU解决，IOU低于某个值代表负样本。特征从CNN中提取后，针对每个类别训练一个线性的SVM分类器。对于内存来说，训练数据过于庞大，因此，采用Hard negative minging 方法进行处理。

实验

正负样本的选取

将每个proposal与ground truth进行比较,IoU大于0.5的标记为正样本，对于某个类别中，与GroundTruth IoU的值小于0.3的标记为负样本。而0.3到0.5之间的则被丢弃。

生成框的回归模型

为了提高检测的准确性，训练一个线性回归模型。在通过SVM实现对每个候选区域的类别标记后，基于框回归器进行预测得到一个新的回归框。

训练算法的输入为：N个训练样本，，对于ground truth 的定义形式相似。

，通过定义线性函数，将P，与标记G建立联系。

在进行回归计算时，选取候选框与ground truth 的IoU大于0.6的作为回归训练样本。

reference

[1] B.Alexe,T.Deselaers,andV.Ferrari. Measuringtheobjectness of image windows. TPAMI, 2012. 2

[2] P. Arbel´aez, B. Hariharan, C. Gu, S. Gupta, L. Bourdev, and J. Malik. Semantic segmentation using regions and parts. In CVPR, 2012. 10, 11

[3] P. Arbel´aez, J. Pont-Tuset, J. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014. 3

[4] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV, 2012. 4, 10, 11, 13, 14

[5] J. Carreira and C. Sminchisescu. CPMC: Automatic object segmentation using constrained parametric min-cuts. TPAMI, 2012. 2, 3

[6] D. Cires¸an, A. Giusti, L. Gambardella, and J. Schmidhuber. Mitosisdetectioninbreastcancerhistologyimageswith deep neural networks. In MICCAI, 2013. 3

论文阅读笔记二十四：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)的更多相关文章

目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Tech report
目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Te ...
论文笔记：Rich feature hierarchies for accurate object detection and semantic segmentation
在上计算机视觉这门课的时候,老师曾经留过一个作业:识别一张 A4 纸上的手写数字.按照传统的做法,这种手写体或者验证码识别的项目,都是按照定位+分割+识别的套路.但凡上网搜一下,就能找到一堆识别的教程 ...
深度学习论文翻译解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation
论文标题:Rich feature hierarchies for accurate object detection and semantic segmentation 标题翻译:丰富的特征层次结构 ...
2 - Rich feature hierarchies for accurate object detection and semantic segmentation（阅读翻译）
Rich feature hierarchies for accurate object detection and semantic segmentation Ross Girshick Jeff ...
目标检测--Rich feature hierarchies for accurate object detection and semantic segmentation(CVPR 2014)
Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girshick J ...
论文笔记（一）---翻译 Rich feature hierarchies for accurate object detection and semantic segmentation
论文网址: https://arxiv.org/abs/1311.2524 RCNN利用深度学习进行目标检测. 摘要可以将ImageNet上的进全图像分类而训练好的大型卷积神经网络用到PASCAL的 ...
【CV论文阅读】：Rich feature hierarchies for accurate object detection and semantic segmentation
R-CNN总结不总结就没有积累 R-CNN的全称是 Regions with CNN features.它的主要基础是经典的AlexNet,使用AlexNet来提取每个region特征,而不再是传统 ...
R-CNN（Rich feature hierarchies for accurate object detection and semantic segmentation）论文理解
论文地址:https://arxiv.org/pdf/1311.2524.pdf 翻译请移步: https://www.cnblogs.com/xiaotongtt/p/6691103.html ht ...
目标检测论文解读1——Rich feature hierarchies for accurate object detection and semantic segmentation
背景在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红 ...

随机推荐

嵌入式开发平台迅为iTOP-4412开发板-ssh常见问题以及解决方法
一.基本网络,软件安装以及配置 ssh 软件无法登陆 Ubuntu,有可能是网络不通.SSH 软件未安装.环境变量没配置.防火墙未关闭等. 1. 网络连接使用 ssh 传输文件的前提是网络顺畅,即 ...
SpringBoot多模块搭建，依赖管理
1.创建springboot-multi-module父工程 File→New→Project 然后,Next,选择POM,其他名称自定义 Next→Finish. 说明:打开父工程的pom.xml ...
openstack Q版部署-----网络服务（neutron）安装部署（7）
一.数据库配置(控制节点) 控制节点创建数据库: CREATE DATABASE neutron; GRANT ALL PRIVILEGES ON neutron.* TO 'neutron'@'lo ...
truncate、delete、drop区别
语法: truncate table 表名 delete from 表名 drop table 表名应用范围: truncate 只能对表,且不能用于参与了索引的表,不能用于外键约束引用的表 del ...
hsf
参考文章: ----- 架构和框架的区别 1.HSF源码剖析 2.Http和RPC区别 3.分布式服务框架HSF 4.高并发架构系列:如何从0到1设计一个类Dubbo的RPC框架 5.HSF的原理分析 ...
Python3-IO模型
IO模型 IO模型介绍阻塞IO(blocking IO) 非阻塞IO(non-blocking IO) 多路复用IO(IO multiplexing) 异步IO(Asynchronous I/O) ...
Shell-cat url-list.txt | xargs wget -c
假如你有一个文件包含了很多你希望下载的 URL,你能够使用 xargs下载所有链接: cat url-list.txt | xargs wget -c
dubbo源码分析3——SPI机制中的ExtensionLoader类的objectFactory属性分析
ExtensionLoader类是整个SPI的核心类,每个SPI都会对应一个ExtensionLoader类实例,这个类的构造方法如下: private ExtensionLoader(Class&l ...
javascript高级程序语言学习笔记
1.加法操作符(+)的用法第一种情况,如果两个操作符都是数值,执行常规的加法计算. 第二种情况,如果两个操作数都是字符串,则将第二个操作数与第一个操作数拼接起来. 第三种情况,只有一个操作数是字符串 ...
Liunx之xl2TP的一键搭建
作者:邓聪聪 1 L2TP(Layer 2 Tunnel Protocol二层隧道协议l),上图说明了VPN的一些特点,出差员工或者外出员工通过拨特定号码的方式接入到企业内部网络; --------- ...

论文阅读笔记二十四：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)

论文阅读笔记二十四：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)的更多相关文章

随机推荐

热门专题