背景

  在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%)。由此,ConvNet的潜力受到广泛认可,一炮而红。既然convNet在图像分类任务上能取得好成绩,是不是也能放到目标检测任务上呢。本文就是用convNet解决目标检测任务的首次探索。在PASCAL VOC 2010上的mAP达到了53.7%。

方法

  模型一共分为三个模块。

  (1)region proposals(区域推荐))。在一张整图上面产生很多的侯选框,因为目标检测任务不仅要做分类,还得把目标框出来。这里其实是用了遍历的思想,先把可能存在目标的位置全部列出来,再一个个分类。这里用到的是selective search算法。

  (2)Feature extraction(特征提取)。这部分就是通过AlexNet的前5个conv层和前2个FC层对上面产生224*224*3的图片进行特征提取(注意:产生的子图片要resize到224*224*3,因为后面的FC层接受的是固定长度的vector),最终产生的是4096-d的feature vector。

  (3)SVM分类。使用SVM方法对每个4096-d的feature vector进行分类。注意,原AlexNet里面分类是在后面加一个FC层,把4096-d的vector转成N-d(N是类别数),然后用softmax算法做分类。作者之所以不用这种方法是因为实验中SVM方法效果更好。

  (4)bbox regression(边框回归)。 使用回归器精细修正候选框位置。

总结

  可以发现,RCNN的原理十分简单,先用selective search算法在整图上产生n个子图,再把子图resize到224*224*3,然后扔到AlexNet里面(FC-softmax层去掉),产生n个4096-d的vector,用SVM算法分类。

  它的贡献在于是用convNet解决目标检测问题的开山之作,模型的mAP比传统方法高,让更多人通过ConvNet来解决目标检测问题。

缺点

  (1)它的缺点当然也是很明显的,首先这种方法太暴力,一张图片要产生几千张子图,占用大量的磁盘空间;

  (2)还有就是效率低,我们可以发现,几千张图片肯定有非常多重合的部分,然而这些重合部分都要分开来计算,产生了大量的冗余计算。

目标检测论文解读1——Rich feature hierarchies for accurate object detection and semantic segmentation的更多相关文章

  1. 论文笔记:Rich feature hierarchies for accurate object detection and semantic segmentation

    在上计算机视觉这门课的时候,老师曾经留过一个作业:识别一张 A4 纸上的手写数字.按照传统的做法,这种手写体或者验证码识别的项目,都是按照定位+分割+识别的套路.但凡上网搜一下,就能找到一堆识别的教程 ...

  2. 目标检测(一)RCNN--Rich feature hierarchies for accurate object detection and semantic segmentation(v5)

    作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik 该论文提出了一种简单且可扩展的检测算法,在VOC2012数据集上取得的mAP比当 ...

  3. 深度学习论文翻译解析(八):Rich feature hierarchies for accurate object detection and semantic segmentation

    论文标题:Rich feature hierarchies for accurate object detection and semantic segmentation 标题翻译:丰富的特征层次结构 ...

  4. 目标检测--Rich feature hierarchies for accurate object detection and semantic segmentation(CVPR 2014)

    Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girshick J ...

  5. 目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Tech report

    目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Te ...

  6. 2 - Rich feature hierarchies for accurate object detection and semantic segmentation(阅读翻译)

    Rich feature hierarchies for accurate object detection and semantic segmentation Ross Girshick Jeff ...

  7. 论文笔记(一)---翻译 Rich feature hierarchies for accurate object detection and semantic segmentation

    论文网址: https://arxiv.org/abs/1311.2524 RCNN利用深度学习进行目标检测. 摘要 可以将ImageNet上的进全图像分类而训练好的大型卷积神经网络用到PASCAL的 ...

  8. 论文阅读笔记二十四:Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)

    论文源址:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要 在PASCAL VOC数据集上,最好的方法的思路是将低级信息与较高层次的上下文信息进 ...

  9. R-CNN(Rich feature hierarchies for accurate object detection and semantic segmentation)论文理解

    论文地址:https://arxiv.org/pdf/1311.2524.pdf 翻译请移步: https://www.cnblogs.com/xiaotongtt/p/6691103.html ht ...

随机推荐

  1. 6.2 DataFrame

    一.DataFrame概述 在Spark SQL中,DataFrame就是它的数据抽象,对DataFrame进行转换操作. DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅 ...

  2. Ubuntu 图形界面和终端切换

    场景 在使用Ubuntu时,不小心按下了 ctrl+alt+f3,突然进入终端,好慌 解决 Ubuntu保留了纯命令行模式,按下 ctrl+alt+f2-6 可以进入纯命令行界面 之后按下 ctrl+ ...

  3. gyp --depth . -D component=shared_library -Ibuild/standalone.gypi build/all.gyp

    gyp --depth . -D component=shared_library -Ibuild/standalone.gypi build/all.gyp

  4. leetcode347. 前 K 个高频元素

    题目最终需要返回的是前 kk 个频率最大的元素,可以想到借助堆这种数据结构,对于 kk 频率之后的元素不用再去处理,进一步优化时间复杂度. 具体操作为: 借助 哈希表 来建立数字和其出现次数的映射,遍 ...

  5. Java LinkedList用法

    本想找队列Queue,发现那是一个接口,LinkedList实现了Queue接口,可以当作队列来用. 一.概述 Java的LinkedList是一种常用的数据容器,与ArrayList相比,Linke ...

  6. NOIP模拟赛three(3)

    题目描述 Description 很久很久以前,有两个长度为 \(n\) 的排列 \(a\) 和 \(b\) 以及一个长度为 \(n\) 的由 \(1\) 和\(2\) 组成的序列 c.对于 \(1& ...

  7. 【BZOJ5457】城市(线段树合并)

    点此看题面 大致题意: 一棵树上每个点有颜色\(a_i\)和权值\(b_i\),求以每个点为根的子树内权值和最大的颜色及其权值和. 线段树合并 这是一道线段树合并板子题. (关于线段树合并,可参考我的 ...

  8. 【ECNU619】白网吧(差分)

    点此看题面 大致题意: 给你\(n\)个区间,求最多有多少个区间重叠,以及平均每个点被多少个区间覆盖. 第一个询问 这个应该可以直接离散化+差分,即我们先把每个区间右端点加\(1\),然后对于一个离散 ...

  9. 【Java并发专题之一】Java内存模型

    一.计算机内存模型 针对计算机机器而言,操作系统.JVM程序等其他所有程序都需要遵循内存模型规范.1.CPU技术发展1.1 CPU缓存的出现CPU的发展快于内存条,CPU的运算速度越来越快,内存条的读 ...

  10. win10挂载efi分区

    以管理员权限运行CMD然后输入:diskpart,启动diskpart工具,在diskpart的提示符下依次输入 * list disk-------------------------列出系统中拥有 ...