本宝宝最近心情不会,反正这篇也是搬用别人博客的了:(SSD就是YOLO+anchor(不同feature map 作为input))

引言

这篇文章是在YOLO[1]之后的一篇文章,这篇文章目前是一篇the-art-of-state的方法。这篇文章可以看到很多前人的影子,我所感受到这篇文章主要借鉴前人的有DeepNultiBox[2]、Faster R-CNN[3]、YOLO[1]、VGG16[4]等。

发表位置

问题引入

对于object detection,之前的方法都没有特别快,虽然YOLO很快,但是在准确性上下降了较多。作者就提出了一个速度很好,准确性还好的方法——SSD。

SSD核心思想

整个图片做输入,之后在输出层回归出box的位置和object的类别。与YOLO不同的是,SSD在输出层只用conv layer,而不是全链接层。

模型


这个模型,是以VGG16进行修改的,把VGG16的fc层换成conv层,中间还夹杂了maxpooling层。每个额外添加的conv层都输出一个Feature map,并以此作为预测一个输入,换句话说,这些不同scale的Feature map都作为预测的输入,以此来达到不同scale。作者举了一个例子,如果一个Feature map是m×n×p(width×height×channel)的,那么用3×3×p的kernel去产生value,产生了m×n个value。

为了方便读者理解这个网络结构,我把VGG[4]论文中的图粘贴过来了,作者用的是D这个模型进行修改的。

训练

default boxes

作者在这里提到的default boxes与faster R-CNN中的Anchor很类似,这里是按照YOLO中的想法,把每个Feature map(不同scale的)分成m×n个cell,每个cell有默认出k个default boxes,最后的predict box与default box有4个offset,并为每个predict box计算c个类的值。最后产生了(c+4)kmn个值。这里与faster R-CNN Anchor最大的不同就是,faster R-CNN是通过改变Anchor的大小来实现scalable的,SSD是改变Feature map大小来实现的。

训练目标

损失函数:这个与Faster R-CNN中的RPN是一样的,不过RPN是预测box里面有object或者没有,所以,没有分类,SSD直接用的softmax分类。location的损失,还是一样,都是用predict box和default box/Anchor的差 与 ground truth box和default box/Anchor的差 进行对比,求损失。 

以下,是我根据我的理解画的一张简单示意图。这个default box存在求损失,就是尽可能把X与Y的数值做到差值最小。

为default box选择尺度(scale)和长宽比

如果我们用m个Feature maps进行预测,那么尺度最大的是smax,最小的是smin,那么第k个Feature map的default boxes的尺度sk:
使用不同的长宽比,ar∈{1,2,3,1/2,1/3},长度(wr = sk × squr(ar)),高度(hr = sk / squr(ar))。除此之外,对于ar=1,还有一个情况sk‘= squr(sk × sk+1)。

negative数据处理

这种方法会产生很多个negative的数据,使positive与negative失去平衡,作者把negative:positive控制在3:1。

数据扩大

实验结果

PASCAL VOC2007

PASCAL VOC2012

COCO

模型分析

数据扩大很重要

多个default box 尺度更好

atrous 更快

目前,我还没有明白atrous是什么。

多个Feature map用于预测更好

SSD定位错误少

因为他把定位和分类放在一步里解决。

小目标效果不好

因为在top layer中,获得小目标的信息不多,扩大图片大小输入,会有改善。通过数据扩大也会有改善。

速度

使用 Titan X 、 cuDNN v4 、 Intel Xeon E5-2667v3@3.20GHz。

结论

  • SSD的各种特定和优点。
  • SSD将会获得更为广泛的应用。

个人想法

这篇文章在很早之前就想拜读,但是,到今天才扣完。之前读的object Detection文章基本都是在为了这篇做基础。这篇文章看完了,想法有很多,现在简单叙述一下把。

巨人肩膀

  • DeepMultiBox:这篇文章主要讲的多个scale的问题,利用图片放缩的方法进行不同scale多个框预测。文章在最后提到把定位分类放到one-shot的网络里面,我觉得作者可能受到这个的启发。
  • YOLO:YOLO这篇文章就是把定位和分类放在一个网络里面,同时彻底摆脱了之前位置推荐的方式。SSD中的default box的生成借鉴了YOLO中cell的想法。SSD在很多方面都是在于YOLO做对比。毕竟YOLO是发表在CVPR2016上的成果。
  • Faster R-CNN:这篇文章主要借鉴了Faster R-CNN中anchor的想法。正如作者在提到“similar to Faster R-CNN”,SSD里面提到的“default bounding box”直接按照anchor理解的话,便容易理解多了,SSD与Faster R-CNN中关于Anchor的使用区别主要在Scalable上。
  • VGG16:这个主要说的是个网络结构,SSD主要就是根据VGG16改的,VGG16中抛弃了之前用的5×5、7×7、11×11等大的卷积核,而是全用3×3的卷积核(VGG文章中提到了具体原因,大主要有1.更多个non-linear rectification layers.)。

作者提到的改进空间

    • “How to design the optimal tiling is an open question as well”,这是作者在提到default box的尺度问题时候说的。
    • 针对small object的问题,这个跟YOLO是一致的,我觉得这很可能是这样划分cell的问题。

SSD回归类物体检测的更多相关文章

  1. 物体检测算法 SSD 的训练和测试

    物体检测算法 SSD 的训练和测试 GitHub:https://github.com/stoneyang/caffe_ssd Paper: https://arxiv.org/abs/1512.02 ...

  2. ssd物体检测模型训练和测试总结

    参考网址:github:https://github.com/naisy/realtime_object_detection 2018.10.16ssd物体检测总结:切记粗略地看一遍备注就开始训练模型 ...

  3. 『计算机视觉』物体检测之RefineDet系列

    Two Stage 的精度优势 二阶段的分类:二步法的第一步在分类时,正负样本是极不平衡的,导致分类器训练比较困难,这也是一步法效果不如二步法的原因之一,也是focal loss的motivation ...

  4. [PyImageSearch] Ubuntu16.04 使用深度学习和OpenCV实现物体检测

    上一篇博文中讲到如何用OpenCV实现物体分类,但是接下来这篇博文将会告诉你图片中物体的位置具体在哪里. 我们将会知道如何使用OpenCV‘s的dnn模块去加载一个预训练的物体检测网络,它能使得我们将 ...

  5. 物体检测之FPN及Mask R-CNN

    对比目前科研届普遍喜欢把问题搞复杂,通过复杂的算法尽量把审稿人搞蒙从而提高论文的接受率的思想,无论是著名的残差网络还是这篇Mask R-CNN,大神的论文尽量遵循著名的奥卡姆剃刀原理:即在所有能解决问 ...

  6. Tensorflow物体检测(Object Detection)API的使用

    Tensorflow在更新1.2版本之后多了很多新功能,其中放出了很多用tf框架写的深度网络结构(看这里),大大降低了吾等调包侠的开发难度,无论是fine-tuning还是该网络结构都方便了不少.这里 ...

  7. yolo回归型的物体检测

    本弱又搬了另外一个博客的讲解: 缩进YOLO全称You Only Look Once: Unified, Real-Time Object Detection,是在CVPR2016提出的一种目标检测算 ...

  8. 物体检测丨Faster R-CNN详解

    这篇文章把Faster R-CNN的原理和实现阐述得非常清楚,于是我在读的时候顺便把他翻译成了中文,如果有错误的地方请大家指出. 原文:http://www.telesens.co/2018/03/1 ...

  9. cs231n---语义分割 物体定位 物体检测 物体分割

    1 语义分割 语义分割是对图像中每个像素作分类,不区分物体,只关心像素.如下: (1)完全的卷积网络架构 处理语义分割问题可以使用下面的模型: 其中我们经过多个卷积层处理,最终输出体的维度是C*H*W ...

随机推荐

  1. 两种方法实现TAB菜单及文件操作

    1,自定义属性的方法实现----TAB菜单操作 cursor:pointer; 鼠标的小手 <!DOCTYPE html> <html lang="en"> ...

  2. EVE-NG硬盘扩容,存储海量镜像

    EVE-NG硬盘扩容,存储海量镜像 来源 http://blog.51cto.com/sms1107/1928453 一.查看当前磁盘使用情况 /dev/mapper/eve--ng--vg-root ...

  3. 洛谷 P4066 [SHOI2003]吃豆豆 解题报告

    P4066 [SHOI2003]吃豆豆 题目描述 两个PACMAN吃豆豆.一开始的时候,PACMAN都在坐标原点的左下方,豆豆都在右上方.PACMAN走到豆豆处就会吃掉它.PACMAN行走的路线很奇怪 ...

  4. LibreOJ #539. 「LibreOJ NOIP Round #1」旅游路线(倍增+二分)

    哎一开始看错题了啊T T...最近状态一直不对...最近很多傻逼题都不会写了T T 考虑距离较大肯定不能塞进状态...钱数<=n^2能够承受, 油量再塞就不行了...显然可以预处理出点i到j走c ...

  5. HDU 4722 数位dp

    Good Numbers Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Tota ...

  6. python学习(九) 网络编程学习--简易网站服务器

    python `网络编程`和其他语言都是一样的,服务器这块步骤为:`1. 创建套接字``2. 绑定地址``3. 监听该描述符的所有请求``4. 有新的请求到了调用accept处理请求` Python ...

  7. Qt ------ 获取 wifi 信息

    QProcess:可以调用外部进程 netsh wlan show interfaces:可以查看连接哪个wifi netsh wlan show networks:显示所有可用的wifi netsh ...

  8. 面试的角度诠释Java工程师

    原文出处: locality 一.基础篇 1.面向对象的三大特性 继承.封装.多态 什么是继承?①继承是面向对象程序设计能够提高软件开发效率的重要原因之一.②继承是具有传递性的,就像现实中孙子不仅长得 ...

  9. IDEA调试服务器上部署的程序

    提出问题: 一个程序,部署在自己的电脑上,debug调试,相信大家都会,但是,如果我想debug调试非本地部署的程序怎么办呢.比如测试服务器上部署的程序. 其实这样的需求也是经常有的,比如一个大型的项 ...

  10. 1.ideal常用快捷键

    Alt+回车 导入包,自动修正Ctrl+N   查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L  格式化代码 Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如ge ...