deeplearning.ai 卷积神经网络 Week 3 目标检测听课笔记

本周的主题是对象检测（object detection）：不但需要检测出物体（image classification），还要能定位出在图片的具体位置（classification with localization），而且要能处理图片中的多个物体（detection）。

1. 例子：无人驾驶中确定图片是否有1）行人；2）小汽车；3）摩托车，并用矩形标记出物体在图像中的位置（b_x、b_y、b_h、b_w），如果三类目标都没有，则标记为4）背景。使用softmax分类这四种情况。这里只考虑每张图片最多有一个目标的情况。输出y = [p_c, b_x, b_y, b_h, b_w, c₁, c₂, c₃]^T。其中p_c表示图片中是否有目标，c₁、c₂、c₃表示该对象术语哪一类。如果图片中有一辆车，则标签y = [1, b_x, b_y, b_h, b_w, 0, 1, 0]^T；如果图片中没有目标，则标签y = [0, ？, ？, ？, ？, ？, ？, ？]^T，问号表示一旦p_c为0，其他参数都不重要。

　　第二个例子是人脸检测，往往我们会需要提取出若干关键点（landmark）（例如眼角、嘴角等）的像素位置，这里我们假设有64个关键点，此时的标签可以设置为 y = [p_c, l_1x, l_1y, l_2x, l_2y, ..., l_64x, l_64y]^T。p_c表示图片中是否有人脸。类似的还有人体检测，也是若干关键点（例如肘关节、肩关节等）。

2. 滑动窗口目标检测（sliding windows detection）

　　用从小到大不同大小的window去滑动遍历图片的每一部分，送入神经网络看这个区域是否有目标。这种方法的缺点是计算量太大。对于同一个window来说，滑动过程中截取的图片，会有很多共同区域，是不需要重复运算的。所以实际实现的时候（Sermanet et al., 2014, OverFeat: Integrated recognition, localization and detection using convolutional networks），我们是把整张图送给神经网络，最后得到的结果等价于先截取不同部分图片喂给系统，然后把得到结果拼成矩阵。如下图所示，上一行是常规的对14*14*3的图片进行处理，得到1*1*4的结果（对应上一段的例子行人、小汽车、摩托车和背景），下一行是大一些的图片16*16*3，我们不需要把它分割成四个14*14*3的图片分别执行前向传播，而是把它作为一张图片给系统进行计算，其中的公有区域可以共享很多计算，最后得到的2*2*4的结果，每个1*1*4对应一个子图片的结果。

3. 确定bouding box的位置

　　上一段滑动窗口的方法可以找到目标，但是不能输出最精确的边界框。这一节的内容就是得到更精确的边界框。

　　YOLO算法（Redmon et al., 2015, You Only Look Once: Unified real-time object detection）：把输入图片分成网格（这里选择了3*3，实际部署的时候会选择更密的网格比如19*19，这些网格之间是没有交集的，是纯纯的切开，不像滑动窗口），然后把这些格子逐一送给神经网络做前向计算（这里的逐一只是表达每个格子单独作用，实际情况是像滑动窗口的卷积实现一样把整张图片送给系统，只计算一次前向传播），每个格子会输出一个8*1的向量（y = [p_c, b_x, b_y, b_h, b_w, c₁, c₂, c₃]^T），所以最终输出3*3*8的矩阵。然后再是精细化的把每个网格内的物体拼成一个整体，最终得到精确的边界框。

　　每个grid内的b_x和b_y的取值范围是0~1之间，因为中心点必定在当前网格内（否则就属于其他网格），而b_h和b_w是有可能大于1的（即物体长度或者宽度大于网格边长）。这是一种最方便的参数化方法，论文里有一些更复杂的参数化方法。

　　NG推荐读YOLO的论文，友情提示说这篇论文非常难懂，他自己第一次看完全不知道作者在说什么，咨询了好一些资深的研究员，他们也不清楚。

4. 交并比函数（Intersection over union，IoU）

　　IoU一方面可以用来评价object detection算法，另一方面也可以作为参数改善算法。具体做法是计算两个边界框（一个是真实值，一个是预测值）交集和并集面积的比值。一般约定俗成的标准是0.5（这个值并没有什么理论依据，只是习惯，NG说也看到人设成更严格的0.6、0.7，但很少看到有人设到0.5以下），即IoU≥0.5，就说检测正确。如果预测完美等同于真实值，则 IoU=1。

5. 非极大值抑制（Non-max suppression）

　　算法可能会对同一个对象作出多次检测，非极大值抑制的目的是保证算法对每个对象只检测一次。

　　如果只检测一个目标，具体做法是：

　　　　1）每个边界框都会给检测出物体的概率，丢掉所有概率低于某个阈值（比如0.6）的边界框。

　　　　2）选出剩下边界框中最大概率那个并高亮，对于剩下的边界框，只要它和最大概率边界框的IoU小于某个阈值（比如0.5），则它就会被抑制（变暗）。重复执行这一步，直到遍历完所有的边界框。

　　　　3）这时候图上所有的边界框要么被高亮，要么变暗，可以直接扔掉变暗的边界框，只留下被高亮的，这些就是我们的预测结果。

　　如果是检测多个目标，比如三个，则把上述流程针对不同的目标重复三遍。

6. Anchor boxes

　　目的是让一个格子可以检测出多个对象。具体做法是引入人手工设计的模型（这里叫anchor boxes），比如行人就对应瘦高的竖着的矩形，汽车就对应矮胖的躺着的矩形。这时，标签y被拓展成16*1的向量，每个格子可以被标记出两个物体（标签的前八个元素对应anchor box 1，后八个对应anchor box 2）。这种做法有效的原因就是让目标检测更有针对性。

　　该算法没办法处理以下几种情况：1）如果只有两个anchor box，却有三类物体；2）如果两个物体分到同一个格子，并且它们的anchor box也是一样的。不过幸运的是这两种情况出现的概率不大，尤其是当我们把格子分得很细（比如19*19）。一般anchor box是手工设计的，可以选择5个甚至10个不同的anchor box，覆盖更多的不同的形状。更高阶的版本是用k-means算法选择anchor box。

7. Region proposal （候选区域）　

　　NG说region proposal的想法在目标检测领域也很有影响力，但是他自己相对用的比较少。

　　R-CNN（Girshik et. al., 2013. Rich feature hierarchies for accurate object detection and semantic segmentation.），意思是带区域（regions）的卷积网络，它尝试选出一些区域，在这些区域上运行卷机网络分类器是有意义的。具体做法是先用一个分割算法（segmentation algorithm），先找出可能2000多个色块（blob），然后在这2000多个色块上放置边界框并跑分类器，这样要处理的区域会少很多。

　　Fast R-CNN（Girshik, 2015. Fast R-CNN），用卷积的方式实现sliding window，并对所有候选区域执行分类计算。但得到候选区域的聚类算法依旧很慢。

　　Faster R-CNN（Ren et. al., 2016. Faster R-CNN: Towards real-time object detection with region proposal networks.），用卷积神经网络找候选区域。

　　NG说R-CNN的加速版本还是比YOLO慢得多。R-CNN需要两步：先找候选区域，再检测特征。相比之下，能够一步做完的YOLO是长远看来更有希望的方向。NG说这只是他一家之言。

deeplearning.ai 卷积神经网络 Week 3 目标检测听课笔记的更多相关文章

deeplearning.ai 卷积神经网络 Week 3 目标检测
本周的主题是对象检测(object detection):不但需要检测出物体(image classification),还要能定位出在图片的具体位置(classification with loca ...
deeplearning.ai 卷积神经网络 Week 4 特殊应用：人脸识别和神经风格转换听课笔记
本周课程的主题是两大应用:人脸检测和风格迁移. 1. Face verification vs. face recognition Verification: 一对一的问题. 1) 输入:image, ...
deeplearning.ai 卷积神经网络 Week 1 卷积神经网络听课笔记
1. 传统的边缘检测(比如Sobel)手工设计了3*3的filter(或者叫kernel)的9个权重,在深度学习中,这9个权重都是学习出来的参数,会比手工设计的filter更好,不但可以提取90度.0 ...
deeplearning.ai 卷积神经网络 Week 1 卷积神经网络
1. 传统的边缘检测(比如Sobel)手工设计了3*3的filter(或者叫kernel)的9个权重,在深度学习中,这9个权重都是学习出来的参数,会比手工设计的filter更好,不但可以提取90度.0 ...
deeplearning.ai 卷积神经网络 Week 2 深度卷积网络：实例研究听课笔记
1. Case study:学习经典网络的原因是它们可以被迁移到其他任务中. 1.1)几种经典的网络: a)LeNet-5(LeCun et al., 1998. Gradient-based lea ...
deeplearning.ai 卷积神经网络 Week 2 卷积神经网络经典架构
1. Case study:学习经典网络的原因是它们可以被迁移到其他任务中. 1.1)几种经典的网络: a)LeNet-5(LeCun et al., 1998. Gradient-based lea ...
deeplearning.ai 人工智能行业大师访谈 Andrej Karpathy 听课笔记
1. 本科的时候在多伦多大学上Geoffrey Hinton的课,在MNIST数字数据集上训练受限玻尔兹曼机,觉得很有趣.后来在UBC读硕士,上了另一门机器学习的课,那是他第一次深入了解神经网络的相关 ...
deeplearning.ai 人工智能行业大师访谈 Geoffrey Hinton 听课笔记
1. 怀揣着对大脑如何存储记忆的好奇,Hinton本科最开始学习生物学和物理学,然后放弃,转而学习哲学:然后觉得哲学也不靠谱,转而学习心理学:然后觉得心理学在解释大脑运作方面也不给力,转而做了一段时间 ...
deeplearning.ai 人工智能行业大师访谈 Yoshua Bengio 听课笔记
1. 如何走上人工智能的研究的?Bengio说他小时候读了很多科幻小说,1985年(64年出生,21岁)研究生阶段开始阅读神经网络方面的论文,对这个领域产生了热情. 2. 如何看深度学习这些年的发展? ...

随机推荐

个人的MySql配置总结
lower_case_table_names参数是用来设置MySQL是否让Schema和数据表大小写敏感,我测试的是在查询界面和MySQL控制台界面无法改变它的值,要在配置文件中改变(先关闭服务),一 ...
ABP .Net Core API和Angular前端APP集成部署
前言:在ABP官网(https://aspnetboilerplate.com)生成的.Net Core + Angular项目前后端是两个独立的项目,我们可以分开部署,也可以将前端和Web API一 ...
http性能测试工具wrk源码学习之开篇
1.前言最近工作需要测试nginx反向代理的性能,于是找了一些http测试工具,例如经典的Apache的ab.siege.wrk.wrk使用多线程事件驱动方式,支持lua脚本扩展.关于wrk介绍可以 ...
ArcGIS 网络分析[2.3] 最近设施点
什么是最近设施点? 仍然举一个生动形象例子说明. 我在大街的某一个点儿上,我急需上厕所,问:我3分钟内能到的最近的厕所在哪? 这就是最近设施点分析(ClosestFacility)--给定搜索半径,基 ...
bzoj 3991: [SDOI2015]寻宝游戏
Description 小B最近正在玩一个寻宝游戏,这个游戏的地图中有N个村庄和N-1条道路,并且任何两个村庄之间有且仅有一条路径可达.游戏开始时,玩家可以任意选择一个村庄,瞬间转移到这个村庄,然后可 ...
Java 浅析Thread.join()
概要本文分为三部分对 Thread.join() 进行分析: 1. join() 的示例和作用 2. join() 源码分析 3. 对网上其他分析 join() 的文章提出疑问 1. join() ...
【http转https】其之三 IIS_URL重写_http重定向到https
IIS_URL重写_http重定向到https 文:铁乐猫 2016年1月14日 IIS7以上支持URL Rewrite这个模块了,所以在我们做好了ssl证书这一块之后, 要对来自http的请求重定向 ...
Head First设计模式之生成器模式
一.定义将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示.建造者模式是一种对象创建型模式. 二.结构角色 Builder(抽象建造者):它为创建一个产品Product对象的 ...
解决myeclipse部署按钮不能点
找到MyEclipse的工作路径(一般点开myeclipse是会显示),然后到这个目录中去“\.metadata\.plugins\org.eclipse.core.runtime\.settings ...
MicroPython教程之TPYBoard开发板DIY小型家庭气象站
众所周知,iPhone6/6Plus内置气压传感器,不过大家对于气压传感器还是很陌生.跟字面的意思一样,气压传感器就是用来测量气压的,但测量气压对于普通的手机用户来说又有什么作用呢? 海拔高度测量对 ...

deeplearning.ai 卷积神经网络 Week 3 目标检测 听课笔记

deeplearning.ai 卷积神经网络 Week 3 目标检测 听课笔记的更多相关文章

随机推荐

热门专题

deeplearning.ai 卷积神经网络 Week 3 目标检测听课笔记

deeplearning.ai 卷积神经网络 Week 3 目标检测听课笔记的更多相关文章