deeplearning.ai 卷积神经网络 Week 3 目标检测听课笔记

本周的主题是对象检测（object detection）：不但需要检测出物体（image classification），还要能定位出在图片的具体位置（classification with localization），而且要能处理图片中的多个物体（detection）。

1. 例子：无人驾驶中确定图片是否有1）行人；2）小汽车；3）摩托车，并用矩形标记出物体在图像中的位置（b_x、b_y、b_h、b_w），如果三类目标都没有，则标记为4）背景。使用softmax分类这四种情况。这里只考虑每张图片最多有一个目标的情况。输出y = [p_c, b_x, b_y, b_h, b_w, c₁, c₂, c₃]^T。其中p_c表示图片中是否有目标，c₁、c₂、c₃表示该对象术语哪一类。如果图片中有一辆车，则标签y = [1, b_x, b_y, b_h, b_w, 0, 1, 0]^T；如果图片中没有目标，则标签y = [0, ？, ？, ？, ？, ？, ？, ？]^T，问号表示一旦p_c为0，其他参数都不重要。

　　第二个例子是人脸检测，往往我们会需要提取出若干关键点（landmark）（例如眼角、嘴角等）的像素位置，这里我们假设有64个关键点，此时的标签可以设置为 y = [p_c, l_1x, l_1y, l_2x, l_2y, ..., l_64x, l_64y]^T。p_c表示图片中是否有人脸。类似的还有人体检测，也是若干关键点（例如肘关节、肩关节等）。

2. 滑动窗口目标检测（sliding windows detection）

　　用从小到大不同大小的window去滑动遍历图片的每一部分，送入神经网络看这个区域是否有目标。这种方法的缺点是计算量太大。对于同一个window来说，滑动过程中截取的图片，会有很多共同区域，是不需要重复运算的。所以实际实现的时候（Sermanet et al., 2014, OverFeat: Integrated recognition, localization and detection using convolutional networks），我们是把整张图送给神经网络，最后得到的结果等价于先截取不同部分图片喂给系统，然后把得到结果拼成矩阵。如下图所示，上一行是常规的对14*14*3的图片进行处理，得到1*1*4的结果（对应上一段的例子行人、小汽车、摩托车和背景），下一行是大一些的图片16*16*3，我们不需要把它分割成四个14*14*3的图片分别执行前向传播，而是把它作为一张图片给系统进行计算，其中的公有区域可以共享很多计算，最后得到的2*2*4的结果，每个1*1*4对应一个子图片的结果。

3. 确定bouding box的位置

　　上一段滑动窗口的方法可以找到目标，但是不能输出最精确的边界框。这一节的内容就是得到更精确的边界框。

　　YOLO算法（Redmon et al., 2015, You Only Look Once: Unified real-time object detection）：把输入图片分成网格（这里选择了3*3，实际部署的时候会选择更密的网格比如19*19，这些网格之间是没有交集的，是纯纯的切开，不像滑动窗口），然后把这些格子逐一送给神经网络做前向计算（这里的逐一只是表达每个格子单独作用，实际情况是像滑动窗口的卷积实现一样把整张图片送给系统，只计算一次前向传播），每个格子会输出一个8*1的向量（y = [p_c, b_x, b_y, b_h, b_w, c₁, c₂, c₃]^T），所以最终输出3*3*8的矩阵。然后再是精细化的把每个网格内的物体拼成一个整体，最终得到精确的边界框。

　　每个grid内的b_x和b_y的取值范围是0~1之间，因为中心点必定在当前网格内（否则就属于其他网格），而b_h和b_w是有可能大于1的（即物体长度或者宽度大于网格边长）。这是一种最方便的参数化方法，论文里有一些更复杂的参数化方法。

　　NG推荐读YOLO的论文，友情提示说这篇论文非常难懂，他自己第一次看完全不知道作者在说什么，咨询了好一些资深的研究员，他们也不清楚。

4. 交并比函数（Intersection over union，IoU）

　　IoU一方面可以用来评价object detection算法，另一方面也可以作为参数改善算法。具体做法是计算两个边界框（一个是真实值，一个是预测值）交集和并集面积的比值。一般约定俗成的标准是0.5（这个值并没有什么理论依据，只是习惯，NG说也看到人设成更严格的0.6、0.7，但很少看到有人设到0.5以下），即IoU≥0.5，就说检测正确。如果预测完美等同于真实值，则 IoU=1。

5. 非极大值抑制（Non-max suppression）

　　算法可能会对同一个对象作出多次检测，非极大值抑制的目的是保证算法对每个对象只检测一次。

　　如果只检测一个目标，具体做法是：

　　　　1）每个边界框都会给检测出物体的概率，丢掉所有概率低于某个阈值（比如0.6）的边界框。

　　　　2）选出剩下边界框中最大概率那个并高亮，对于剩下的边界框，只要它和最大概率边界框的IoU小于某个阈值（比如0.5），则它就会被抑制（变暗）。重复执行这一步，直到遍历完所有的边界框。

　　　　3）这时候图上所有的边界框要么被高亮，要么变暗，可以直接扔掉变暗的边界框，只留下被高亮的，这些就是我们的预测结果。

　　如果是检测多个目标，比如三个，则把上述流程针对不同的目标重复三遍。

6. Anchor boxes

　　目的是让一个格子可以检测出多个对象。具体做法是引入人手工设计的模型（这里叫anchor boxes），比如行人就对应瘦高的竖着的矩形，汽车就对应矮胖的躺着的矩形。这时，标签y被拓展成16*1的向量，每个格子可以被标记出两个物体（标签的前八个元素对应anchor box 1，后八个对应anchor box 2）。这种做法有效的原因就是让目标检测更有针对性。

　　该算法没办法处理以下几种情况：1）如果只有两个anchor box，却有三类物体；2）如果两个物体分到同一个格子，并且它们的anchor box也是一样的。不过幸运的是这两种情况出现的概率不大，尤其是当我们把格子分得很细（比如19*19）。一般anchor box是手工设计的，可以选择5个甚至10个不同的anchor box，覆盖更多的不同的形状。更高阶的版本是用k-means算法选择anchor box。

7. Region proposal （候选区域）　

　　NG说region proposal的想法在目标检测领域也很有影响力，但是他自己相对用的比较少。

　　R-CNN（Girshik et. al., 2013. Rich feature hierarchies for accurate object detection and semantic segmentation.），意思是带区域（regions）的卷积网络，它尝试选出一些区域，在这些区域上运行卷机网络分类器是有意义的。具体做法是先用一个分割算法（segmentation algorithm），先找出可能2000多个色块（blob），然后在这2000多个色块上放置边界框并跑分类器，这样要处理的区域会少很多。

　　Fast R-CNN（Girshik, 2015. Fast R-CNN），用卷积的方式实现sliding window，并对所有候选区域执行分类计算。但得到候选区域的聚类算法依旧很慢。

　　Faster R-CNN（Ren et. al., 2016. Faster R-CNN: Towards real-time object detection with region proposal networks.），用卷积神经网络找候选区域。

　　NG说R-CNN的加速版本还是比YOLO慢得多。R-CNN需要两步：先找候选区域，再检测特征。相比之下，能够一步做完的YOLO是长远看来更有希望的方向。NG说这只是他一家之言。

deeplearning.ai 卷积神经网络 Week 3 目标检测听课笔记的更多相关文章

deeplearning.ai 卷积神经网络 Week 3 目标检测
本周的主题是对象检测(object detection):不但需要检测出物体(image classification),还要能定位出在图片的具体位置(classification with loca ...
deeplearning.ai 卷积神经网络 Week 4 特殊应用：人脸识别和神经风格转换听课笔记
本周课程的主题是两大应用:人脸检测和风格迁移. 1. Face verification vs. face recognition Verification: 一对一的问题. 1) 输入:image, ...
deeplearning.ai 卷积神经网络 Week 1 卷积神经网络听课笔记
1. 传统的边缘检测(比如Sobel)手工设计了3*3的filter(或者叫kernel)的9个权重,在深度学习中,这9个权重都是学习出来的参数,会比手工设计的filter更好,不但可以提取90度.0 ...
deeplearning.ai 卷积神经网络 Week 1 卷积神经网络
1. 传统的边缘检测(比如Sobel)手工设计了3*3的filter(或者叫kernel)的9个权重,在深度学习中,这9个权重都是学习出来的参数,会比手工设计的filter更好,不但可以提取90度.0 ...
deeplearning.ai 卷积神经网络 Week 2 深度卷积网络：实例研究听课笔记
1. Case study:学习经典网络的原因是它们可以被迁移到其他任务中. 1.1)几种经典的网络: a)LeNet-5(LeCun et al., 1998. Gradient-based lea ...
deeplearning.ai 卷积神经网络 Week 2 卷积神经网络经典架构
1. Case study:学习经典网络的原因是它们可以被迁移到其他任务中. 1.1)几种经典的网络: a)LeNet-5(LeCun et al., 1998. Gradient-based lea ...
deeplearning.ai 人工智能行业大师访谈 Andrej Karpathy 听课笔记
1. 本科的时候在多伦多大学上Geoffrey Hinton的课,在MNIST数字数据集上训练受限玻尔兹曼机,觉得很有趣.后来在UBC读硕士,上了另一门机器学习的课,那是他第一次深入了解神经网络的相关 ...
deeplearning.ai 人工智能行业大师访谈 Geoffrey Hinton 听课笔记
1. 怀揣着对大脑如何存储记忆的好奇,Hinton本科最开始学习生物学和物理学,然后放弃,转而学习哲学:然后觉得哲学也不靠谱,转而学习心理学:然后觉得心理学在解释大脑运作方面也不给力,转而做了一段时间 ...
deeplearning.ai 人工智能行业大师访谈 Yoshua Bengio 听课笔记
1. 如何走上人工智能的研究的?Bengio说他小时候读了很多科幻小说,1985年(64年出生,21岁)研究生阶段开始阅读神经网络方面的论文,对这个领域产生了热情. 2. 如何看深度学习这些年的发展? ...

随机推荐

【java】用HashMap计数，用TreeSet排序
package com.tn.hashMap; import java.util.HashMap; import java.util.TreeSet; public class HashMapDemo ...
【java】打印一个对象即打印出该对象toString()返回值
public class TestToString { public static void main(String[] args){ Node node1=new Node("东邪&quo ...
Python学习日记day3:数据类型
1.数据类型int :如1.2.4等, 用于计算 bool: True , False ,用户判断 str: 储存少量数据,进行操作.如:'fdasklfjfladfl','而而噩噩','1234' ...
go实例之函数
1.可变参数示例代码如下: package main import "fmt" // Here's a function that will take an arbitrary ...
ABP .Net Core API和Angular前端APP独立部署跨域问题（No Access-Control-Allow-Origin）
前言: 通过ABP官网(https://aspnetboilerplate.com)下载ASP.NET Core 2.x + Angular模板项目是按ReStful风格架构Web API和angul ...
.net中如何实现多线程
l线程肯定也是要执行一段代码的.所以要产生一个线程,必须先为该线程写一个方法,这个方法中的代码就是该线程运行所要执行的代码.(找个人来做一件事情) l线程启动时,通过委托调用该方法. (委托的好处) ...
mac安全权限解决
如果有以下提示的,并不是文件损坏了,而是macOS Sierra新系统取消了安装本地程序的功能. 解决办法如下: 1.首先打开终端(找不到哪里打开终端 command+空格搜索 "终端 ...
js获取样式、currentStyle和getComputedStyle的兼容写法
currentStyle获取计算后的样式,也叫当前样式.最终样式.优点:可以获取元素的最终样式,包括浏览器的默认值,而不像style只能获取行间样式,所以更常用到.注意:不能获取复合样式如backgr ...
我知道你不知道的负Margin
现如今,负margin技术的应用可谓越来越广,任一个大型站点惊鸿一瞥之下都会有其身影所在.个人认为负margin技术是学习css路上必不可缺少的课题之一,许多高级应用及疑难杂症修复都可以使用负marg ...
Nginx编译配置介绍
源码包 nginx-1.6.2.tar.gz --help 使用帮助 --prefix=PATH Nginx安装路径,如果没有指定,默认为/usr/local/nginx. --sbin-path=P ...

deeplearning.ai 卷积神经网络 Week 3 目标检测 听课笔记

deeplearning.ai 卷积神经网络 Week 3 目标检测 听课笔记的更多相关文章

随机推荐

热门专题

deeplearning.ai 卷积神经网络 Week 3 目标检测听课笔记

deeplearning.ai 卷积神经网络 Week 3 目标检测听课笔记的更多相关文章