yolo详解

文章《You Only Look Once: Unified, Real-Time Object Detection》提出方法下面简称YOLO。

目前，基于深度学习算法的一系列目标检测算法大致可以分为两大流派：
1.两步走（two-stage）算法：先产生候选区域然后再进行CNN分类(RCNN系列)，
2.一步走（one-stage）算法：直接对输入图像应用算法并输出类别和相应的定位(YOLO系列)

之前的R-CNN系列虽然准确率比较高，但是即使是发展到Faster R-CNN，检测一张图片如下图所示也要7fps(原文为5fps)，为了使得检测的工作能够用到实时的场景中，提出了YOLO。

YOLO的检测思想不同于R-CNN系列的思想，它将目标检测作为回归任务来解决。
下面来看看YOLO的整体结构：

由上两图所示，网络是根据GoogLeNet改进的，输入图片为448*448大小，输出为7×7×(2×5+20)

，现在看来这样写输出维度很奇怪，下面来看一下输出是怎么定义的。

将图片分为S×S
个单元格(原文中S=7)，之后的输出是以单元格为单位进行的：
1.如果一个object的中心落在某个单元格上，那么这个单元格负责预测这个物体。
2.每个单元格需要预测B个bbox值(bbox值包括坐标和宽高，原文中B=2)，同时为每个bbox值预测一个置信度(confidence scores)。也就是每个单元格需要预测B×(4+1)个值。
3.每个单元格需要预测C(物体种类个数，原文C=20，这个与使用的数据库有关)个条件概率值.
所以，最后网络的输出维度为S×S×(B×5+C)

，这里虽然每个单元格负责预测一种物体(这也是这篇文章的问题，当有小物体时可能会有问题)，但是每个单元格可以预测多个bbox值(这里可以认为有多个不同形状的bbox，为了更准确的定位出物体，如下图所示)。

因为这里是当作回归问题来解决的，所以所有的输出包括坐标和宽高最好都定义在0到1之间。网上看见一张比较详细的图如下。

来看一下每个单元格预测的B个(x,y,w,h,confidence)的向量和C的条件概率中，每个参数的含义(假设图片宽为{w_i}高为{hi}，将图片分为S×S)：
1.(x,y)是bbox的中心相对于单元格的offset
对于下图中蓝色框的那个单元格(坐标为(xcol=1,yrow=4))，假设它预测的输出是红色框的bbox,设bbox的中心坐标为(xc,yc),那么最终预测出来的(x,y)是经过归一化处理的，表示的是中心相对于单元格的offset，计算公式如下：
x=xcwiS−xcol,y=ychiS−yrow

2.(w,h)是bbox相对于整个图片的比例
预测的bbox的宽高为wb,hb
，(w,h)表示的是bbox的是相对于整张图片的占比，计算公式如下:
w=wbwi,h=hbhi

3.confidence
这个置信度是由两部分组成，一是格子内是否有目标，二是bbox的准确度。定义置信度为Pr(Object)∗IOUtruthpred
。
这里，如果格子内有物体，则Pr(Object)=1，此时置信度等于IoU。如果格子内没有物体，则Pr(Object)=0

，此时置信度为0

4.C类的条件概率
条件概率定义为Pr(Classi|Object)

，表示该单元格存在物体且属于第i类的概率。

在测试的时候每个单元格预测最终输出的概率定义为，如下两图所示（两幅图不一样，代表一个框会输出B列概率值）
Pr(Classi|Object)∗Pr(Object)∗IOUtruthpred=Pr(Classi)∗IOUtruthpred

最后将(S×S)×B×20 列的结果送入NMS，最后即可得到最终的输出框结果

最后来看一下训练YOLO使用的损失函数定义(本想自己用latex打的，后来有个符号一直打不出来，使用网友的图如下)

这里强调两点：
1.每个图片的每个单元格不一定都包含object，如果没有object，那么confidence就会变成0，这样在优化模型的时候可能会让梯度跨越太大，模型不稳定跑飞了。为了平衡这一点，在损失函数中，设置两个参数λcorrd
和λnoobj，其中λcorrd控制bbox预测位置的损失，λnoobj控制单个格内没有目标的损失。
2.对于大的物体，小的偏差对于小的物体影响较大，为了减少这个影响，所以对bbox的宽高都开根号。
---------------------

转自：CSDN
作者：Michaelliu_dev
原文：https://blog.csdn.net/liuxiaoheng1992/article/details/81983280

yolo详解的更多相关文章

YOLO 详解
YOLO核心思想:从R-CNN到Fast R-CNN一直采用的思路是proposal+分类 (proposal 提供位置信息, 分类提供类别信息)精度已经很高,但是速度还不行. YOLO提供了另一种更 ...
物体检测方法(1) - YOLO 详解
最近遇到一些卡证识别的检测问题,打算先把理论知识梳理一下,随后还会梳理一版代码注释. 以前的region+proposal来检测的框架,这一系列速度和精度不断提高,但是还是无法达到实时.存在的主要问题 ...
SSD（single shot multibox detector）算法及Caffe代码详解[转]
转自:AI之路这篇博客主要介绍SSD算法,该算法是最近一年比较优秀的object detection算法,主要特点在于采用了特征融合. 论文:SSD single shot multibox det ...
[转]CNN目标检测（一）：Faster RCNN详解
https://blog.csdn.net/a8039974/article/details/77592389 Faster RCNN github : https://github.com/rbgi ...
yolo3各部分代码详解（超详细）
0.摘要最近一段时间在学习yolo3,看了很多博客,理解了一些理论知识,但是学起来还是有些吃力,之后看了源码,才有了更进一步的理解.在这里,我不在赘述网络方面的代码,网络方面的代码比较容易理解,下面 ...
Linq之旅：Linq入门详解（Linq to Objects）
示例代码下载:Linq之旅:Linq入门详解(Linq to Objects) 本博文详细介绍 .NET 3.5 中引入的重要功能:Language Integrated Query(LINQ,语言集 ...
架构设计：远程调用服务架构设计及zookeeper技术详解（下篇）
一.下篇开头的废话终于开写下篇了,这也是我写远程调用框架的第三篇文章,前两篇都被博客园作为[编辑推荐]的文章,很兴奋哦,嘿嘿~~~~,本人是个很臭美的人,一定得要截图为证: 今天是2014年的第一天 ...
EntityFramework Core 1.1 Add、Attach、Update、Remove方法如何高效使用详解
前言我比较喜欢安静,大概和我喜欢研究和琢磨技术原因相关吧,刚好到了元旦节,这几天可以好好学习下EF Core,同时在项目当中用到EF Core,借此机会给予比较深入的理解,这里我们只讲解和EF 6. ...
Java 字符串格式化详解
Java 字符串格式化详解版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰文中如有纰漏,欢迎大家留言指出. 在 Java 的 String 类中,可以使用 format() 方法 ...

随机推荐

Selenium-ActionChainsApi接口详解
ActionChains 有时候我们在通过Selenium做UI自动化的时候,明明能够在DOM树内看到这个元素,但是我在通过driver click.sendkey的时候,就是点击不到或无法输入字符串 ...
libgdx学习记录7——Ui
libgdx中的UI设计主要通过其对应的Style类进行实现,也可以通过skin实现.如果没有编辑好的skin文件,可以创建一个默认的skin,再添加已经设计好的style类即可,然后在需要使用的地方 ...
华为手机自带浏览器不支持 ES6 语法
原文地址:https://caochangkui.github.io/huawei-es6/ 华为手机自带浏览器对 es6 语法的支持度极差,哪怕最新的荣耀10 手机也有该毛病!所以,移动端项目开发中 ...
SSISDB5：使用TSQL脚本执行Package
SSISDB 系列随笔汇总: SSISDB1:使用SSISDB管理Package SSISDB2:SSIS工程的操作实例 SSISDB3:Package的执行实例 SSISDB4:当前正在运行的Pac ...
用C++实现一个Brainfuck解释器
Brainfuck是一种极小化的计算机语言,只含有8种运算符,由于fuck在英语中是脏话,这种语言有时被称为brainfck或brainf**,甚至被简称为BF.正如它的名字所暗示,brainfuck ...
Java开源博客My-Blog之docker容器组件化修改
前言 5月13号上线了自己的个人博客,<Docker+SpringBoot+Mybatis+thymeleaf的Java博客系统开源啦>,紧接着也在github上开源了博客的代码,到现在为 ...
【LeetCode】数组--合并区间（56）
写在前面老粉丝可能知道现阶段的LeetCode刷题将按照某一个特定的专题进行,之前的[贪心算法]已经结束,虽然只有三个题却包含了简单,中等,困难这三个维度,今天介绍的是第二个专题[数组] 数组( ...
dp算法之平安果路径问题c++
前文:https://www.cnblogs.com/ljy1227476113/p/9563101.html 在此基础上更新了可以看到行走路径的代码. 代码: #include <iostre ...
Ubuntu环境如何上传项目到GitHub网站？
http://blog.csdn.net/ajianyingxiaoqinghan/article/details/70544159
继承多态 java相关基础知识
1:静态语句块.构造语句块(就是只有大括号的那块)以及构造函数的执行顺序例子: class HelloA { public HelloA() { System.out.println("H ...

yolo详解

yolo详解的更多相关文章

随机推荐

热门专题