yolo3的改变

转自：https://zhuanlan.zhihu.com/p/35394369

YOLOv3的前世今生

2013年，R-CNN横空出世，目标检测DL世代大幕拉开。

各路豪杰快速迭代，陆续有了SPP，fast，faster版本，至R-FCN，速度与精度齐飞，区域推荐类网络大放异彩。

奈何，未达实时检测之基准，难获工业应用之青睐。

此时，凭速度之长，网格类检测异军突起，先有YOLO，继而SSD，更是摘实时检测之桂冠，与区域推荐类二分天下。然准确率却时遭世人诟病。

遂有JR一鼓作气，并coco，推v2，增加输出类别，成就9000。此后一年，作者隐遁江湖，逍遥twitter。偶获灵感，终推v3，横扫武林！

准确率不再是短板

自从YOLO诞生之日起，它就被贴上了两个标签，

1.速度很快。

2.不擅长检测小物体。

而后者，成为了很多人对它望而却步的原因。

由于原理上的限制，YOLO仅检测最后一层卷积输出层，小物体像素少，经过层层卷积，在这一层上的信息几乎体现不出来，导致难以识别。

YOLOv3在这部分提升明显。先看看小物体的识别。

YOLOv3的识别结果

直观地看下和YOLOv2的对比图如下。可以看出，对于小物体的识别，提高非常明显。

无论是传统的模式识别图像检测，还是基于CNN的视觉检测，对于紧凑密集或者高度重叠目标的检测通常是非常困难的。比如对合影的人群检测在YOLOv2上的结果：

而下面是v3的结果：

前方高能预警。。。。。。。。。。。。。。。。

一次检测到图中90%的人，还增加了tie（领带）这个新类别，非常惊艳！

再看看模型的泛化能力如何：

骷髅并不在训练数据集中，但是通过训练模型强大的泛化能力，自动将其归类到了人类。（也算是最为合理的近似处理了）

这在YOLOv2中是检测不到的。

那么，模型泛化能力很强的副作用，就是分类结果跑偏，比如下面这张coser的识别图，最左侧的人识别成了马：

训练和检测都很快

论文中做了详尽的对比。

和前辈们比，YOLO 的速度非常快，比 R-CNN 快 1000 倍，比 Fast R-CNN 快 100 倍。

和同辈们比，YOLOv3-608检测准确率比DSSD更高，接近FPN，但是检测时间却只用了后面两者的三分之一不到。

原因如论文中所说，它在测试时观察整张图像，预测会由图像中的全局上下文（global context）引导。它还通过单一网络评估做出预测，而不像 R-CNN 这种系统，一张图就需要成千上万次预测。

用了哪些黑科技？

多级预测：终于为yolo增加了top down 的多级预测，解决了yolo颗粒度粗，对小目标无力的问题。v2只有一个detection，v3一下变成了3个，分别是一个下采样的，feature map为13*13，还有2个上采样的eltwise sum，feature map为26*26，52*52，也就是说v3的416版本已经用到了52的feature map，而v2把多尺度考虑到训练的data采样上，最后也只是用到了13的feature map，这应该是对小目标影响最大的地方。在论文中从单层预测五种boundingbox变成每层3种boundongbox；
loss不同：作者v3替换了v2的softmax loss 变成logistic loss，由于每个点所对应的bounding box少并且差异大，每个bounding与ground truth的matching策略变成了1对1。当预测的目标类别很复杂的时候，采用logistic regression进行分类是更有效的，比如在Open Images Dataset数据集进行分类。在这个数据集中，会有很多重叠的标签，比如女人、人，如果使用softmax则意味着每个候选框只对应着一个类别，但是实际上并不总是这样。复合标签的方法能对数据进行更好的建模。
加深网络： 采用简化的residual block 取代了原来 1×1 和 3×3的block; (其实就是加了一个shortcut，也是网络加深必然所要采取的手段)。这和上一点是有关系的，v2的darknet-19变成了v3的darknet-53，为啥呢？就是需要上采样啊，卷积层的数量自然就多了，另外作者还是用了一连串的3*3、1*1卷积，3*3的卷积增加channel，而1*1的卷积在于压缩3*3卷积后的特征表示。
router：由于top down 的多级预测，进而改变了router（或者说concatenate）时的方式，将原来诡异的reorg改成了upsample

下一代YOLO长啥样？

mAP会继续提高。随着模型训练越来越高效，神经网络层级的不断加深，信息抽象能力的不断提高，以及一些小的修修补补，未来的目标检测应用mAP会不断提升。
实时检测会成为标配。目前所谓的“实时”，工业界是不认可的。为什么呢，因为学术圈的人，验证模型都是建立在TitanX或者Tesla这类强大的独立显卡上，而实际的潜在应用场景中，例如无人机/扫地/服务机器人/视频监控等，是不会配备这些“重型装备”的。所以，在嵌入式设备中，如FPGA，轻量级CPU上，能达到的实时，才是货真价实的。
模型小型化成为重要分支。类似于tiny YOLO的模型分支会受到更多关注。模型的小型化是应用到嵌入式设备的重要前提。而物联网机器人无人机等领域还是以嵌入式设备为主的。模型剪枝/二值化/权值共享等手段会更广泛的使用。

说点题外话：

YOLO让人联想到龙珠里的沙鲁（cell），不断吸收同化对手，进化自己，提升战斗力：YOLOv1吸收了SSD的长处（加了 BN 层，扩大输入维度，使用了 Anchor，训练的时候数据增强），进化到了YOLOv2；

吸收DSSD和FPN的长处，仿ResNet的Darknet-53，仿SqueezeNet的纵横交叉网络，又进化到YOLO第三形态。

但是，我相信这一定不是最终形态。。。让我们拭目以待吧！

yolo3的改变的更多相关文章

Lua语言中文手册转载自网络
Programming in LuaCopyright ® 2005, Translation Team, www.luachina.net Programming in LuaProgramming ...
yolo3各部分代码详解（超详细）
0.摘要最近一段时间在学习yolo3,看了很多博客,理解了一些理论知识,但是学起来还是有些吃力,之后看了源码,才有了更进一步的理解.在这里,我不在赘述网络方面的代码,网络方面的代码比较容易理解,下面 ...
YOLO3升级优化版！Poly-YOLO：支持实例分割！
YOLO3升级优化版!Poly-YOLO:支持实例分割! POLY-YOLO: HIGHER SPEED, MORE PRECISE DETECTION AND INSTANCE SEGMENTATI ...
JavaScript动画-拖拽改变元素大小
▓▓▓▓▓▓ 大致介绍拖拽改变元素大小是在模拟拖拽上增加了一些功能效果:拖拽改变元素大小 ▓▓▓▓▓▓ 拖拽改变元素大小原理首先这个方块得知道我们想要改变这个它的大小,所以我给它设定一个范围,当 ...
【用户交互】APP没有退出前台但改变系统属性如何实时更新UI？监听系统广播，让用户交互更舒心~
前日,一小伙伴问我一个问题,说它解决了半天都没解决这个问题,截图如下: 大概楼主理解如下: 如果在应用中有一个判断wifi的开关和一个当前音量大小的seekbar以及一个获取当前电量多少的按钮,想知道 ...
javascript动画系列第四篇——拖拽改变元素大小
× 目录 [1]原理简介 [2]范围圈定 [3]大小改变[4]代码优化前面的话拖拽可以让元素移动,也可以改变元素大小.本文将详细介绍拖拽改变元素大小的效果实现原理简介拖拽让元素移动,是改变定位 ...
Android程序中--不能改变的事情
有时,开发人员会对应用程序进行更改,当安装为以前版本的更新时出现令人惊讶的结果 - 快捷方式断开,小部件消失或甚至根本无法安装. 应用程序的某些部分在发布后是不可变的,您可以通过理解它们来避免意外. ...
Android动态改变布局
遇到这么个需求,先看图: 其实是一个软件的登录界面,初始是第一个图的样子,当软键盘弹出后变为第二个图的样子,因为登录界面有用户名.密码.登录按钮,不这样的话软键盘弹出后会遮住登录按钮(其实之 ...
Grunt(页面静态引入的文件地址的改变探究)-V2.0
相关插件的引用: grunt-usemin 对页面的操作 grunt-contrib-cssmin 压缩css load-grunt-tasks 瘦身gruntfile grunt-rev给md5 ...

随机推荐

Windows10安装ubuntu & caffe GPU版
1.Ubuntu https://www.cnblogs.com/EasonJim/p/7112413.html https://blog.csdn.net/jesse_mx/article/deta ...
五子棋游戏SRS文档
SRS技术文档,包括对SRS的解释说明.SRS描述规范.软件需求规格说明书(SRS,Software Requirement Specification)是为了软件开发系统而编写的,主要用来描 ...
第二个spring，第五天
陈志棚:成绩的统筹李天麟:界面音乐徐侃:代码算法完成进度百分之70...会继续努力的!
NODE中解决跨域请求的问题
1.Node Express 解决请求跨域请求标签(空格分隔): 跨域 1是Access-Control-Allow-Origin 允许的域 2是Access-Control-Allow-Heade ...
Java使用HTTPClient4.3开发的公众平台消息模板的推送功能
代码引用,参考文章:http://www.cnblogs.com/feiyun126/p/4778556.html,表示感谢! package com.yuanchuangyun.cyb.manage ...
用IntelliJ IDEA编译，编译之后提示无效的标记: -release
软件版本:ideaIU-2016.3.2 JDK:jdk-9.0.4_windows-x64_bin 开始的时候建立一个maven项目,发现编译的时候提示[无效的标记: -release],以为是项目 ...
loadrunner 基础-学习笔记一
由于公司要使用loadrunner暂停学习jmeter 1 loadrunner组件: virtual user generator:录制最终用户业务流程并创建自动化性能测试脚本,vuser脚本 co ...
React 组件库框架搭建
前言公司业务积累了一定程度,需要搭建自己的组件库,有了组件库,整个团队开发效率会提高恨多. 做组件库需要提供开发调试环境,和组件文档的展示,调研了几个比较主流的方案,如下: docz 配置简单,功能 ...
@classmethod 与 @staticmethod 区别
docker--compose--sonarqube
Create this docker-compose.yml file: version: "2" services: sonarqube: image: sonarqube po ...