[YOLO]《YOLOv3: An Incremental Improvement》笔记
相比较于前两篇论文,个人感觉YOLO3作者有点来搞笑的!!!虽然加了一些新的点子进来,但是,论文的开头是这样的:

简单理解就是作者花了很多时间玩Twitter去了,所以没有做啥研究!!!!
然后:

你可以引用自己的论文吗?猜猜谁会这么做,就是这家伙,然后我发现链接竟然是他自己这篇论文:

还有调侃下谷歌、脸书等大公司和目标检测等技术:

很多从事这项研究的在谷歌和脸书,所以我们应该相信他们不会用技术来采集我们的信息然后拿来卖!!!等等,你是说这才是技术的真正用途????哈哈,投资计算机视觉研究的都是军方的人,他们从未将新技术用来杀人!!!
接着作者说:

希望搞计算视觉的人是出于兴趣做一件快乐的事情,比如数数公园里斑马的数量,跟踪下房子周围的猫!!!!
重要的是接下来的一句,他说:

不要艾特我,我终于退出推特了!!!
好咯,言归正传,那么其实这篇论文相比较前两篇,倒是没啥其他特别的点,总结起来主要也就是新的骨架和多尺度。
一、Bounding Box Prediction
目标边界框的预测实际上也还是沿用YOLO2的做法,网络会预测每个网格中目标边界框的四个坐标tx、ty、tw、th,如果每个网格相对于整体图像的左上角的偏移量为(Cx,Cy),而先验边界框的宽度和高度为pw、ph,那么由预测值到坐标的映射如下:

训练的时候则是取所有损失的平方和。
YOLO3采用逻辑回归来预测每个边界框的包含目标的分数objectness score,如果边界框与ground truth object的重叠大于其它边界框,那么其分数为1,如果边界框不是最好的,但是与ground truth object的重叠大于一定阈值,那么就忽略该预测。系统只为每个ground truth object分配一个边界框,没有分配的边界框就不会对坐标或者类别的预测造成损失?

二、Class Prediction
类别预测,YOLO3不适用softmax,因为发现没啥特别影响,所以用独立的逻辑分类器。训练的时候用了二元交叉熵损失函数。
三、Predictions Across Scales
多尺度预测,YOLO3使用了三个尺度,借鉴了FPN,使用多尺度。最后一个卷积提取了一个三维的编码了边界框、目标分数和类别预测等信息的张量,以COCO数据集为例子,每个尺度都会预测三个边界盒子,那么每个尺度的张量大小为:

其中4为4个边界框偏移量,1个目标检测分数,80个类别的概率。三个尺度之间的大小关系是彼此2倍的递进的关系。通过上采样将小尺度特征图与大尺度特征图拼接,然后又新加一些卷积层对融合后的特征做了处理。
YOLO3同样使用K均值聚类来计算先验框,对三个尺度计算了9个类,分别为:

四、Feature Extractor
特征提取部分,YOLO3设计了新的骨架,Darknet53,因为用了53个卷积层:

新骨架与Darknet19和其它网络的性能对比如下:

Darknet53的表现还是比较好的。
四、Training
跟YOLO2的做法基本上是类似的。
五、Things We Tried That Didn’t Work
作者做了一些新的尝试,但是没有作用:
1、Anchor box x, y offset predictions:尝试用常规的先验框机制,也就是用线性激活函数预测x、y为边界框宽度和高度的倍数,但是没用。
2、Linear x, y predictions instead of logistic:用线性激活函数直接预测x、y偏移量,而不是用逻辑回归,没用。
3、Focal loss:尝试用Focal loss,但是没用,可能YOLO3对于Focal loss要解决的问题来说已经很溜了,不需要Focal loss了吧,这点作者做了一些测试,但是也说不准。
4、Dual IOU thresholds and truth assignment:尝试采用Faster RCNN采用的双阈值策略,但是没用。
六、YOLO3 表现:
在COCO上与其它算法的对比,不如RetinaNet,但是基本上也还是比SSD好一些(相爱相杀?)



论文:https://arxiv.org/pdf/1804.02767.pdf
支离东北风尘际,漂泊西南天地间。
三峡楼台淹日月,五溪衣服共云山。
羯胡事主终无赖,词客哀时且未还。
庾信平生最萧瑟,暮年诗赋动江关。
-- 杜甫 《咏怀古迹 五首 其一》
[YOLO]《YOLOv3: An Incremental Improvement》笔记的更多相关文章
- 深度学习论文翻译解析(一):YOLOv3: An Incremental Improvement
论文标题: YOLOv3: An Incremental Improvement 论文作者: Joseph Redmon Ali Farhadi YOLO官网:YOLO: Real-Time Obje ...
- 论文阅读笔记三十二:YOLOv3: An Incremental Improvement
论文源址:https://pjreddie.com/media/files/papers/YOLOv3.pdf 代码:https://github.com/qqwweee/keras-yolo3 摘要 ...
- 目标检测(七)YOLOv3: An Incremental Improvement
项目地址 Abstract 该技术报告主要介绍了作者对 YOLOv1 的一系列改进措施(注意:不是对YOLOv2,但是借鉴了YOLOv2中的部分改进措施).虽然改进后的网络较YOLOv1大一些,但是检 ...
- 目标检测:YOLO(v1 to v3)——学习笔记
前段时间看了YOLO的论文,打算用YOLO模型做一个迁移学习,看看能不能用于项目中去.但在实践过程中感觉到对于YOLO的一些细节和技巧还是没有很好的理解,现学习其他人的博客总结(所有参考连接都附于最后 ...
- 从YOLOv1到YOLOv3,目标检测的进化之路
https://blog.csdn.net/guleileo/article/details/80581858 本文来自 CSDN 网站,作者 EasonApp. 作者专栏: http://dwz.c ...
- YOLO v1到YOLO v4(下)
YOLO v1到YOLO v4(下) Faster YOLO使用的是GoogleLeNet,比VGG-16快,YOLO完成一次前向过程只用8.52 billion 运算,而VGG-16要30.69bi ...
- 检测算法简介及其原理——fast R-CNN,faster R-CNN,YOLO,SSD,YOLOv2,YOLOv3
1 引言 深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理.本文着重与分析目标检测领域的深度学习方法,对其中的经典模型框架进行深入分析. 目标检测可以理解为是物 ...
- AI佳作解读系列(二)——目标检测AI算法集杂谈:R-CNN,faster R-CNN,yolo,SSD,yoloV2,yoloV3
1 引言 深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理.本文着重与分析目标检测领域的深度学习方法,对其中的经典模型框架进行深入分析. 目标检测可以理解为是物 ...
- 论文笔记:目标检测算法(R-CNN,Fast R-CNN,Faster R-CNN,FPN,YOLOv1-v3)
R-CNN(Region-based CNN) motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的 ...
随机推荐
- ch3 盒模型、定位
标准盒模型.怪异盒模型 外边距叠加 当两个或者争夺垂直外边距相遇时,他们将形成一个外边距,这个外边距的高度等于两个发生叠加的外边距的高度中的较大者. 当一个元素出现在另一个元素上面时,第一个元素的底外 ...
- 「国家集训队」小Z的袜子
「国家集训队」小Z的袜子 传送门 莫队板子题. 注意计算答案的时候,由于分子分母都要除以2,所以可以直接约掉,这样在开桶算的时候也方便一些. 参考代码: #include <algorithm& ...
- 洛谷 P1263 宫廷守卫
被这道题折腾了 \(2\) 个小时. 按照题意,每个守卫的上下左右四个方向上应当都是墙,而不能出现其他的守卫. 如图是一个合法的放置方案.每个守卫四个方向上都是墙(包括宫廷外墙). 如图是一个非法的放 ...
- 【剑指Offer面试编程题】题目1503:二叉搜索树与双向链表--九度OJ
题目描述: 输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的双向链表.要求不能创建任何新的结点,只能调整树中结点指针的指向. 输入: 输入可能包含多个测试样例. 对于每个测试案例,输入的第一行为一个 ...
- main.js index.html与app.vue三者关系详解
main.js index.html与app.vue三者关系详解 2019年01月23日 11:12:15 Pecodo 阅读数 186 main.js与index.html是nodejs的项目启 ...
- vue2 Excel导出数据 js-xlsx的使用
vue2 Excel导出数据 js-xlsx的使用 https://www.jianshu.com/p/ea115a8e9107 小世界最温暖 关注 2018.11.19 16:08 字数 280 阅 ...
- PAT B1019/A1069 数字黑洞
给定任一个各位数字不完全相同的四位正整数,如果先把四个数字按照非递增排序,再按照非递减排序,然后用第一个数字减第二个数字,将得到一个新的数字,一直重复这样做,很快就会停在有“数字黑洞”之称的6147, ...
- Linux centos7 sed工具介绍
一.sed上 grep工具功能只能实现查找,不能把查找的内容替换. sed本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行查找.删除.替换字符或字符串.调换字符串位置.直接修改文件内容等 ...
- js select下拉框下拉跳转代码
下拉跳转原理很简单这个用到了select的onchangeg事件,只要这里改变我们就获取select值直接location.href=this.value即可. <select name=&qu ...
- app开屏广告
最近公司有个需求需要做app开屏广告(跳转到不同的页面)--下面是app开屏广告的处理 1.管理后台效果图 (1)广告链接--商品详情 (2)广告链接--关联模块 (3)广告链接--消息富文本 (4) ...