Yolo V3整体思路流程详解！

结合开源项目tensorflow-yolov3（https://link.zhihu.com/?target=https%3A//github.com/YunYang1994/tensorflow-yolov3），理解YOLO v3实现细节整体套路简单写写

1.数据预处理

voc_annotation.py生成训练测试txt文件，存储了图片路径，bbox和类别

dataset.py 的功能如下：

（1）通过读取voc_annotation.py生成的train.txt文件，对图片进行增强处理（包括旋转，随机裁剪和翻转等）；

（2）同时根据train.txt文件中读取的bbox生成对应的label,label存储大中小3种真实框的中心宽高置信度和类别；

2.网络结构

common.py定义卷积模块，残差模块，合并模块和上采样模块

backbone.py 定义darknet53网络结构

yolov3.py中build_nework（）返回3组大中小特征图（1*13*13*255，1*26*26*255,1*52*52*255） decode（）根据生成的网格计算中心坐标宽高置信度和类别

3.损失函数

主要分为三大部分: 边界框坐标损失, 分类损失和置信度损失。

（1）边界框损失

与yolo v1的边界框坐标损失类似，v3中使用误差平方损失函数分别计算(x, y, w, h)的Loss，然后加在一起。v1中作者对宽高(w, h)做了开根号处理，

为了弱化边界框尺寸对损失值的影响。在v3中作者没有采取开根号的处理方式，而是增加1个与物体框大小有关的权重，权重=2 - 相对面积，取值范围(1~2)。

（2）分类损失

判断网格内有无物体。使用误差平方损失函数计算类别class 的Loss。

（3）置信度损失

使用误差平方损失函数计算置信度conf 的Loss。

yolo v3三种不同尺度的输出，一共产生了(13*13*3+26*26*3+52*52*3)=10647个预测框。

这个10647就是这么来的。

最终Loss采用和的形式而不是平均Loss, 主要原因为预测的特殊机制, 造成正负样本比巨大, 尤其是置信度损失部分, 以一片包含一个目标为例,

置信度部分的正负样本比可以高达1:10646, 如果采用平均损失, 会使损失趋近于0, 网络预测变为全零, 失去预测能力。

大体粗略记录下，下面这位大神讲的很清楚，我就不照搬了

参考文章：https://zhuanlan.zhihu.com/p/80208709

Yolo V3整体思路流程详解！的更多相关文章

git概念及工作流程详解
git概念及工作流程详解既然我们已经把gitlab安装完毕[当然这是非必要条件],我们就可以使用git来管理自己的项目了,前文也多多少少提及到git的基本命令,本文就先简单对比下SVN与git的区别 ...
linux驱动由浅入深系列：高通sensor架构实例分析之三(adsp上报数据详解、校准流程详解)【转】
本文转载自:https://blog.csdn.net/radianceblau/article/details/76180915 本系列导航: linux驱动由浅入深系列:高通sensor架构实例分 ...
C++的性能C#的产能?! - .Net Native 系列《二》：.NET Native开发流程详解
之前一文<c++的性能, c#的产能?!鱼和熊掌可以兼得,.NET NATIVE初窥> 获得很多朋友支持和鼓励,也更让我坚定做这项技术的推广者,希望能让更多的朋友了解这项技术,于是先从官方 ...
[nRF51822] 5、霸屏了——详解nRF51 SDK中的GPIOTE（从GPIO电平变化到产生中断事件的流程详解）
:由于在大多数情况下GPIO的状态变化都会触发应用程序执行一些动作.为了方便nRF51官方把该流程封装成了GPIOTE,全称:The GPIO Tasks and Events (GPIOTE) . ...
迅为4412开发板Linux驱动教程——总线_设备_驱动注册流程详解
本文转自:http://www.topeetboard.com 视频下载地址: 驱动注册:http://pan.baidu.com/s/1i34HcDB 设备注册:http://pan.baidu.c ...
Linux启动流程详解【转载】
在BIOS阶段,计算机的行为基本上被写死了,可以做的事情并不多:一般就是通电.BIOS.主引导记录.操作系统这四步.所以我们一般认为加载内核是linux启动流程的第一步. 第一步.加载内核操作系统接 ...
iOS 组件化流程详解(git创建流程)
[链接]组件化流程详解(一)https://www.jianshu.com/p/2deca619ff7e
Lucene系列六：Lucene搜索详解（Lucene搜索流程详解、搜索核心API详解、基本查询详解、QueryParser详解）
一.搜索流程详解 1. 先看一下Lucene的架构图由图可知搜索的过程如下: 用户输入搜索的关键字.对关键字进行分词.根据分词结果去索引库里面找到对应的文章id.根据文章id找到对应的文章 2. L ...
JPEG图像压缩算法流程详解
JPEG图像压缩算法流程详解 JPEG代表Joint Photographic Experts Group(联合图像专家小组).此团队创立于1986年,1992年发布了JPEG的标准而在1994年获得 ...

随机推荐

Android Button点击效果（按钮背景变色、文字变色）
一. 说明 Android Button的使用过程中,我们会需要为Button添加点击效果,不仅仅按钮的背景色需要变化,而且有时,我们连文字的颜色都希望变化,我们可以使用StateListDrawab ...
Python--day71--分页功能
分页功能代码: from django.shortcuts import render # Create your views here. from app01 import models def b ...
H3C 帧中继网络拓扑
我来教你用AWS IoT.Part1--配置和接入
AWS的IOT服务在中国区才开放.由于工作原因需要简单试用评估.写一下自己简单试用的流程,供其他人参考. 直接贴流程 1.先注册一个类型(这里“类型”相对于编程,可以理解为父类,里面可以添加一些可继承 ...
Python--day39--进程池的回调函数callback
运行结果:
Spring Tool Suite记录
快速查询:选中项目名按CTRL+H
hdu 6851 Vacation（思维+贪心）
传送门 •题意有编号0到n,n+1辆车排队过红绿灯,从0到n离交通灯线越来越近每辆车都有一个最大速度v,车身长度l,和离交通灯线的距离s, 一辆车头到达线则说明这辆车已到达线如果一辆车前面没有紧 ...
C++ 图片格式转化和压缩
在做人脸识别底库图片导入的时候,需要支持主流的图片的格式,如jpeg.bmp.png等格式.所以需要对图片进行格式转化.图片过大的话,还有进行缩放等.本文介绍的是利用cximage开源库,来进行对图片 ...
Dart常见类型转换 Int String Double
int -> string age.toString() string -> int int.parse('100'); String -> double var onePointO ...
BGP团体属性的应用案例
XRV1 ===================================================================== version 15.5service times ...

Yolo V3整体思路流程详解！

Yolo V3整体思路流程详解！的更多相关文章

随机推荐

热门专题