Darknet_Yolov3模型搭建

Darknet_Yolov3模型搭建

YOLO（You only look once）是目前流行的目标检测模型之一，目前最新已经发展到V3版本了，在业界的应用也很广泛。YOLO的特点就是“快”，但由于YOLO对每个网格只预测一个物体，就容易造成漏检，对物体的尺度相对比较敏感，对于尺度变化较大的物体泛化能力较差。YOLO的基本原理是：首先对输入图像划分成7x7的网格，对每个网格预测2个边框，然后根据阈值去除可能性比较低的目标窗口，最后再使用边框合并的方式去除冗余窗口，得出检测结果，如下图：

Darknet卷积模块

Yolo系列的作者把yolo网络叫做Darknet，其实其他神经网络库都已经把卷积层写好了，直接堆叠起来即可。

darknet卷积模块是这个模型里最基本的网络单元，包括卷积层、batch norm(BN)层、激活函数，因此类型命名为 DarknetConv2D_BN_Leaky。原keras实现是卷积层加了L2正则化预防过拟合，Pytorch是把这个操作放到了Optimizer中，所以将在第三部分讲解。

用Pytorch需要注意, 如果训练的时候GPU显存不大，batch size设的很小，这时候就要考虑训练数据集的分布情况。举个例子，加入的batch size设成了1，但数据每张图差别都很大，这会导致的网络一直在震荡，即使网络能够训练到很低的training loss，

在做预测的时候效果也不好，这主要是BN造成的。因为每批数据的统计量（均值和方差）都不同，而且差别大，这就导致网络训练学不到好的BN层的统计量。如果直接去掉BN层，会发现网络训练非常慢，所以BN层还是要加的，好在Pytorch里的BN有个接口来控制要不要记住每批训练的统计量，即track_running_stats=True，如果训练的batch size不能设特别大，就把它改成False。

卷积层、BN层说完了，激活函数Yolo里用的是0.1的LeakReLU，本实验与ReLU没什么明显的区别。

结构很简答，这部分直接上代码，不画图了。

import torch.nn as nn

import torch

class DarknetConv2D_BN_Leaky(nn.Module):

def __init__(self, numIn, numOut, ksize, stride = 1, padding = 1):

super(DarknetConv2D_BN_Leaky, self).__init__()

self.conv1 = nn.Conv2d(numIn, numOut, ksize, stride, padding)#regularizer': l2(5e-4)

self.bn1 = nn.BatchNorm2d(numOut)

self.leakyReLU = nn.LeakyReLU(0.1)

def forward(self, x):

x = self.conv1(x)

x = self.bn1(x)

x = self.leakyReLU(x)

return x

残差模块

残差模块是借鉴了ResNet，残差模块是为了保证深的模型能够得到很好的训练。残差模块ResidualBlock，对外接口有numIn, numOut, numBlock，分别控制模块的输入通道数，输出通道数（卷积核数）和残差模块的堆叠次数。下图是一个numBlock = 2 的模型，注意这里CONV是指上一部分说的Darknet卷积模块，第一个模块（D2）表示是这个卷积模块stride = 2，顺便执行了2倍降采样操作。也就是说特征每经过一个残差模块，分辨率降为原来的一半。

class ResidualBlock(nn.Module):

def __init__(self, numIn, numOut, numBlock):

super(ResidualBlock, self).__init__()

self.numBlock = numBlock

self.dark_conv1 = DarknetConv2D_BN_Leaky(numIn, numOut, ksize = 3, stride = 2, padding = 1)

self.dark_conv2 = []

for i in range(self.numBlock):

layers = []

layers.append(DarknetConv2D_BN_Leaky(numOut, numOut//2, ksize = 1, stride = 1, padding = 0))

layers.append(DarknetConv2D_BN_Leaky(numOut//2, numOut, ksize = 3, stride = 1, padding = 1))

self.dark_conv2.append(nn.Sequential(*layers))

self.dark_conv2 = nn.ModuleList(self.dark_conv2)

def forward(self, x):

x = self.dark_conv1(x)

for convblock in self.dark_conv2:

residual = x

x = self.convblock(x)

x = x + residual

return x

后端输出模块

后端输出模块是一个三次降采样（三次升采样在下一部分介绍），这三次降采样+三次升采样，类似Encoder-Decoder的FCN模型。这是为了在三种不同尺度上预测。本系列将在voc2007上训练，训练前输入图片要resize到256x256，那么这三种尺度分别是32x32,16x16,8x8。这一部分是因为图片中的目标有大有小，为了保证从不同尺度上找到最好尺度的特征图来进行预测。当然准确提升的同时，由于分辨率有提升，计算量又有一定的增加，索性这里的分辨率不大。下图所示为最后输出模块，这个模块有两个输出，一个是用作下一个模块的输入，一个是用于输出目标检测结果，即坐标、类别和目标置信度，这一部分将在下一篇详细介绍。注意红色的Conv不是DarknetConv2D_BN_Leaky，而是指普通的卷积模块。

class LastLayer(nn.Module):

def __init__(self, numIn, numOut, numOut2):

super(LastLayer, self).__init__()

self.dark_conv1 = DarknetConv2D_BN_Leaky(numIn, numOut, ksize = 1, stride = 1, padding = 0)

self.dark_conv2 = DarknetConv2D_BN_Leaky(numOut, numOut*2, ksize = 3, stride = 1, padding = 1)

self.dark_conv3 = DarknetConv2D_BN_Leaky(numOut*2, numOut, ksize = 1, stride = 1, padding = 0)

self.dark_conv4 = DarknetConv2D_BN_Leaky(numOut, numOut*2, ksize = 3, stride = 1, padding = 1)

self.dark_conv5 = DarknetConv2D_BN_Leaky(numOut*2, numOut, ksize = 1, stride = 1, padding = 0)

self.dark_conv6 = DarknetConv2D_BN_Leaky(numOut, numOut*2, ksize = 3, stride = 1, padding = 1)

self.conv7 = nn.Conv2d(numOut*2, numOut2, 1, stride = 1, padding = 0)

def forward(self, x):

x = self.dark_conv1(x)

x = self.dark_conv2(x)

x = self.dark_conv3(x)

x = self.dark_conv4(x)

x = self.dark_conv5(x)

y = self.dark_conv6(x)

y = self.conv7(y)

return x,y

Yolov3模型

基本的模块已经定义好，Yolov3的模型就是把这些模型叠加起来。注意下图就是Yolov3的简化模型，数字表示该上一个模块的输出特征尺寸（CxHxW）,相应的颜色对应相应的模块。

class Yolov3(nn.Module):

def __init__(self, numAnchor, numClass):

super(Yolov3, self).__init__()

self.dark_conv1 = DarknetConv2D_BN_Leaky(3, 32, ksize = 3, stride = 1, padding = 1)

self.res1 = ResidualBlock(32, 64, 1)

self.res2 = ResidualBlock(64, 128, 2)

self.res3 = ResidualBlock(128, 256, 8)

self.res4 = ResidualBlock(256, 512, 8)

self.res5 = ResidualBlock(512, 1024, 4)

self.last1 = LastLayer(1024, 512, numAnchor*(numClass+5))

self.up1 = nn.Sequential(DarknetConv2D_BN_Leaky(512, 256, ksize = 1, stride = 1, padding = 0),

nn.Upsample(scale_factor=2))

self.last2 = LastLayer(768, 256, numAnchor*(numClass+5))

self.up2 = nn.Sequential(DarknetConv2D_BN_Leaky(256, 128, ksize = 1, stride = 1, padding = 0),

nn.Upsample(scale_factor=2))

self.last3 = LastLayer(384, 128, numAnchor*(numClass+5))

def forward(self, x):

x = self.dark_conv1(x)#32x256x256

x = self.res1(x)#64x128x128

x = self.res2(x)#128x64x64

x3 = self.res3(x)#256x32x32

x4 = self.res4(x3)#512x16x16

x5 = self.res5(x4)#1024x8x8

x,y1 = self.last1(x5)#512x8x8,

x = self.up1(x)#256x16x16

x = torch.cat((x, x4), 1)#768x16x16

x,y2 = self.last2(x)#256x16x16

x = self.up2(x)#128x32x32

x = torch.cat((x, x3), 1)#384x32x32

x,y3 = self.last3(x)#128x32x32

return y1,y2,y3

到这里模型已经完成，模型代码结构非常清晰。有人可能会问，为什么要这种堆叠方式，其实自己根据新的需求定义网络结构完全可以，但是要注意模型深度增加时如何保证收敛，如何加速模型训练，同时输出特征的分辨率要计算好。

Darknet_Yolov3模型搭建的更多相关文章

一周总结：AutoEncoder、Inception 、模型搭建及下周计划
一周总结:AutoEncoder.Inception .模型搭建及下周计划 1.AutoEncoder: AutoEncoder: 自动编码器就是一种尽可能复现输入信号的神经网络:自动编码器必须捕 ...
入门项目数字手写体识别：使用Keras完成CNN模型搭建（重要）
摘要: 本文是通过Keras实现深度学习入门项目——数字手写体识别,整个流程介绍比较详细,适合初学者上手实践. 对于图像分类任务而言,卷积神经网络(CNN)是目前最优的网络结构,没有之一.在面部识别. ...
Puppet master-agent模型搭建
Puppet master-agent模型工作过程: 基于ssl xmlrpc进行通信,端口8140/tcp agent:默认每隔30分钟向master发送node name和facts,并请求cat ...
模型搭建练习2_实现nn模块、optim、two_layer、dynamic_net
用variable实现nn.module import torch from torch.autograd import Variable N, D_in, H, D_out = 64, 1000, ...
模型搭建练习1_用numpy和tensor、variable实现前后向传播、实现激活函数
用numpy实现搭建一个简单的forward和backward import numpy as np N, D_in, H, D_out = 64, 1000, 100, 10 x = np.rand ...
从零搭建Pytorch模型教程（三）搭建Transformer网络
前言本文介绍了Transformer的基本流程,分块的两种实现方式,Position Emebdding的几种实现方式,Encoder的实现方式,最后分类的两种方式,以及最重要的数据格式的介绍. ...
Python中利用LSTM模型进行时间序列预测分析
时间序列模型时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征.这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型是依赖于事件发生的先后顺 ...
使用webgl(three.js)搭建一个3D建筑，3D消防模拟——第三课
项目背景消防安全一直是各大都市关注的重要课题,在消防体系中,特别是高楼消防体系中,消防系统整体布控与监控,火情有效准确定位,防火器材定位,人员逃生路径规划,火情预警,消防演习都是特别重要的环节.所以 ...
simulink创建简单模型
创建简单模型您可以使用 Simulink® 对系统建模,然后仿真该系统的动态行为.Simulink 允许您创建模块图,图中的各个连接模块代表系统的各个部分,信号代表这些模块之间的输入/输出关系.Si ...

随机推荐

js弹窗的3种方式：alert、confirm、prompt
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
缓冲区溢出分析第09课：MS06-040漏洞研究——深入挖掘
前言经过前两次的分析,我们已经对Netapi32.dll文件中所包含的漏洞成功地实现了利用.在系统未打补丁之前,这确实是一个非常严重的漏洞,那么打了补丁之后,这个动态链接库是不是就安全了呢?答案是否 ...
hdu3074 线段树求区间乘积（单点更新）
题意: 给你n个数,两种操作,(1) 把第b个数改成c (2)算出b-c的乘积,结果对1000000007取余. 思路: 线段树单点更新,简单题目,不多解释,具体看代码. #i ...
5.IA-32寄存器
寄存器(Register)是CPU内部用来存放数据的一些小型存储区域,它与RAM(Random Access Memory,随机存储器.内存)略有不同.CPU访问(Access)RAM中的数据时要经过 ...
[LeetCode每日一题]1143. 最长公共子序列
[LeetCode每日一题]1143. 最长公共子序列问题给定两个字符串 text1 和 text2,返回这两个字符串的最长公共子序列的长度.如果不存在公共子序列 ,返回 0 . 一个字符串 ...
一个或多个筛选器或者Listeners启动失败
问题描述运行ssm项目,tomcat启动后报下面的错误. org.apache.catalina.core.StandardContext.startInternal 一个或多个listeners启 ...
记一次 .NET 某旅行社Web站 CPU爆高分析
一:背景 1. 讲故事前几天有位朋友wx求助,它的程序内存经常飙升,cpu 偶尔飙升,没找到原因,希望帮忙看一下. 可惜发过来的 dump 只有区区2G,能在这里面找到内存泄漏那真有两把刷子..., ...
C# 搞桌面UI适配国产麒麟Linux+龙芯遇到的一些坑
由于一些国企有国产化的需求,所以搞了C#适配银河麒麟,适配了X64和龙芯MIPS版本 1. 在银河麒麟的龙芯版本中 pipe2 不能使用,x64版本上却可以用. pipe2 用来做自定义消息的,搞U ...
[Qt] 打包
步骤: 1.release项目,生成exe文件 2.在命令行中使用windeployqt,将相关文件复制到exe文件所在文件夹 3.用Enigma Virtual Box打包所有文件参考 https ...
烽火SATA SSD DSS200-B
烽火SATA SSD DSS200-B 运营商用户 > 产品与解决方案 > 产品烽火SATA SSD DSS200-B 烽火通信 DSS200-B 2.5" SATA SSD ...

Darknet_Yolov3模型搭建

Darknet_Yolov3模型搭建的更多相关文章

随机推荐

热门专题