VGG16学习笔记

转载自：http://deanhan.com/2018/07/26/vgg16/

摘要

本文对图片分类任务中经典的深度学习模型VGG16进行了简要介绍，分析了其结构，并讨论了其优缺点。调用Keras中已有的VGG16模型测试其分类性能，结果表明VGG16对三幅测试图片均能正确分类。

前言

VGG是由Simonyan 和Zisserman在文献《Very Deep Convolutional Networks for Large Scale Image Recognition》中提出卷积神经网络模型，其名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)的缩写。

该模型参加2014年的 ImageNet图像分类与定位挑战赛，取得了优异成绩：在分类任务上排名第二，在定位任务上排名第一。

结构

VGG中根据卷积核大小和卷积层数目的不同，可分为A，A-LRN,B,C,D,E共6个配置(ConvNet Configuration)，其中以D,E两种配置较为常用，分别称为VGG16和VGG19。

下图给出了VGG的六种结构配置：

上图中，每一列对应一种结构配置。例如，图中绿色部分即指明了VGG16所采用的结构。

我们针对VGG16进行具体分析发现，VGG16共包含：

13个卷积层（Convolutional Layer），分别用conv3-XXX表示
3个全连接层（Fully connected Layer）,分别用FC-XXXX表示
5个池化层（Pool layer）,分别用maxpool表示

其中，卷积层和全连接层具有权重系数，因此也被称为权重层，总数目为13+3=16，这即是

VGG16中16的来源。(池化层不涉及权重，因此不属于权重层，不被计数)。

特点

VGG16的突出特点是简单，体现在：

卷积层均采用相同的卷积核参数

卷积层均表示为conv3-XXX，其中conv3说明该卷积层采用的卷积核的尺寸(kernel size)是3，即宽（width）和高（height）均为3，3*3是很小的卷积核尺寸，结合其它参数（步幅stride=1，填充方式padding=same），这样就能够使得每一个卷积层(张量)与前一层（张量）保持相同的宽和高。XXX代表卷积层的通道数。
池化层均采用相同的池化核参数

池化层的参数均为2××2，步幅stride=2，max的池化方式，这样就能够使得每一个池化层（张量）的宽和高是前一层（张量）的1212。
模型是由若干卷积层和池化层堆叠（stack）的方式构成，比较容易形成较深的网络结构（在2014年，16层已经被认为很深了）。

综合上述分析，可以概括VGG的优点为: Small filters, Deeper networks.

块结构

我们注意图1右侧，VGG16的卷积层和池化层可以划分为不同的块（Block），从前到后依次编号为Block1~block5。每一个块内包含若干卷积层和一个池化层。例如：Block4包含：

3个卷积层，conv3-512
1个池化层，maxpool

并且同一块内，卷积层的通道（channel）数是相同的，例如：

block2中包含2个卷积层，每个卷积层用conv3-128表示,即卷积核为：3x3x3，通道数都是128
block3中包含3个卷积层，每个卷积层用conv3-256表示,即卷积核为：3x3x3，通道数都是256

下面给出按照块划分的VGG16的结构图，可以结合图2进行理解：

VGG的输入图像是 224x224x3 的图像张量(tensor),随着层数的增加，后一个块内的张量相比于前一个块内的张量：

通道数翻倍，由64依次增加到128，再到256，直至512保持不变，不再翻倍
高和宽变减半，由 $224 \rightarrow 112\rightarrow 56\rightarrow 28\rightarrow 14\rightarrow 7$

权重参数

尽管VGG的结构简单，但是所包含的权重数目却很大，达到了惊人的139，357，544个参数。这些参数包括卷积核权重和全连接层权重。

例如，对于第一层卷积，由于输入图的通道数是3，网络必须学习大小为3x3，通道数为3的的卷积核，这样的卷积核有64个，因此总共有（3x3x3）x64 = 1728个参数

计算全连接层的权重参数数目的方法为：前一层节点数×本层的节点数前一层节点数×本层的节点数。因此，全连接层的参数分别为：

- 7x7x512x4096 = 1027,645,444
- 4096x4096 = 16,781,321
- 4096x1000 = 4096000

FeiFei Li在CS231的课件中给出了整个网络的全部参数的计算过程（不考虑偏置），如下图所示：

图中蓝色是计算权重参数数量的部分；红色是计算所需存储容量的部分。

VGG16具有如此之大的参数数目，可以预期它具有很高的拟合能力；但同时缺点也很明显：

即训练时间过长，调参难度大。
需要的存储容量大，不利于部署。例如存储VGG16权重值文件的大小为500多MB，不利于安装到嵌入式系统中。

实践

下面，我们应用Keras对VGG16的图像分类能力进行试验。

Keras是一个高层神经网络API,Keras由纯Python编写，是tensorflow和Theano等底层深度学习库的高级封装。使用Keras时，我们不需要直接调用底层API构建深度学习网络，仅调用keras已经封装好的函数即可。

本次试验平台：python 3.6 + tensorflow 1.8 + keras 2.2，Google Colab

源代码如下：

 # -*- coding: utf-8 -*-

 """

 Spyder Editor

 This is a temporary script file.

 """

 import matplotlib.pyplot as plt

 from keras.applications.vgg16 import VGG16

 from keras.preprocessing import image

 from keras.applications.vgg16 import preprocess_input, decode_predictions

 import numpy as np

 def percent(value):

     return '%.2f%%' % (value * 100)

 # include_top=True，表示會載入完整的 VGG16 模型，包括加在最後3層的卷積層

 # include_top=False，表示會載入 VGG16 的模型，不包括加在最後3層的卷積層，通常是取得 Features

 # 若下載失敗，請先刪除 c:\<使用者>\.keras\models\vgg16_weights_tf_dim_ordering_tf_kernels.h5

 model = VGG16(weights='imagenet', include_top=True)

 # Input：要辨識的影像

 img_path = 'frog.jpg'

 #img_path = 'tiger.jpg' 并转化为224*224的标准尺寸

 img = image.load_img(img_path, target_size=(224, 224))

 x = image.img_to_array(img) #转化为浮点型

 x = np.expand_dims(x, axis=0)#转化为张量size为(1, 224, 224, 3)

 x = preprocess_input(x)

 # 預測，取得features，維度為 (1,1000)

 features = model.predict(x)

 # 取得前五個最可能的類別及機率

 pred=decode_predictions(features, top=5)[0]

 #整理预测结果,value

 values = []

 bar_label = []

 for element in pred:

     values.append(element[2])

     bar_label.append(element[1])

 #绘图并保存

 fig=plt.figure(u"Top-5 预测结果")

 ax = fig.add_subplot(111)

 ax.bar(range(len(values)), values, tick_label=bar_label, width=0.5, fc='g')

 ax.set_ylabel(u'probability')

 ax.set_title(u'Top-5')

 for a,b in zip(range(len(values)), values):

     ax.text(a, b+0.0005, percent(b), ha='center', va = 'bottom', fontsize=7)

 fig = plt.gcf()

 plt.show()

 name=img_path[0:-4]+'_pred'

 fig.savefig(name, dpi=200)

上述程序的基本流程是：

载入相关模块，keras ，matplotlib，numpy

下载已经训练好的模型文件：

导入测试图像

应用模型文件对图像分类

需要额外说明的是：

程序运行过程中，语句model = VGG16(weights='imagenet', include_top=True)会下载已经训练好的文件到c:\<使用者>\.keras\models文件夹下，模型的文件名为vgg16_weights_tf_dim_ordering_tf_kernels.h5,大小为527MB
语句pred=decode_predictions(features, top=5)[0]会下载分类信息文件到c:\<使用者>\.keras\models文件夹下，模型的文件名为imagenet_class_index.json,该文件指明了ImageNet大赛所用的1000个图像类的信息。（由于下载地址在aws上，梯子请自备）
程序运行结束，会在工作目录下生成测试图片的预测图，给出了最有可能的前5个类列。名称为：测试文件名_pred.png
在程序中还可以查看模型的结构，语句为：model.summary(),命令行输出模型的结构配置为：

 _________________________________________________________________

 Layer (type)                 Output Shape              Param #

 =================================================================

 input_12 (InputLayer)        (None, 224, 224, 3)       0

 _________________________________________________________________

 block1_conv1 (Conv2D)        (None, 224, 224, 64)      1792

 _________________________________________________________________

 block1_conv2 (Conv2D)        (None, 224, 224, 64)      36928

 _________________________________________________________________

 block1_pool (MaxPooling2D)   (None, 112, 112, 64)      0

 _________________________________________________________________

 block2_conv1 (Conv2D)        (None, 112, 112, 128)     73856

 _________________________________________________________________

 block2_conv2 (Conv2D)        (None, 112, 112, 128)     147584

 _________________________________________________________________

 block2_pool (MaxPooling2D)   (None, 56, 56, 128)       0

 _________________________________________________________________

 block3_conv1 (Conv2D)        (None, 56, 56, 256)       295168

 _________________________________________________________________

 block3_conv2 (Conv2D)        (None, 56, 56, 256)       590080

 _________________________________________________________________

 block3_conv3 (Conv2D)        (None, 56, 56, 256)       590080

 _________________________________________________________________

 block3_pool (MaxPooling2D)   (None, 28, 28, 256)       0

 _________________________________________________________________

 block4_conv1 (Conv2D)        (None, 28, 28, 512)       1180160

 _________________________________________________________________

 block4_conv2 (Conv2D)        (None, 28, 28, 512)       2359808

 _________________________________________________________________

 block4_conv3 (Conv2D)        (None, 28, 28, 512)       2359808

 _________________________________________________________________

 block4_pool (MaxPooling2D)   (None, 14, 14, 512)       0

 _________________________________________________________________

 block5_conv1 (Conv2D)        (None, 14, 14, 512)       2359808

 _________________________________________________________________

 block5_conv2 (Conv2D)        (None, 14, 14, 512)       2359808

 _________________________________________________________________

 block5_conv3 (Conv2D)        (None, 14, 14, 512)       2359808

 _________________________________________________________________

 block5_pool (MaxPooling2D)   (None, 7, 7, 512)         0

 _________________________________________________________________

 flatten (Flatten)            (None, 25088)             0

 _________________________________________________________________

 fc1 (Dense)                  (None, 4096)              102764544

 _________________________________________________________________

 fc2 (Dense)                  (None, 4096)              16781312

 _________________________________________________________________

 predictions (Dense)          (None, 1000)              4097000

 =================================================================

 Total params: 138,357,544

 Trainable params: 138,357,544

 Non-trainable params: 0

 _________________________________________________________________

可以看到总的训练参数为 $138,357,544$。

代码及图片文件全部放在我的github

结果

分别对虎（tiger）,猫（cat）,卷纸（paper_towel）三张图片进行分类：

网上随便下的图，效果还行.

VGG16学习笔记的更多相关文章

深度学习笔记（七）SSD 论文阅读笔记简化
一. 算法概述本文提出的SSD算法是一种直接预测目标类别和bounding box的多目标检测算法.与faster rcnn相比,该算法没有生成 proposal 的过程,这就极大提高了检测速度.针 ...
深度学习笔记（七）SSD 论文阅读笔记
一. 算法概述本文提出的SSD算法是一种直接预测目标类别和bounding box的多目标检测算法.与faster rcnn相比,该算法没有生成 proposal 的过程,这就极大提高了检测速度.针 ...
Deep learning with Python 学习笔记（4）
本节讲卷积神经网络的可视化三种方法可视化卷积神经网络的中间输出(中间激活) 有助于理解卷积神经网络连续的层如何对输入进行变换,也有助于初步了解卷积神经网络每个过滤器的含义可视化卷积神经网络的过滤 ...
Deep learning with Python 学习笔记（3）
本节介绍基于Keras的使用预训练模型方法想要将深度学习应用于小型图像数据集,一种常用且非常高效的方法是使用预训练网络.预训练网络(pretrained network)是一个保存好的网络,之前已在 ...
tensorflow学习笔记——VGGNet
2014年,牛津大学计算机视觉组(Visual Geometry Group)和 Google DeepMind 公司的研究员一起研发了新的深度卷积神经网络:VGGNet ,并取得了ILSVRC201 ...
官网实例详解-目录和实例简介-keras学习笔记四
官网实例详解-目录和实例简介-keras学习笔记四 2018-06-11 10:36:18 wyx100 阅读数 4193更多分类专栏: 人工智能 python 深度学习 keras 版权声明: ...
Tensorflow学习笔记No.8
使用VGG16网络进行迁移学习使用在ImageNet数据上预训练的VGG16网络模型对猫狗数据集进行分类识别. 1.预训练网络预训练网络是一个保存好的,已经在大型数据集上训练好的卷积神经网络. 如 ...
js学习笔记：webpack基础入门（一）
之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...
PHP-自定义模板-学习笔记
1. 开始这几天,看了李炎恢老师的<PHP第二季度视频>中的“章节7:创建TPL自定义模板”,做一个学习笔记,通过绘制架构图.UML类图和思维导图,来对加深理解. 2. 整体架构图 ...

随机推荐

SQL Server服务器连接配置
一.首先确保服务器能在本地打开数据库如果碰到本地无法连接到数据库,首先要确认上图中两个服务是否开启二.其次,要配置远端可连接的用户如图,配置数据库[属性]中[安全性]为混合验证,勾中允许远程连接 ...
Perfect项目快速上手
1.在您从Swift.org(英文版)完成Swift 4.0 toolchain工具集安装之后,请打开一个命令行终端并输入命令 swift --version Apple Swift version ...
OpenGL Geometry Shader
http://blog.csdn.net/bugrunner/article/details/5455324 Geometry Shader可以处理Vertex Shader和Fragment Sha ...
LVS 负载均衡器总结
下面部分原理部分,是从网上摘录,源网址已经无从获取,我将其中一小部分模糊的说明加入了一些自己的理解,仅最大可能让全文容易阅读,也方便自己以后参考,若你是大牛希望能给我一些宝贵的建议,将理解有误的地方加 ...
Response.Redirect 产生的“正在中止线程”错误
Response.Redirect 产生的“正在中止线程”错误今天在开发调试过程中,出现在一个 "正在中止线程"异常信息. 调用Response.Redirect()方法产生的, ...
PAT甲级——1135 Is It A Red-Black Tree （30 分)
我先在CSDN上面发表了同样的文章,见https://blog.csdn.net/weixin_44385565/article/details/88863693 排版比博客园要好一些.. 1135 ...
[题解]数学期望_luogu_P1850_换教室
数学期望dp,题面第一次见很吓人,然而从CCF语翻译成人话就简单多了, 开始一般会想到用 f [ i ] [ j ]表示前 i 个课程申请 j 次的期望,然而其实会发现转移的时候还和上一次的情况有关( ...
JS创建函数的方法
方法一:函数声明. function foo(){ } 方法二:函数表达式. var foo=function(){ } 另外还有一种自执行函数表达式.主要用于创建一个新的作用域,在此作用域内声明的变 ...
SQLachemy基础
SQLAchemy SQLAchemy是python编程语言下的一款ORM框架,该框架建立在数据库API之上,使用关系对象映射进行数据库操作, 简言之便是:将对象转换成SQL,然后使用数据API执行S ...
ICM Technex 2017 and Codeforces Round #400 (Div. 1 + Div. 2, combined) A
Our beloved detective, Sherlock is currently trying to catch a serial killer who kills a person each ...

VGG16学习笔记

摘要

前言

结构

特点

块结构

权重参数

实践

结果

VGG16学习笔记的更多相关文章

随机推荐

热门专题