阅读笔记：Very Deep Convolutional Networks for Large-Scale Image Recognition

摘要：

在这篇论文我们主要研究卷积神级网络的深度对大范围图像识别效果的影响，我们发现增加神经网络层数增加到16-19层时我们的实验结果有很大的提高。这使得我们在2014年的ImageNet Challenge中取得了定位第一和分类第二的成绩。

动机：

卷积神经网络可能因为有了大量的公开图像库而取得了巨大的成功，一些图像识别比赛比如ILSVRC为图像识别系统提供了测试。卷积神经网络在计算机视觉领域更多的是变成了一个商品，很多提升卷积神经网络的准确性的尝试被提了出来，本文提出的一个尝试是增加神经网络的深度。

主要观点：

一、卷积模型

网络的输入是固定尺寸的224×224的RGB图像，唯一的预处理是每个像素减去RGB均值。这篇论文采用3×3的卷积核，步长为1，一系列卷积层后跟着一个池化层，以此反复。这里3×3的卷积核相比于7×7的卷积核有两个好处：1.包含三个ReLu层而不是一个（增加了非线性）2.使用了更少的参数。

二、训练模型

这里除了对图形采样方法不同外，其他训练过程和AlexNet一样。使用mini-batch gradient descent训练，Batch size为256，momentum为0.9，使用L2正则化，正则化系数为5×10^-4，在前两层全连接层设置dropout为0.5。初始学习率为0.01，然后当验证集上侧误差不变时，学习率除以10。权重初始化很重要，不好的初始化可能会导致网络停止学习。为了解决这个问题，我们首先训练浅层的A网络（A网络的权重随机初始化），然后训练更深层的网络时，我们使用A网络的权重参数来初始化深层网络的前4层卷积层和后3层全连接层，其余层的权重随机初始化。权重随机初始化采用0均值，方差为0.01的正态分布，偏置初始化为0。但是后来发现，不使用浅层预训练的参数，而使用随机初始化也可以。

这里对图像的训练比较重要，有两种方法：

1.固定S（训练图像）的大小，称为单尺度训练（single-scale training）。实验中，使用两种大小的S尺度进行训练，S=256和S=384。我们首先使用S=256训练网络，然后为了加速训练S=384的网络，我们使用S=256的网络的参数进行初始化，初始学习率为0.001。

2.多尺度训练（multi-scale training），即让S在[Smin, Smax]范围之内进行随机采样，然后将训练图像重新调整大小为S。由于图像中的物体大小是不同的，因此把这个考虑在内是很有用处的。这种方法也可以看成通过尺度抖动（scale jittering）来增强训练数据集。为了加快训练速度，我们在单尺度S=384模型的基础上进行fine-tuning。

三、测试模型

测试阶段，我们对于一张图，重新定义它的规模大小，使得最短的边大于等于224，然后可以把这个图简称多个224×224的模型，分别测试，对最后测试结果取平均值。

四、评估方法

1.单尺度评估：当S为固定大小时，测试图像大小为Q=S；当S ∈ [Smin, Smax]时，Q = 0.5(Smin +Smax)

2.多尺度评估：下面评估在测试阶段使用尺度抖动带来的影响。它包括在一个测试图像（对应于不同的Q值）的几个重新缩放的版本上运行一个模型，然后平均所得到的类的后验概率。考虑到如果训练图像和测试图像如果尺度差别大的话，会导致性能的下降，因此对于固定大小的S，测试时使用3种接近S的尺寸Q={S-32，S，S+32}。对于S ∈ [Smin; Smax]的情况Q={Smin,0.5(Smin+Smax),Smax}。

3.MULTI-CROP EVALUATION

4.模型融合

五、结果

深度越深，实验结果越好，多尺度测试比单尺度测试结果要好，大量crops的测试结果可以进一步提高正确率，多模型融合也可以提高正确率。

阅读笔记：Very Deep Convolutional Networks for Large-Scale Image Recognition的更多相关文章

《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks》研读笔记
<DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks>研读笔记论文标题:DSLR-Quality ...
论文笔记：（2019CVPR）PointConv: Deep Convolutional Networks on 3D Point Clouds
目录摘要一.前言 1.1直接获取3D数据的传感器 1.2为什么用3D数据 1.3目前遇到的困难 1.4现有的解决方法及存在的问题二.本文idea 2.1 idea来源 2.2 初始思路 2.3 ...
Very Deep Convolutional Networks for Large-Scale Image Recognition
Very Deep Convolutional Networks for Large-Scale Image Recognition 转载请注明:http://blog.csdn.net/stdcou ...
目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)
Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangy ...
VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zi ...
SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
http://www.dengfanxin.cn/?p=403 原文地址我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加 ...
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zh ...
2014-VGG-《Very deep convolutional networks for large-scale image recognition》翻译
2014-VGG-<Very deep convolutional networks for large-scale image recognition>翻译原文:http://xues ...
深度学习论文翻译解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神 ...
[论文阅读笔记] Structural Deep Network Embedding
[论文阅读笔记] Structural Deep Network Embedding 本文结构解决问题主要贡献算法原理参考文献 (1) 解决问题现有的表示学习方法大多采用浅层模型,这可能不能 ...

随机推荐

【Redis3.0.x】NoSql 入门
Redis3.0.x NoSql 入门概述 NoSQL(Not Only SQL ),即不仅仅是 SQL,泛指非关系型的数据库.NoSQL 数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑 ...
使用 C# 9 的records作为强类型ID - 路由和查询参数
上一篇文章,我介绍了使用 C# 9 的record类型作为强类型id,非常简洁 public record ProductId(int Value); 但是在强类型id真正可用之前,还有一些问题需要解 ...
Win 10 Docker安装和简单使用
Win 10 Docker安装和简单使用 1.环境准备 Docker for Windows需要运行在64位Windows 10 Pro专业版.企业版或教育版(1607年纪念更新,版本14393或更高 ...
基于 WebRTC 实现自定义编码分辨率发送
2020年如果问什么技术领域最火?毫无疑问:音视频.2020年远程办公和在线教育的强势发展,都离不开音视频的身影,视频会议.在线教学.娱乐直播等都是音视频的典型应用场景. 更加丰富的使用场景更需要我们 ...
rbd-db数据迁移至外部数据库
部署外部数据库安装Docker export VERSION=19.03 && curl -fsSL http://rainbond-pkg.oss-cn-shanghai.aliy ...
ryu安装
$ python3 -V Python 3.7.2 $ git clone https://github.com/faucetsdn/ryu.git $ cd ryu $ sudo pip3 inst ...
.net core 和 WPF 开发升讯威在线客服与营销系统：使用 TCP协议实现稳定的客服端
本系列文章详细介绍使用 .net core 和 WPF 开发升讯威在线客服与营销系统的过程.本产品已经成熟稳定并投入商用. 在线演示环境:https://kf.shengxunwei.com 注意 ...
Obligations for calling close() on the iterable returned by a WSGI application
Graham Dumpleton: Obligations for calling close() on the iterable returned by a WSGI application. ht ...
Covering Indexes in MySQL, PostgreSQL, and MongoDB
Covering Indexes in MySQL, PostgreSQL, and MongoDB - Orange Matter https://orangematter.solarwinds.c ...
从零搭建一个IdentityServer——初识OpenIDConnect
上一篇文章实现了IdentityServer4与Asp.net core Identity的集成,可以使用通过identity注册功能添加的用户,以Password的方式获取Access token, ...

阅读笔记：Very Deep Convolutional Networks for Large-Scale Image Recognition

阅读笔记：Very Deep Convolutional Networks for Large-Scale Image Recognition的更多相关文章

随机推荐

热门专题