博客：blog.shinelee.me | 博客园 | CSDN

写在前面

本文重点在于回顾深度神经网络在CV领域的First Blood——AlexNet，AlexNet是首个在大规模图像识别问题取得突破性进展的深度神经网络，相比基于SIFT+FVs、稀疏编码的传统方法，性能提升了10多个百分点（error rate 26.2% → 15.3%，ILSVRC-2012），并由此开启了深度神经网络血洗CV各领域的开端，如下图所示（SuperVision即AlexNet）。

截止本文时间2019年9月2日，AlexNet论文的引用量达45305，论文作者Alex Krizhevsky、Ilya Sutskever和“深度学习之父”Geoff Hinton。

网络结构

AlexNet的原始网络结构如下，可以参见caffe的网络定义bvlc_alexnet，pytorch等也给出了变种实现，见torchvision/models/alexnet.py。

整个网络大体由5个卷积层和3个全连接层组成，受限于当时的计算资源，网络通过2块GTX580 3GB的GPU训练，上图可见，整个网络上下一分为二，各用1块GPU训练（在caffe中通过group层实现），每个GPU放一半的神经元，网络中第3个卷积层和3个全连接层跨GPU连接。与使用单个GPU和50%神经元的网络相比，这个双GPU方案的Top1和Top5错误率分别降低了1.7%和1.2%。

每层的配置如下，第一个卷积层的kernel size为11，stride为4：

创新点

为了获得最佳表现，论文中综合应用了很多技术，有些后来已成为通用的标准做法。

使用ReLU作为激活函数，作为non-saturating非线性激活函数有效避免了梯度消失问题，同时与tanh（saturating非线性激活函数）相比，训练速度提升了数倍（CIFAR-10上训练达到25%错误率速度快了6倍）。
多GPU训练，实际上相当于增加了网络的宽度，如上节所述，Top1和Top5错误率比单GPU网络分别降低了1.7%和1.2%。
提出了LRN（Local Response Normalization）层，使用相邻\(n\)个特征图上同位置的值对当前值进行归一化，公式如下。LRN被认为没有太大效果，已不被后来者采用。
\[
b_{x, y}^{i}=a_{x, y}^{i} /\left(k+\alpha \sum_{j=\max (0, i-n / 2)}^{\min (N-1, i+n / 2)}\left(a_{x, y}^{j}\right)^{2}\right)^{\beta}
\]
使用Overlapping Max-Pooling，如上节图中，Pooling层的kernel size \(z=3\)，stride \(s=2\)，\(z > s\)，与\(s=z=2\)相比，Top1和Top5错误率分别下降了0.4%和0.3%。
通过Data Augmentation数据增广降低过拟合，提高预测准确度
- 训练阶段，通过生成大量训练数据来降低过拟合，生成数据的方式有2种，
  - 第1种方式从\(256\times 256\)图像中随机裁剪+左右翻转出\(224\times 224\)的图像，将训练数据扩大了2048倍；
  - 第2种方式对每张训练图像RGB通道做数值扰动，扰动量通过对整个训练集的RGB像素进行PCA获得，扰动量为\(\left[\mathbf{P}_{1}, \mathbf{P}_{2}, \mathbf{P}_{3}\right]\left[\alpha_{1} \lambda_{1}, \alpha_{2} \lambda_{2}, \alpha_{3} \lambda_{3}\right]^{T}\)，\(\mathbf{P}_{i}\)和 \(\lambda_{i}\)为RGB像素协方差矩阵的特征向量和特征值，\(\alpha_{i}\)为0均值0.1标准差的高斯随机值。
- 预测阶段，从待预测\(256\times 256\)图中上下左右中间crop+左右翻转得到10张\(224\times 224\)的图像，逐一输入网，络对输出结果取平均，来提升预测阶段的准确率，相当于数据层面的集成学习。
对前2个全连接层使用Dropout技术，训练时每次随机让50%的神经元输出为0，以此来降低过拟合，预测时将权重乘以0.5。这样可以强迫网络学习到更鲁棒的特征，也可以从集成学习的视角理解，预测阶段相当于对随机到的所有模型求了个期望。
batchsize 128，SGD Momentum 0.9，weight decay 0.0005，initial learning rate 0.01 停滞时divide by 10，

\[
\begin{aligned} v_{i+1} & :=0.9 \cdot v_{i}-0.0005 \cdot \epsilon \cdot w_{i}-\epsilon \cdot\left\langle\left.\frac{\partial L}{\partial w}\right|_{w_{i}}\right\rangle_{D_{i}} \\ w_{i+1} & :=w_{i}+v_{i+1} \end{aligned}
\]

其他有意思的点

回顾AlexNet论文，发现论文中提及了很多有意思的点，有些仅仅是一笔带过，但是可能启发了后面大量的工作，翻回来看才发现“祖师爷”早有预兆。

finetune，在一个库上训练，在另一个库上finetune
权重可视化，仅可视化第1个卷积层的96个卷积核权重，发现网络学到了频率方向性的特征，更有意思的是，GPU1上的48个卷积核是颜色无关的，GPU2上的是颜色相关的。

匹配与检索，使用最后一个全连接层的输出作为特征，通过欧氏距离可计算图像间的特征相似度，可做匹配，提出可以通过auto-encoder进一步压缩获取到short binary code，可用于检索，如下图所示，检索与最左边一列特征最近的图像
深度十分重要，增加深度可以进一步提升性能，当前性能只是受限于计算资源和训练时间（微笑）

在ILSVRC 2012上做的报告展示了使用AlexNet做detection的结果，如下

不愧是开创性工作的paper，给这含金量跪了。

参考

从AlexNet(2012)开始的更多相关文章

AlexNet 2012
AlexNet Alexnet是一年一度的ImageNet大型视觉识别挑战赛(ILSVRC)2012年冠军,ILSVRC使用ImageNet的一个子集,分为1000种类别,每种 ...
学习笔记TF030:实现AlexNet
ILSVRC(ImageNet Large Scale Visual Recognition Challenge)分类比赛.AlexNet 2012年冠军(top-5错误率16.4%,额外数据15.3 ...
TensorFlow实战之实现AlexNet经典卷积神经网络
本文根据最近学习TensorFlow书籍网络文章的情况,特将一些学习心得做了总结,详情如下.如有不当之处,请各位大拿多多指点,在此谢过. 一.AlexNet模型及其基本原理阐述 1.关于AlexNet ...
CNN Architectures(AlexNet,VGG,GoogleNet,ResNet,DenseNet)
AlexNet (2012) The network had a very similar architecture as LeNet by Yann LeCun et al but was deep ...
深度学习方法（五）：卷积神经网络CNN经典模型整理Lenet，Alexnet，Googlenet，VGG，Deep Residual Learning
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 关于卷积神经网络CNN,网络和文献中 ...
图像分类丨ILSVRC历届冠军网络「从AlexNet到SENet」
前言深度卷积网络极大地推进深度学习各领域的发展,ILSVRC作为最具影响力的竞赛功不可没,促使了许多经典工作.我梳理了ILSVRC分类任务的各届冠军和亚军网络,简单介绍了它们的核心思想.网络架构及其 ...
CNN-2: AlexNet 卷积神经网络模型
1.AlexNet 模型简介由于受到计算机性能的影响,虽然LeNet在图像分类中取得了较好的成绩,但是并没有引起很多的关注. 知道2012年,Alex等人提出的AlexNet网络在ImageNet大 ...
（转）The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3)
Adit Deshpande CS Undergrad at UCLA ('19) Blog About The 9 Deep Learning Papers You Need To Know Abo ...
ImageNet && 医学图像的识别
医学图像识别的问题如果将CNN应用于医学图像,首要面对的问题是训练数据的缺乏.因为CNN的训练数据都需要有类别标号,这通常需要专家来手工标记.要是标记像ImageNet这样大规模的上百万张的训练图像 ...

随机推荐

【如何让代码变“高级”(一)】-Spring组合注解提升代码维度
原创不易,点个赞
初探SpringMVC，走进SpringMVC的世界
1.Springmvc入门 1.1.Springmvc是什么 SpringMVC是Spring中的一个组件,目前(2019)在互联网公司用的很多,是必需学习的一门框架技术!SpringMVC用于web ...
Stream系列（五）Min Max Average方法使用
最小值,最大值,平均值 EmployeeTestCase.java package com.example.demo; import lombok.Data; import lombok.ToStri ...
Anaconda中启动Python时的错误：UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 553
今天,在Anaconda prompt启动python遇到了如下错误: UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xaf in positi ...
12、pytest -- 缓存：记录执行的状态
目录 1. cacheprovider插件 1.1. --lf, --last-failed:只执行上一轮失败的用例 1.2. --ff, --failed-first:先执行上一轮失败的用例,再执行 ...
Linux的awk命令详解
awkawk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,默认以空格为分隔符将每行切片,切开的部分再 ...
【IntelliJ IDEA】IDEA自动生成serialVersionUID的办法
digest:实体对象实现了java.io.Serializable接口后,一般都会提供一个serialVersionUID一做版本区分.在IDEA里,可以通过一些设置,帮助我们快速生成serialV ...
Netty-主从Reactor多线程模式的源码实现
Netty--主从Reactor多线程模式的源码实现总览 EventLoopGroup到底是什么? EventLoopGroup是一个存储EventLoop的容器,同时他应该具备线程池的功能. gr ...
Maven搭建SpringMvc
Maven搭建SpringMvc,只需跟着一步步操作项目结构 1 创建Maven项目 index,jsp报错不用管,配置完pom就好了,也可以直接删除掉 2 pom.xml添加依赖 <depe ...
python_迭代器和生成器、字节串、字节数组
迭代器 iterator 和生成器 generator 什么是迭代器:迭代器就是获取迭代对象中元素的工具,迭代器是由可迭代对象生成的 1.迭代器是指用iter(可迭代对象)函数返回的对象(实例) ...

从AlexNet(2012)开始

写在前面

网络结构

创新点

其他有意思的点

参考

从AlexNet(2012)开始的更多相关文章

随机推荐

热门专题