cs231n spring 2017 lecture9 CNN Architectures

参考《deeplearning.ai 卷积神经网络 Week 2 听课笔记》。

1. AlexNet（Krizhevsky et al. 2012），8层网络。

　　学会计算每一层的输出的shape：对于卷积层，输出的边长 =（输入的边长 - filter的边长）/ 步长 + 1，输出的通道数等于filter的数量。每个filter的通道数等于输入的通道数。卷积层的参数 = filter的长 * filter的宽 * 输入的通道数 * filter的数量。池化层没有需要学习的参数。

　　图中分成两个通道是为了在不同GPU上处理。

　　2013年的ZFNet延续了AlexNet的架构（也是8层网络），优化了参数，取得了更好的效果（错误率从16.4%降到11.7%）。

2. VGGNet（Simonyan and Zisserman, 2014），16~19层网络。

　　三个3*3的filter串联等价于一个7*7的filter，用更小的filter的好处是增加了网络的深度，增加了非线性程度，更少的参数。

3. GoogLeNet（Szegedy et al., 2014）

　　Inception module是同时用不同的filter（1*1,3*3,5*5，Pooling），并把结果堆叠起来。这样做的缺点是计算量变大。解决的办法是先用1*1的卷积压缩通道数量（参考《deeplearning.ai 卷积神经网络 Week 2 听课笔记》）。

4. ResNet（He et al., 2015），152层网络。

　　解决了很深的网络难优化的问题。

　　对于深度的网络（ResNet-50+），类似GoogLeNet用1*1的卷积层去压缩通道数以提高效率。

5. 复杂度的比较

6. 其他一些网络

　　Network in Network （NiN）（Lin et al., 2014）：启发了GoogLeNet和ResNet的“bottleneck”层（1*1卷积层）。

　　Identity Mappings in Deep Residual Networks (He et al., 2016)：ResNet的改进。

　　Wide Residual Networks (Zagoruyko et al., 2016)：认为residuals是很重要的，而不是深度。增加宽度而不是深度，会计算更有效。50层的宽的ResNet比152层的原始的ResNet更好。

　　ResNeXt (Xie et al., 2016)：也是增加宽度，和Inception module很类似的想法。

　　Deep Networks with Stochastic Depth (Huang et al., 2016)：为了解决梯度消失的问题，随机地drop掉一些层。在测试阶段使用全部的网络，不drop任何层。

　　FractalNet （Larsson et al., 2017）：认为residual不是必须的，重要的是浅层到深层的有效传递（transitioning），训练阶段也是随机drop掉一些层，测试阶段不drop任何层。

　　Densely Connected Convolutional Networks (Huang et al., 2017)：为了解决梯度消失的问题，每一层与其他层更稠密的连接。

　　SqueezeNet （Landola et al., 2017）：更少的参数，更好的准确度。

7. 总结

　　VGG、GoogLeNet、ResNet被广泛应用，现在已经是集成到各个现成框架。

　　ResNet是当今最佳，默认选项。

　　趋势是越来越深的网络。

　　很多研究集中在设计层与层之间的连接方式，为了改善梯度的传播。

　　最新的研究在争论深度和宽度，以及residual的必要性。

cs231n spring 2017 lecture9 CNN Architectures的更多相关文章

cs231n spring 2017 lecture9 CNN Architectures 听课笔记
参考<deeplearning.ai 卷积神经网络 Week 2 听课笔记>. 1. AlexNet(Krizhevsky et al. 2012),8层网络. 学会计算每一层的输出的sh ...
cs231n spring 2017 lecture13 Generative Models 听课笔记
1. 非监督学习监督学习有数据有标签,目的是学习数据和标签之间的映射关系.而无监督学习只有数据,没有标签,目的是学习数据额隐藏结构. 2. 生成模型(Generative Models) 已知训练数 ...
cs231n spring 2017 lecture7 Training Neural Networks II 听课笔记
1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很 ...
cs231n spring 2017 lecture13 Generative Models
1. 非监督学习监督学习有数据有标签,目的是学习数据和标签之间的映射关系.而无监督学习只有数据,没有标签,目的是学习数据额隐藏结构. 2. 生成模型(Generative Models) 已知训练数 ...
cs231n spring 2017 lecture7 Training Neural Networks II
1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很 ...
cs231n spring 2017 lecture11 Detection and Segmentation 听课笔记
1. Semantic Segmentation 把每个像素分类到某个语义. 为了减少运算量,会先降采样再升采样.降采样一般用池化层,升采样有各种"Unpooling"." ...
cs231n spring 2017 Python/Numpy基础 (1)
本文使根据CS231n的讲义整理而成(http://cs231n.github.io/python-numpy-tutorial/),以下内容基于Python3. 1. 基本数据类型:可以用 prin ...
cs231n spring 2017 lecture11 Detection and Segmentation
1. Semantic Segmentation 把每个像素分类到某个语义. 为了减少运算量,会先降采样再升采样.降采样一般用池化层,升采样有各种“Unpooling”.“Transpose Conv ...
cs231n spring 2017 Python/Numpy基础
本文使根据CS231n的讲义整理而成(http://cs231n.github.io/python-numpy-tutorial/),以下内容基于Python3. 1. 基本数据类型:可以用 prin ...

随机推荐

和我一起从0学算法（C语言版）（二）
第一章排序第三节快速排序快速排序是最常用的排序方法.快排运用的递归方法很有意思.掌握了这种排序方法可以在将来学习递归时更快入门.只是快排的思路与之前的排序方法相比较为复杂,再加担心上我的表达能 ...
h5-sessionStorage储存的使用
<!-- sessionStorage的使用:存储数据到本地.存储的容量5mb左右 1.这个数据本质是储存在当前页面的内存中 2.他的生命周期为关闭当前页面,关闭页面,数据会自动清楚 setTt ...
AttributeError: module 'selenium.webdriver.common.service' has no attribute 'Service'
今天爬虫时需要使用到selenium, 使用pip install selenium进行安装. 可是一开始写程序就遇到了AttributeError: module 'selenium.webdriv ...
java网络考试系统的设计与实现 jsp 源码
开发环境: Windows操作系统开发工具:MyEclipse/Eclipse + JDK+ Tomcat + MySQL 数据库项目简介: 网络考试系统主要用于实现高校在线考试,基本功能包括:自动 ...
SDWebImage缓存图片和读取图片
NSString *urlStr: NSUrl *url = [NSURL URLWithString:urlStr]; //缓存图片 SDWebImageManager *manager = [SD ...
codeforces 596
C 题意定义p-binary为2^x+p 现在给你一个数x,和一个p. 问你最少用多少个p-binary能构造出x,如果没有输出-1 题解转化为: x = 2^x1 + 2^x2 + ... + ...
JunOS SRX firewal Web authentication(转)
转载自:https://srxasa.wordpress.com/2011/12/11/junos-srx-firewal-web-authentication/ JunOS SRX firewal ...
使用flask_sqlalchemy操作mysql的一个测试
示例代码 from flask_sqlalchemy import SQLAlchemy from flask import Flask app=Flask(__name__) app.config[ ...
vector内部实现2
push_back 往动态数组的内部进行添加数据 pop_back 往动态数组的尾部进行删除数据 resize 讲元素的数量len改成num个数量如果size()变大了,多出来的将用默认构造来创 ...
Maven--优化依赖
Maven 会自动解析所有项目的直接依赖和传递依赖,并且根据规则正确判断每个依赖的范围,对于一些依赖冲突,也能进行调节,以确保任何一个构件只有唯一的版本在依赖中存在.在这些工作之后,最后得到的那些依赖 ...

cs231n spring 2017 lecture9 CNN Architectures

cs231n spring 2017 lecture9 CNN Architectures的更多相关文章

随机推荐

热门专题