论文笔记：dropout

Improving neural networks by preventing co-adaptation of feature detectors
arXiv preprint arXiv: 1207.0580, 2012
G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov

Dropout: A Simple Way to Prevent Neural Networks from Overfitting
JMLR(Journal of Machine Learning Research), 2014
G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov

解决什么问题（What）
很大的神经网络在小数据集上训练，往往会导致过拟合
对每个训练样本，采用dropout的方法，随机删除一半的神经元，可以有效减少过拟合
模型结合通常能够提高机器学习方法的表现。但是，训练大网络的计算代价太高，又要训练一些不同的大网络，代价就更高了，而且还需要大量的数据，现实中往往没有足够的数据。就算训练了那么多大网络，用来实际应用也是不可行的，因为模型太大导致了很慢的响应速度。
可以使用dropout来防止过拟合，它起到了一个（和结合多个不同网络）近似的效果

为什么能解决（Why）
因为dropout防止了复杂的共适应co-adaptation，co-adaptation的意思是每个神经元学到的特征，必须结合其它的特定神经元作为上下文，才能提供对训练的帮助。
减小co-adaptation，就是要使每个神经元学到的特征，能更通用地提供帮助，它必须组合大量的内部上下文信息。

具体做法（How）
每次更新参数之前，每个神经元有一定的概率被丢弃，假设为p%，p可以设为50或者根据验证集的表现来选取，输入层的p比较小，保留概率接近于1
测试阶段不dropout，保留所有单元的权重，而且要乘以保留概率1-p%，为了保证输出期望一致
dropout不只用于前馈神经网络，还可以用于图模型，比如玻尔兹曼机。

对dropout的直观解释（Why）
对每个样本都随机地丢弃一半的单元，使得每个单元不能依赖其它单元来做出决策（这样学到的特征更独立）
训练阶段对于每个mini-batch网络的结构是不一样的（因为随机丢弃了一半的单元），测试阶段每个单元乘以保留概率。这样的效果近似于对多个不同的瘦网络做平均（类似集成的效果，能提供更准确的预测）
可以视作一种正则方法，通过给隐藏单元增加噪音

生物学上的motivation（Where）
有性生殖取一半父亲基因，一半母亲基因，还有低概率的基因突变，产生后代
无性生殖直接取父代的基因，加低概率的基因突变，产生后代
直觉上无性生殖更好，因为它把父代的优秀基因直接传给了后代。但是有性生殖是物种演化中最重要的方式，一个可能的解释是自然选择的准则并不是保持个体健康，而是基本的混合交流。基因不能依赖于当前已存在的基因，它需要和其它的基因共同协同学习有用的东西。
基于这个理论，使用dropout可以减小和固有神经元之间的依赖，使得它们可以随机地和其它神经元来共同学习，这可以使得神经元更加鲁棒，能够学到更多有用的特征。

权重约束
使用权重约束（也叫Max-norm），大的学习率衰减，高动量可以提升模型表现
用w表示任一隐藏单元的输入向量，当w的l2范式要大于某个阈值c时，把它约束为c。
这样可以使用更大的学习率，因为不用担心w的范式太大导致权重爆炸
dropout提供的噪音允许优化探索不同区域的权重空间（原先难以抵达的区域），所以可以使用较大的学习率衰减，从而做更少的探索，最后陷入最小值

MNIST实验
28*28的手写数字图像，10分类，6万训练集，1万测试集

SVHN(Street View House Number)实验
32*32*3的房子门牌号图像，识别房子门牌号，60万训练集，2万6测试集

CIFAR-10和CIFAR-100实验
32*32*3的现实图像，10分类和100分类，5万训练集，1万测试集

ImageNet实验

和其它正则化方法的比较

其它

和贝叶斯神经网络的比较
做了相关实验，发现dropout网络的特征更具有多样性，更稀疏。
做了相关实验，讨论了dropout rate和数据集大小对模型表现的影响
在测试阶段，通常使用Weight Scaling来预测（前面说的乘以1-p%），但是也可以使用另外一种方法Monte-Carlo来预测。
通常使用伯努利分布（p的概率为1，1-p的概率为0）来dropout，但是也可以使用高斯分布来dropout
阐述了Dropout RBM的构建和学习

论文笔记：dropout的更多相关文章

Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...
论文笔记(1)：Deep Learning.
论文笔记1:Deep Learning 2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...
论文笔记系列-Neural Network Search ：A Survey
论文笔记系列-Neural Network Search :A Survey 论文笔记 NAS automl survey review reinforcement learning Bayesia ...
论文笔记：CNN经典结构2（WideResNet，FractalNet，DenseNet，ResNeXt，DPN，SENet）
前言在论文笔记:CNN经典结构1中主要讲了2012-2015年的一些经典CNN结构.本文主要讲解2016-2017年的一些经典CNN结构. CIFAR和SVHN上,DenseNet-BC优于ResN ...
论文笔记：CNN经典结构1（AlexNet，ZFNet，OverFeat，VGG，GoogleNet，ResNet）
前言本文主要介绍2012-2015年的一些经典CNN结构,从AlexNet,ZFNet,OverFeat到VGG,GoogleNetv1-v4,ResNetv1-v2. 在论文笔记:CNN经典结构2 ...
【论文笔记】Learning Fashion Compatibility with Bidirectional LSTMs
论文:<Learning Fashion Compatibility with Bidirectional LSTMs> 论文地址:https://arxiv.org/abs/1707.0 ...
Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构标签(空格分隔): Streaming-process realtime-process Heron Architecture ...

随机推荐

[转]ASP.NET MVC 5 - 控制器
MVC代表: 模型-视图-控制器 .MVC是一个架构良好并且易于测试和易于维护的开发模式.基于MVC模式的应用程序包含: · Models: 表示该应用程序的数据并使用验证逻辑来强制实施业务规则的数据 ...
这些孩子在 Ubuntu 的 Linux 终端下玩耍
导读我发现了一个孩子们在他们的计算机教室里玩得很开心的视频.我不知道他们在哪里,但我猜测是在印度尼西亚或者马来西亚.视频请自行搭梯子: https://youtu.be/z8taQPomp0Y 在L ...
boost::lexical_cast
boost::lexical_cast为数值之间的转换(conversion)提供了一揽子方案,比如:将一个字符串"转换成整数123,代码如下: "; int a = lexica ...
springmvc常用注解标签详解（转载）
1.@Controller 在SpringMVC 中,控制器Controller 负责处理由DispatcherServlet 分发的请求,它把用户请求的数据经过业务处理层处理之后封装成一个Model ...
11.Curator扩展库
Recipes组件包含了丰富的Curator应用的组件.但是这些并不是ZooKeeper Recipe的全部.大量的分布式应用已经抽象出了许许多多的的Recipe,其中有些还是可以通过Cura ...
python--excel
import xlrd, xlwt # 读取Exceldef read_excel(excel_name, sheet_name): if excel_name and excel_name: all ...
Hibernate的大对象映射
1在持久类中直接声明是java.sql.Blob类型 2在.hbm.xml文件中配置一下信息  <!- ...
Tomcat----->tomcat配置虚拟主机（搭建网站）mac
1.首先在server.xml中添加HOST <Host name="www.snowing.com" appBase="/Users/snowing/Downlo ...
MongoDB 使用 ObjectId 代替时间
An ObjectId is a 12-byte unique identifier consisting of: a 4-byte value representing the seconds si ...
golang函数学习笔记
golang函数特点: a.不支持重载,一个包不能有两个名字一样的函数 b.函数是一等公民,函数也是一种类型,一个函数可以赋值给变量 c.匿名函数 d.多返回值例子1 func add(a, b ...

论文笔记：dropout

论文笔记：dropout的更多相关文章

随机推荐

热门专题