CNN中dropout层的理解

　　dropout是在训练神经网络模型时，样本数据过少，防止过拟合而采用的trick。那它是怎么做到防止过拟合的呢？

　　首先，想象我们现在只训练一个特定的网络，当迭代次数增多的时候，可能出现网络对训练集拟合的很好（在训练集上loss很小），但是对验证集的拟合程度很差的情况。所以，我们有了这样的想法：可不可以让每次跌代随机的去更新网络参数（weights），引入这样的随机性就可以增加网络generalize 的能力。所以就有了dropout 。

　　在训练的时候，我们只需要按一定的概率（retaining probability）p 来对weight layer 的参数进行随机采样，将这个子网络作为此次更新的目标网络。可以想象，如果整个网络有n个参数，那么我们可用的子网络个数为 2^n 。并且，当n很大时，每次迭代更新使用的子网络基本上不会重复，从而避免了某一个网络被过分的拟合到训练集上。

　　那么测试的时候怎么办呢？一种最naive的方法是，我们把 2^n 个子网络都用来做测试，然后以某种 voting 机制将所有结果结合一下（比如说平均一下下），然后得到最终的结果。但是，由于n实在是太大了，这种方法实际中完全不可行！所以有人提出，那我做一个大致的估计不就得了，我从2^n个网络中随机选取 m 个网络做测试，最后在用某种voting 机制得到最终的预测结果。这种想法当然可行，当m很大时但又远小于2^n时，能够很好的逼近原2^n个网络结合起来的预测结果。但是，有没有更好的办法呢？ of course！那就是dropout 自带的功能，能够通过一次测试得到逼近于原2^n个网络组合起来的预测能力！

　　虽然训练的时候我们使用了dropout，但是在测试时，我们不使用dropout （不对网络的参数做任何丢弃，这时dropout layer相当于进来什么就输出什么）。然后，把测试时dropout layer的输出乘以训练时使用的retaining probability p （这时dropout layer相当于把进来的东东乘以p）。仔细想想这里面的意义在哪里呢？？？事实上，由于我们在测试时不做任何的参数丢弃，如上面所说，dropout layer 把进来的东西原样输出，导致在统计意义下，测试时每层 dropout layer的输出比训练时的输出多加了【（1 - p）*100】% units 的输出。即【p*100】% 个units 的和是同训练时随机采样得到的子网络的输出一致，另【（1 - p）*100】% 的units的和是本来应该扔掉但是又在测试阶段被保留下来的。所以，为了使得dropout layer 下一层的输入和训练时具有相同的“意义”和“数量级”，我们要对测试时的伪dropout layer的输出（即下层的输入）做 rescale：乘以一个p，表示最后的sum中只有这么大的概率，或者这么多的部分被保留。这样以来，只要一次测试，将原2^n个子网络的参数全部考虑进来了，并且最后的 rescale 保证了后面一层的输入仍然符合相应的物理意义和数量级。

　　假设x是dropout layer的输入，y是dropout layer的输出，W是上一层的所有weight parameters， $W|_{p}$ 是以retaining probability 为p 采样得到的weight parameter子集。把上面的东西用公式表示（忽略bias）：

　　　　train： $y=W|_{p}*x$

　　　　test: $y=W*px$

　　但是一般写程序的时候，我们想直接在test时用 $y=W'*x$ ，这种表达式。（where $W'=W\cdot p$ ）因此我们就在训练的时候就直接训练 $W'$ 。所以训练时，第一个公式修正为 $y=\frac{W'|_{p}}{p}*x=W'|_{p}*\frac{x}{p}$ 。即把dropout的输入乘以p 再进行训练，这样得到的训练得到的weight 参数就是 $W'$ ，测试的时候除了不使用dropout外，不需要再做任何rescale。Caffe 和Lasagne 里面的代码就是这样写的。

转自http://blog.csdn.net/u012702874/article/details/45030991

CNN中dropout层的理解的更多相关文章

由浅入深：CNN中卷积层与转置卷积层的关系
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由forrestlin发表于云+社区专栏导语:转置卷积层(Transpose Convolution Layer)又称反卷积层或分数卷 ...
CNN中卷积层池化层反向传播
参考:https://blog.csdn.net/kyang624823/article/details/78633897 卷积层池化层反向传播: 1,CNN的前向传播 a)对于卷积层,卷积核与输入 ...
CNN中卷积层的计算细节
原文链接: https://zhuanlan.zhihu.com/p/29119239 卷积层尺寸的计算原理输入矩阵格式:四个维度,依次为:样本数.图像高度.图像宽度.图像通道数输出矩阵格式:与输 ...
深度学习中dropout策略的理解
现在有空整理一下关于深度学习中怎么加入dropout方法来防止测试过程的过拟合现象. 首先了解一下dropout的实现原理: 这些理论的解释在百度上有很多.... 这里重点记录一下怎么实现这一技术参 ...
对faster rcnn 中rpn层的理解
1.介绍图为faster rcnn的rpn层,接自conv5-3 图为faster rcnn 论文中关于RPN层的结构示意图 2 关于anchor: 一般是在最末层的 feature map 上再用 ...
理解CNN中的通道 channel
在深度学习的算法学习中,都会提到 channels 这个概念.在一般的深度学习框架的 conv2d 中,如 tensorflow .mxnet ,channels 都是必填的一个参数. channel ...
javaEE中关于dao层和services层的理解
javaEE中关于dao层和services层的理解入职已经一个多月了,作为刚毕业的新人,除了熟悉公司的项目,学习公司的框架,了解项目的一些业务逻辑之外,也就在没学到什么:因为刚入职, 带我的那个师 ...
caffe中关于（ReLU层，Dropout层，BatchNorm层，Scale层）输入输出层一致的问题
在卷积神经网络中.常见到的激活函数有Relu层 layer { name: "relu1" type: "ReLU" bottom: "pool1&q ...
深度学习中Dropout原理解析
1. Dropout简介 1.1 Dropout出现的原因在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象. 在训练神经网络的时候经常会遇到过拟合的问题 ...

随机推荐

php中关于时间的用法
一.时间戳相关: 当前时间戳:time(); 把时间戳转换为时间显示:date("Y-m-d H:i:s", $a); 把日期时间转换 ...
在ubuntu14.04上漏洞环境vulndocker的DOCKER搭建
一.下载git包以及安装: git clone https://github.com/leveryd/vulndocker.git cd vulndocker apt-get install uwsg ...
centos7上安装iptables
centos7上安装iptables的步骤注意:CentOS7默认的防火墙不是iptables,而是firewalle. 安装iptable iptable-service #安装iptables ...
DES加密解密 Java中运用
DES全称Data Encryption Standard,是一种使用密匙加密的块算法.现在认为是一种不安全的加密算法,因为现在已经有用穷举法攻破DES密码的报道了.尽管如此,该加密算法还是运用非常普 ...
Activity工作流入门之HelloWorld
Activity的在线安装地址为:http://www.activiti.org/designer/update/ 打开Eclipse -> Help -> Install New Sof ...
postgresql----IN&&EXISTS
一.IN && NOT IN WHERE expression IN (subquery) 右边圆括号内是返回一个字段的子查询结果集,左边的表达式(或字段)对查询结果每一行进行一次运算 ...
HDU 1103 Flo's Restaurant(模拟+优先队列)
Flo's Restaurant Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) ...
南京网络赛G-Lpl and Energy【线段树】
During tea-drinking, princess, amongst other things, asked why has such a good-natured and cute Drag ...
The key unit of modularity in OOP is the class, whereas in AOP the unit of modularity is the aspect.
Spring Framework Overview https://www.tutorialspoint.com/spring/spring_overview.htm Aspect Oriented ...
django-mvvm(django的FormObject)
MVVM简介 MVVM模式是Model-View-ViewMode模式的简称.由视图(View).视图模型(ViewModel).模型(Model)三部分组成,结构如下图.通过这三部分实现UI逻辑.呈 ...

CNN中dropout层的理解

CNN中dropout层的理解的更多相关文章

随机推荐

热门专题