caffe dropout解读

先上caffe dropout_layer.cpp源码，如下：

// LayerSetUp

DCHECK(threshold_ > 0.);

DCHECK(threshold_ < 1.);

scale_ = 1. / (1. - threshold_);

// forward

void DropoutLayer<Dtype>::Forward_cpu(const vector<Blob<Dtype>*>& bottom,

        const vector<Blob<Dtype>*>& top) {

    const Dtype* bottom_data = bottom[0]->cpu_data();

    Dtype* top_data = top[0]->mutable_cpu_data();

    unsigned int* mask = rand_vec_.mutable_cpu_data();

    const int count = bottom[0]->count();

    if (this->phase_ == TRAIN) {

        // 产生01掩码,伯努利随机数

      // Create random numbers

    caffe_rng_bernoulli(count, 1. - threshold_, mask);

      for (int i = 0; i < count; ++i) {

        // 丢弃部分置0,保留部分按inverted dropout需要放大scale_倍

        top_data[i] = bottom_data[i] * mask[i] * scale_;

      }

    } else {    // 测试阶段原样输出

    caffe_copy(bottom[0]->count(), bottom_data, top_data);

  }

}

//backward

void DropoutLayer<Dtype>::Backward_cpu(const vector<Blob<Dtype>*>& top,

    const vector<bool>& propagate_down,

    const vector<Blob<Dtype>*>& bottom) {

  if (propagate_down[0]) {

    const Dtype* top_diff = top[0]->cpu_diff();

    Dtype* bottom_diff = bottom[0]->mutable_cpu_diff();

    if (this->phase_ == TRAIN) {

      const unsigned int* mask = rand_vec_.cpu_data();

      const int count = bottom[0]->count();

      for (int i = 0; i < count; ++i) {

        bottom_diff[i] = top_diff[i] * mask[i] * scale_;

      }

    } else {

      caffe_copy(top[0]->count(), top_diff, bottom_diff);

    }

  }

}

## 原始的dropout的原理：
在训练时，每个神经单元以概率p被保留(dropout丢弃率为1-p)；在测试阶段，每个神经单元都是存在的，权重参数w要乘以p，成为：pw。测试时需要乘上p的原因：考虑第一隐藏层的一个神经元在dropout之前的输出是x，那么dropout之后的期望值是$E=px+(1−p)0$ ，在测试时该神经元总是激活，为了保持同样的输出期望值并使下一层也得到同样的结果，需要调整$x→px$. 其中p是Bernoulli分布（0-1分布）中值为1的概率。

## Caffe中的dropout(inverted dropout)原理：
原始的dropout需要在测试阶段调整$x\rightarrow px$，这样会增加测试阶段的计算量，因此将缩放的过程转移到训练阶段来做，测试阶段与不使用dropout时相同，也就是***Inverted dropout***，训练时前向阶段保留下来的神经元的权重乘以1/p，因此在测试阶段本来需要调整的$x\rightarrow px$就变成了$p* \frac {1}{p}\rightarrow x$，也就是说测试阶段不需要变了。因此在代码里面添加inverted dropout只会影响到训练过程，不会影响测试过程。

可以看出在训练阶段，前向的过程是先产生一个伯努利随机数，做一个mask数组，用mask随机对输入数据做了一个“掩膜”，再做scale倍的缩放，而scale_ = 1. / (1. - threshold_); threshold默认0.5，这里scale就是2，给输出的data每个元素的值扩大2倍。

整理一下，在训练阶段的前向传递时，输入是一个向量，做一个同样维度的mask向量，用伯努利分布给mask赋值以后，mask中就是0和1的元素。此时用data[i]\*mask[i]就相当于让一部分神经元失活，但是这样会造成输出值范围变化，因此设置scale = 1/(1-ratio)，有data[i]\*mask[i]\*scale。

## AlphaDropout
Alpha Dropout是一种保持输入均值和方差不变的Dropout，该层的作用是通过缩放和平移使得在dropout时也保持数据的自规范性。Alpha Dropout与SELU激活函数配合较好。更多细节参考论文 Self-Normalizing Neural Networks.

## 意义与理解
//来自知乎
dropout掉不同的隐藏神经元就类似在训练不同的网络，随机删掉一半隐藏神经元导致网络结构已经不同，整个dropout过程就相当于对很多个不同的神经网络取平均。而不同的网络产生不同的过拟合，一些互为“反向”的拟合相互抵消就可以达到整体上减少过拟合。
减少神经元之间复杂的共适应关系：因为dropout程序导致两个神经元不一定每次都在一个dropout网络中出现。（这样权值的更新不再依赖于有固定关系的隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况）。迫使网络去学习更加鲁棒的特征（这些特征在其它的神经元的随机子集中也存在）。换句话说假如我们的神经网络是在做出某种预测，它不应该对一些特定的线索片段太过敏感，即使丢失特定的线索，它也应该可以从众多其它线索中学习一些共同的模式（鲁棒性）。（这个角度看 dropout就有点像L1，L2正则，减少权重使得网络对丢失特定神经元连接的鲁棒性提高）

（还有一个比较有意思的解释是，Dropout类似于性别在生物进化中的角色：物种为了生存往往会倾向于适应这种环境，环境突变则会导致物种难以做出及时反应，性别的出现可以繁衍出适应新环境的变种，有效的阻止过拟合，即避免环境改变时物种可能面临的灭绝。当地球都是海洋时，人类是不是也进化出了再海里生活的能力呢？）

//以上来自知乎

取平均和集成学习中的bagging有点类似。学习多个网络，最后投票决定，只是这种方式更加高效，简洁。

减少神经元之间复杂的共适应关系，这一点则是在dropout过程中，会避免co-adapted，就是说这种机制能够避免unit_a unit_b两个的共同自适应，换句话说有可能b的状态会参考a的现在的状态，而dropout会使得a和b可能看不到对方的状态。

caffe dropout解读的更多相关文章

caffe层解读系列-softmax_loss
转自:http://blog.csdn.net/shuzfan/article/details/51460895 Loss Function softmax_loss的计算包含2步: (1)计算sof ...
caffe层解读-softmax_loss
转自https://blog.csdn.net/shuzfan/article/details/51460895. Loss Function softmax_loss的计算包含2步: (1)计算so ...
caffe︱ImageData层、DummyData层作为原始数据导入的应用
Part1:caffe的ImageData层 ImageData是一个图像输入层,该层的好处是,直接输入原始图像信息就可以导入分析. 在案例中利用ImageData层进行数据转化,得到了一批数据. 但 ...
【转】[caffe]深度学习之图像分类模型AlexNet解读
[caffe]深度学习之图像分类模型AlexNet解读原文地址:http://blog.csdn.net/sunbaigui/article/details/39938097 本文章已收录于: ...
[caffe]深度学习之图像分类模型VGG解读
一.简单介绍 vgg和googlenet是2014年imagenet竞赛的双雄,这两类模型结构有一个共同特点是go deeper.跟googlenet不同的是.vgg继承了lenet以及alexnet ...
[caffe]深度学习之图像分类模型AlexNet解读
在imagenet上的图像分类challenge上Alex提出的alexnet网络结构模型赢得了2012届的冠军.要研究CNN类型DL网络模型在图像分类上的应用,就逃不开研究alexnet.这是CNN ...
caffe︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization
一.深度学习中常用的调节参数本节为笔者上课笔记(CDA深度学习实战课程第一期) 1.学习率步长的选择:你走的距离长短,越短当然不会错过,但是耗时间.步长的选择比较麻烦.步长越小,越容易得到局部最优 ...
caffe中关于（ReLU层，Dropout层，BatchNorm层，Scale层）输入输出层一致的问题
在卷积神经网络中.常见到的激活函数有Relu层 layer { name: "relu1" type: "ReLU" bottom: "pool1&q ...
系列解读Dropout
本文主要介绍Dropout及延伸下来的一些方法,以便更深入的理解. 想要提高CNN的表达或分类能力,最直接的方法就是采用更深的网络和更多的神经元,即deeper and wider.但是,复杂的网络也 ...

随机推荐

Java基础面试题1
http://blog.csdn.net/jackfrued/article/details/44921941 1.面向对象的特征有哪些方面? 答:面向对象的特征主要有以下几个方面: - 抽象:抽象 ...
带有EXE参数的启动
(一).先制作一个带启动参数的EXE文件. 步骤: 1.定义全局私有变量:private string[] s = new string[1]; //这里为了简单起见,只做一个 ...
<c:set> 标签
<c:set> 标签 JSP 标准标签库 <c:set>标签用于设置变量值和对象属性. <c:set>标签就是<jsp:setProperty>行为标签 ...
js字符串解析与转换成数字
解析允许字符串中含有非法数字字符,解析按从左至右的顺序,如果遇到非数字字符就停止.而转换不允许出现非数字字符,否则会失败并返回NaN
stm32 HardFault_Handler调试及问题查找方法——飞思卡尔
看到有朋友遇到Hard Fault 异常错误,特地找到一篇飞思卡尔工程师写的一片经验帖,定位Hard Fault 异常. Kinetis MCU 采用 Cortex-M4 的内核,该内核的 Fault ...
AirTest与模拟器连接（二）
如果我们手边没有可用的Android真机,又想进行Android应用自动化测试,这时候就要使用AirtestIDE的Android模拟器自动化测试功能了. AirtestIDE所支持的模拟器包括 An ...
HDU 6010 - Daylight Saving Time
先算周几,再模拟 #include <bits/stdc++.h> using namespace std; int GetWeekDay(int y,int m,int d)//0为周一 ...
十一.简单MariaDB数据库的管理
默认端口:3306 1.安装 ]# yum -y install mariadb-server ]# systemctl restart mariadb 2.基本操作 ]# mysql #进入 ]&g ...
exam9.6&&7
emmm 改题稍紧张,以后几篇并一起写 9.6 (前十并没有参加本次考试) 于是我就rank8了一道题一道题来先说T1: 显然是一个高精度GCD,于是打算用计算器算一下时间复杂度众所周知gcd是 ...
linux系列（五）：rm命令
rm是一个危险的命令,使用的时候要特别当心,尤其对于新手,否则整个系统就会毁在这个命令(比如在/(根目录)下执行rm * -rf).所以,我们在执行rm之前最好先确认一下在哪个目录,到底要删除什么东西 ...

caffe dropout解读

caffe dropout解读的更多相关文章

随机推荐

热门专题