神经网络训练技巧：训练参数初始化、Drop out及Batch Normalization

参数初始化：

xavier初始化： https://blog.csdn.net/VictoriaW/article/details/73000632

条件：优秀的初始化应该使得各层的激活值和梯度的方差在传播过程中保持一致

初始化方法：

假设激活函数关于0对称，且主要针对于全连接神经网络。适用于tanh和softsign

论文地址：Understanding the difficulty of training deep feedforward neural networks

He初始化：https://blog.csdn.net/xxy0118/article/details/84333635

条件：正向传播时，状态值的方差保持不变；反向传播时，关于激活值的梯度的方差保持不变。
适用于ReLU的初始化方法：

论文地址：Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

Drop out： https://blog.csdn.net/stdcoutzyx/article/details/49022443

https://zhuanlan.zhihu.com/p/38200980

dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃，故而每一个mini-batch都在训练不同的网络。对于一个有N个节点的神经网络，有了dropout后，就可以看做是$2^n$个模型的集合了，但此时要训练的参数数目却是不变的。

没有dropout的神经网络：

有dropout的神经网络：

上面的Bernoulli函数的作用是以概率系数p随机生成一个取值为0或1的向量，代表每个神经元是否需要被丢弃。

代码层面实现让某个神经元以概率p停止工作，其实就是让它的激活函数值以概率p变为0。比如我们某一层网络神经元的个数为1000个，其激活函数输出值为y1、y2、y3、......、y1000，我们dropout比率选择0.4，那么这一层神经元经过dropout后，1000个神经元中会有大约400个的值被置为0。

预测的时候，每一个单元的参数要预乘以p：

Batch Normalization：

随着网络训练的进行，每个隐层的参数变化使得后一层的输入发生变化，从而每一批训练数据的分布也随之改变，致使网络在每次迭代中都需要拟合不同的数据分布，增大训练的复杂度以及过拟合的风险。

批量归一化方法是针对每一批数据，在网络的每一层输入之前增加归一化处理（均值为0，标准差为1），将所有批数据强制在统一的数据分布下。

批量归一化降低了模型的拟合能力，归一化之后的输入分布被强制为0均值和1标准差。比如下图，在使用sigmoid激活函数的时候，如果把数据限制到0均值单位方差，那么相当于只使用了激活函数中近似线性的部分，这显然会降低模型表达能力。

为此，作者又为BN增加了2个参数，用来保持模型的表达能力。
于是最后的输出为：
其中$r^{(k)}$、$\beta^{(k)}$分别为缩放参数和偏移参数。
上述公式中用到了均值E和方差Var，需要注意的是理想情况下E和Var应该是针对整个数据集的，但显然这是不现实的。因此，作者做了简化，用一个Batch的均值和方差作为对整个数据集均值和方差的估计。
整个BN的算法如下：

参考：

https://blog.csdn.net/mzpmzk/article/details/79839047

http://blog.csdn.net/shuzfan/article/details/50723877

https://arxiv.org/pdf/1502.03167.pdf

神经网络训练技巧：训练参数初始化、Drop out及Batch Normalization的更多相关文章

神经网络之 Batch Normalization
知乎 csdn Batch Normalization 学习笔记原文地址:http://blog.csdn.net/hjimce/article/details/50866313 作者:hjimce ...
深度学习与CV教程(6) | 神经网络训练技巧 (上)
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
TensorFlow之DNN（二）：全连接神经网络的加速技巧(Xavier初始化、Adam、Batch Norm、学习率衰减与梯度截断)
在上一篇博客<TensorFlow之DNN(一):构建“裸机版”全连接神经网络>中,我整理了一个用TensorFlow实现的简单全连接神经网络模型,没有运用加速技巧(小批量梯度下降不算哦) ...
训练技巧详解【含有部分代码】Bag of Tricks for Image Classification with Convolutional Neural Networks
训练技巧详解[含有部分代码]Bag of Tricks for Image Classification with Convolutional Neural Networks 置顶 2018-12-1 ...
caffe︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization
一.深度学习中常用的调节参数本节为笔者上课笔记(CDA深度学习实战课程第一期) 1.学习率步长的选择:你走的距离长短,越短当然不会错过,但是耗时间.步长的选择比较麻烦.步长越小,越容易得到局部最优 ...
loss训练技巧
一,train loss与test loss结果分析4666train loss 不断下降,test loss不断下降,说明网络仍在学习; train loss 不断下降,test loss趋于不变, ...
对抗生成网络-图像卷积-mnist数据生成(代码) 1.tf.layers.conv2d(卷积操作) 2.tf.layers.conv2d_transpose(反卷积操作) 3.tf.layers.batch_normalize(归一化操作) 4.tf.maximum(用于lrelu) 5.tf.train_variable(训练中所有参数) 6.np.random.uniform(生成正态数据
1. tf.layers.conv2d(input, filter, kernel_size, stride, padding) # 进行卷积操作参数说明:input输入数据, filter特征图的 ...
GAN训练技巧汇总
GAN自推出以来就以训练困难著称,因为它的训练过程并不是寻找损失函数的最小值,而是寻找生成器和判别器之间的纳什均衡.前者可以直接通过梯度下降来完成,而后者除此之外,还需要其它的训练技巧. 下面对历年关 ...

随机推荐

POJO / Javabean / Entity Bean
POJO 和JavaBean是我们常见的两个关键字,一般容易混淆,POJO全称是Plain Ordinary Java Object / Pure Old Java Object,中文可以翻译成:普通 ...
SQL Server Availability Group Failover 测试
兼容性测试: 测试脚本: 环境:windows failover cluster 主库执行脚本: USE [master]GOALTER AVAILABILITY GROUP [test_AG]MOD ...
2018-5 - 凉经 - Mozilla Firefox Ltd - 前端工程师
北京谋智火狐信息技术有限公司(北京市东城区建国门华润大厦 17 层)过去面试的时候感觉电梯好神奇啊!一边的电梯是直达 18 层以上的,我按了 18 层准备到了再往下走一层,一个老司机和我说要做另一边的 ...
ssh config高级用法
转载自:Chapter 7. Advanced Client Use 1. 配置文件 ssh1和Openssh的配置文件在.ssh/ssh_config ssh2配置文件在.ssh2/ssh2_con ...
python学习笔记：（三）list（列表）常用的内置方法
list(列表)包含一些内置的方法,以下为详细介绍: (方法调用:对象.方法(参数)) 1.append() 在列表的末尾添加新的对象如: lst=[1,2,3] lst.append(4) --- ...
visualSVN提交强制添加注释
Visual SVN Server下右键项目 “所有任务”>“Manage Hooks” >选中Pre-commit hook然后edit编辑,添加如下代码 @echo off set ...
Oracle不完全恢复-主动恢复和incarnation/RMAN-20208/RMAN-06004
12.3 主动恢复主动不完全恢复是将数据库“撤回”到从前的传统方法,主要用来撤销认为修改.一般需要先判断PIT点的时间或SCN --1 重启db到mount状态 --2 用restore将所有的数据 ...
【Spring】---【IOC】
Spring 2017-08-15 08:25:57 [IOC] 分享几篇好文谈谈对Spring IOC的理解 Spring的IOC原理(转载) java框架篇---spring IOC 实现原理 ...
WinFrom控件双向绑定
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...
03.大型数据库应用技术课堂测试3（java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V）
本次问题主要出在了之前没有安装hive,结构导致大部分时间花在了安装上面,主要一直报错,网上找不到相关教程.

神经网络训练技巧：训练参数初始化、Drop out及Batch Normalization

随着网络训练的进行，每个隐层的参数变化使得后一层的输入发生变化，从而每一批训练数据的分布也随之改变，致使网络在每次迭代中都需要拟合不同的数据分布，增大训练的复杂度以及过拟合的风险。

神经网络训练技巧：训练参数初始化、Drop out及Batch Normalization的更多相关文章

随机推荐

热门专题