笔记: Batch Normalization及其反向传播

重点：

在神经网络中，网络是分层的，可以把每一层视为一个单独的分类器，将一个网络看成分类器的串联。这就意味着，在训练过程中，随着某一层分类器的参数的改变，其输出的分布也会改变，这就导致下一层的输入的分布不稳定。分类器需要不断适应新的分布，这就使得模型难以收敛。

一般的神经网络的梯度大小往往会与参数的大小相关（仿射变换），且随着训练的过程，会产生较大的波动,这就导致学习率不宜设置的太大。Batch Normalization使得梯度大小相对固定，一定程度上允许我们使用更高的学习率。

注意BN的线性变换和一般隐藏层的线性变换仍有区别，前者是element-wise的，后者是矩阵乘法。

\[Z=np.dot(W,X)+b
\]

\[\tilde{Z}=\gamma*Z_{norm}+\beta
\]

通过引入参数γ和β，极端情况下，网络可以将γ和β训练为原分布的标准差和均值来恢复数据的原始分布。这样保证了引入BN，不会使效果更差。

网络中BN层的作用

重点：

加快网络的训练和收敛的速度
控制梯度爆炸防止梯度消失
防止过拟合(吴恩达老师说bn的正则化几乎是一个意想不到的副作用)

加快收敛速度：在深度神经网络中中，如果每层的数据分布都不一样的话，将会导致网络非常难收敛和训练，而如果把每层的数据都在转换在均值为零，方差为1 的状态下，这样每层数据的分布都是一样的训练会比较容易收敛。

梯度消失：在深度神经网络中，如果网络的激活输出很大，其对应的梯度就会很小，导致网络的学习速率就会很慢，假设网络中每层的学习梯度都小于最大值0.25，网络中有n层，因为链式求导的原因，第一层的梯度将会小于0.25的n次方，所以学习速率相对来说会变的很慢，而对于网络的最后一层只需要对自身求导一次，梯度就大，学习速率就会比较快，这就会造成在一个很深的网络中，浅层基本不学习，权值变化小，而后面几层网络一直学习，后面的网络基本可以表征整个网络，这样失去了深度的意义。（使用BN层归一化后，网络的输出就不会很大，梯度就不会很小）

梯度爆炸：第一层偏移量的梯度=激活层斜率1x权值1x激活层斜率2x…激活层斜率(n-1)x权值(n-1)x激活层斜率n，假如激活层斜率均为最大值0.25，所有层的权值为100，这样梯度就会指数增加。（使用bn层后权值的更新也不会很大）

BN算法防止过拟合：在网络的训练中，BN的使用使得一个minibatch中所有样本都被关联在了一起，因此网络不会从某一个训练样本中生成确定的结果，即同样一个样本的输出不再仅仅取决于样本的本身，也取决于跟这个样本同属一个batch的其他样本，而每次网络都是随机取batch，这样就会使得整个网络不会朝这一个方向使劲学习。一定程度上避免了过拟合。

吴恩达老师说：Batch归一化还有一个作用，它有轻微的正则化效果，因为在mini-batch上计算的均值和方差，而不是在整个数据集上，均值和方差有一些小的噪声。所以和dropout相似，它往每个隐藏层的激活值上增加了噪音，dropout有增加噪音的方式，它使一个隐藏的单元，以一定的概率乘以0，以一定的概率乘以1，所以你的dropout含几重噪音，因为它乘以0或1。

对比而言，Batch归一化含几重噪音，因为标准偏差的缩放和减去均值带来的额外噪音。这里的均值和标准差的估计值也是有噪音的，所以类似于dropout，Batch归一化有轻微的正则化效果，因为给隐藏单元添加了噪音，这迫使后部单元不过分依赖任何一个隐藏单元，类似于dropout，它给隐藏层增加了噪音，因此有轻微的正则化效果。因为添加的噪音很微小，所以并不是巨大的正则化效果，你可以将Batch归一化和dropout一起使用，如果你想得到dropout更强大的正则化效果。

也许另一个轻微非直观的效果是，如果你应用了较大的mini-batch，对，比如说，你用了512而不是64，通过应用较大的min-batch，你减少了噪音，因此减少了正则化效果，这是dropout的一个奇怪的性质，就是应用较大的mini-batch可以减少正则化效果。

说到这儿，我会把Batch归一化当成一种正则化，这确实不是其目的，但有时它会对你的算法有额外的期望效应或非期望效应。但是不要把Batch归一化当作正则化，把它当作将你归一化隐藏单元激活值并加速学习的方式，我认为正则化几乎是一个意想不到的副作用。

Batch Normalization及其反向传播及bn层的作用的更多相关文章

激活函数、正向传播、反向传播及softmax分类器，一篇就够了！
1. 深度学习有哪些应用图像:图像识别.物体识别.图片美化.图片修复.目标检测. 自然语言处理:机器创作.个性化推荐.文本分类.翻译.自动纠错.情感分析. 数值预测.量化交易 2. 什么是神经网络 ...
BN层
论文名字:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 论 ...
深度解析Droupout与Batch Normalization
Droupout与Batch Normalization都是深度学习常用且基础的训练技巧了.本文将从理论和实践两个角度分布其特点和细节. Droupout 2012年,Hinton在其论文中提出Dro ...
[转载] ReLU和BN层简析
[转载] ReLU和BN层简析来源:https://blog.csdn.net/huang_nansen/article/details/86619108 卷积神经网络中,若不采用非线性激活,会导致 ...
图像分类（二）GoogLenet Inception_v2：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
Inception V2网络中的代表是加入了BN(Batch Normalization)层,并且使用 2个 3*3卷积替代 1个5*5卷积的改进版,如下图所示: 其特点如下: 学习VGG用2个 3* ...
《RECURRENT BATCH NORMALIZATION》
原文链接 https://arxiv.org/pdf/1603.09025.pdf Covariate 协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响实验结果. ...
【卷积神经网络】对BN层的解释
前言 Batch Normalization是由google提出的一种训练优化方法.参考论文:Batch Normalization Accelerating Deep Network Trainin ...
优化深度神经网络（三）Batch Normalization
Coursera吴恩达<优化深度神经网络>课程笔记(3)-- 超参数调试.Batch正则化和编程框架 1. Tuning Process 深度神经网络需要调试的超参数(Hyperparam ...
batch normalization学习理解笔记
batch normalization学习理解笔记最近在Andrew Ng课程中学到了Batch Normalization相关内容,通过查阅资料和原始paper,基本上弄懂了一些算法的细节部分,现 ...
Batch Normalization详解
目录动机单层视角多层视角什么是Batch Normalization Batch Normalization的反向传播 Batch Normalization的预测阶段 Batch Norma ...

随机推荐

DaMeng数据库（国产）
一.介绍自己去看官网据说底层是oracle.但是oracle.mysql的很多东西它都支持二.使用 1.达梦开启大小写不敏感大小写敏感介绍:https://blog.csdn.net/qq_3 ...
RxJava--create源码分析
使用示例: Observable.create(new ObservableOnSubscribe<String>() { @Override public void subscribe( ...
谈一谈Python中的装饰器
1.装饰器基础介绍 1.1 何为Python中的装饰器? Python中装饰器的定义以及用途: 装饰器是一种特殊的函数,它可以接受一个函数作为参数,并返回一个新的函数.装饰器可以用来修改或增强函数的行 ...
openwrt开发使用-arping
前言 IP冲突引起的网络异常,可以通过检查IP是否冲突,排除故障.我们可以用一些工具进行检查,例如arp-scan.arping软件进行查看. 这里使用arping进行检查设备的MAC地址,通过查查看 ...
理解Linux系统: 进程
Linux内核版本: 2.6.11.12 编写代码: 创建进程创建进程使用fork系统调用,官方文档对于fork的描述: fork() creates a new process by duplic ...
ubutn在线服务器python Package安装到离线服务器
1.在线服务器导出requirement.txt pip freeze > requirement.txt 该文件生成完毕后,需要做些修改,去掉不需要的库,否则下载的时候会出错. 2.下载whl ...
解决ffmpeg源码不能编译ffplay问题
虽然不是很大问题,还是记录一下,避免以后忘记!!! 总共两个原因影响了源码编译不能生成ffplay可执行文件,如下: 1.系统中没有安装SDL,直接去官网下载SDL源码编译安装http://www.l ...
vue中使用西瓜视频api
https://v2.h5player.bytedance.com/en/api/ 1 npm install xgplayer 1 <div id="mse">< ...
Java中数字相关的类有哪些？Nuber数字类和Math数学类详解
前言我们在解决实际问题时,会经常对数字.日期和系统设置进行处理,比如在我们的代码中,经常会遇到一些数字&数学问题.随机数问题.日期问题和系统设置问题等. 为了解决这些问题,Java给我们提供 ...
Prism Sample 7 Modules Directory
这种方式用扫描目录的方式来增加模块,具备最大的灵活性仍然在App.xaml.cs中增加了以下代码 protected override IModuleCatalog CreateModuleCata ...

Batch Normalization及其反向传播及bn层的作用

笔记: Batch Normalization及其反向传播

重点：

网络中BN层的作用

重点：

Batch Normalization及其反向传播及bn层的作用的更多相关文章

随机推荐

热门专题