批标准化 Batch Normalization

2018-12-05 20:28:15

在机器学习领域有一个很重要的假设，即独立同分布假设，也就是说训练集和测试集是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。而BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布。

为什么深度神经网络随着网络深度加深，训练起来越困难，收敛越来越慢？

有很多研究人员都致力于研究这个问题，也提出了很多行之有效的方法，BN就是google小组在论文Batch Normalizatoin中提出来的方法。他们指出模型在训练过程中Internal Covariate Shift 会导致模型收敛变慢且训练效果变差，其主要描述的是：训练深度网络的时候经常发生训练困难的问题，因为，每一次参数迭代更新后，上一层网络的输出数据经过这一层网络计算后，数据的分布会发生变化，为下一层网络的学习带来困难。

（随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动，之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近，对于Sigmoid函数来说，意味着激活输入值WU+B是大的负值或正值，所以这导致后向传播时低层神经网络的梯度消失）

为了解决ICS问题，就引入了BN层，对隐含的输出也进行标准化，同时引入扩展参数 gamma, 和平移参数 β, 这样神经网络就能自己慢慢琢磨出前面的 normalization 操作到底有没有起到优化的作用, 如果没有起到作用, 我就使用 gamma 和 belt 来抵消一些 normalization 的操作。

需要注意的是，上述的计算方法用于在训练。因为测试时常会只预测一个新样本，也就是说batch size为1。若还用相同的方法计算 $\mu_B$ ， $\mu_B$ 就会是这个新样本自身， $s_1-\mu_B$ 就会成为0。

所以在测试时，所使用的 $\mu$ 和 $\sigma^2$ 是整个训练集的均值 $\mu_P$ 和方差 $\sigma^2_P$ 。

而整个训练集的均值 $\mu_P$ 和方差 $\sigma^2_P$ 的值通常是使用指数加权平均进行计算得到的。

指数加权平均 : v_i = beta * v_i - 1 + (1 - beta) * nums_i

其中beta是一个超参，一般来说可以看作1 / (1 - beta) 为平均的batch的数目。比如取beta = 0.9，那么就表明大概得到的是近10天的平均值。

批标准化 Batch Normalization的更多相关文章

批标准化(Batch Norm)
BN作用: 加速收敛控制过拟合,可以少用或不用Dropout和正则降低网络对初始化权重不敏感允许使用较大的学习率一.如何加速收敛? 通过归一化输入值/隐藏单元值,以获得类似的范围值,可加速学习 ...
CNN学习笔记：批标准化
CNN学习笔记:批标准化 Batch Normalization Batch Normalization, 批标准化, 是将分散的数据统一的一种做法, 也是优化神经网络的一种方法. 在神经网络的训练过 ...
深度学习面试题21：批量归一化(Batch Normalization,BN)
目录 BN的由来 BN的作用 BN的操作阶段 BN的操作流程 BN可以防止梯度消失吗为什么归一化后还要放缩和平移 BN在GoogLeNet中的应用参考资料 BN的由来 BN是由Google于201 ...
[转] 深入理解Batch Normalization批标准化
转自:https://www.cnblogs.com/guoyaohua/p/8724433.html 郭耀华's Blog 欲穷千里目,更上一层楼项目主页:https://github.com/gu ...
莫烦课程Batch Normalization 批标准化
for i in range(N_HIDDEN): # build hidden layers and BN layers input_size = 1 if i == 0 else 10 fc = ...
转载-【深度学习】深入理解Batch Normalization批标准化
全文转载于郭耀华-[深度学习]深入理解Batch Normalization批标准化: 文章链接Batch Normalization: Accelerating Deep Network T ...
【深度学习】深入理解Batch Normalization批标准化
这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出. Batch Normaliz ...
［转载］深入理解Batch Normalization批标准化
文章转载自:http://www.cnblogs.com/guoyaohua/p/8724433.html Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和 ...
【深度学习】批归一化（Batch Normalization）
BN是由Google于2015年提出,这是一个深度神经网络训练的技巧,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中"梯度弥散"的问题,从而使得训练深层网 ...

随机推荐

Java利用JNI调用C/C++写成的DLL
前言由于学期作业的要求,笔者需要开发一个语音识别系统.出于对Java的热爱,笔者非常想用Java来写上层程序(前台+数据库的三层),又要用到Microsoft Speech SDK,所以在这些条件下 ...
11: python中的轻量级定时任务调度库：schedule
1.1 schedule 基本使用 1.schedule 介绍 1. 提到定时任务调度的时候,相信很多人会想到芹菜celery,要么就写个脚本塞到crontab中. 2. 不过,一个小的定时脚本,要用 ...
linux 实时显示网速bash
执行方法先授权再运行 chmod +x shi.sh脚本+网卡名称 ./shi.sh ens33 #!/bin/bash while [ "1" ] do eth=$1 RXpre ...
Bootstrap3基础 form-horizontal 表单元素横向布局简单示例
内容参数 OS Windows 10 x64 browser Firefox 65.0.2 framework Bootstrap 3.3.7 editor ...
Python3基础 list extend 合并列表
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
git克隆源码时提示fatal: HTTP request failed怎么办?
答: 升级git版本即可 centos下升级git的方法在此
hexo在github和coding.net部署并分流（一）
安装GIT和Node.JS 首先在自己的电脑上安装好git和node.js,这一步怎么做自己搜索,安装软件都是下一步下一步,应该不难,GIT安装完成后打开git cmd输入 git config -- ...
LuoguP2161 [SHOI2009]会场预约
题目地址题目链接题解用fhqtreap对区间进行维护. 可以注意到的是,对于当前存在的预约,他们一定是升序排列的(有重叠的都被删了). 那么就可以用按照位置分裂的fhqtreap搞了(预约无论按 ...
P4609 [FJOI2016]建筑师
思路裸的第一类斯特林数,思路和CF960G相同预处理组合数和第一类斯特林数回答即可代码 #include <cstdio> #include <cstring> #inc ...
Thread类的常用方法
String getName() 返回该线程的名称. void setName(String name) 改变线程名称,使之与参数 name 相同. int getPriority() 返回线程的优先 ...

批标准化 Batch Normalization

批标准化 Batch Normalization的更多相关文章

随机推荐

热门专题