一、背景

机器学习的本质是对物理世界进行建模，做的就是拟合数据分布。

但是在模型训练过程中，神经网络参数不断更新，导数中间层的数据分布频繁地变化（内部协变量偏移），不利于网络参数优化。具体表现为：

每层的参数需不断适应新的输入数据分布，降低学习速度，增大学习的难度（层数多）
输入可能趋向于变大或者变小（分布变广），导致激活值落入饱和区，阻碍学习

如果设定了合适的权重初始值，则各层的激活值分布会有适当的广度，从而可以顺利地进行学习，提高优化效率。

二、Batch Normalization

为了使各层拥有适当的广度（激活值分布不能太广，易饱和），Batch Normalization 试图在学习过程中“强制性”地调整激活值的分布，来缓解内部协变量偏移。

注：Batch Normalization 最开始的动机是缓解内部协变量偏移，但后来的研究者发现其主要优点是归一化会导致更平滑的优化地形。

为了达到这个目的，Batch Normalization 试图使神经网络的净输入 () 的分布尽量保持一致，比如都标准化。类似于归一化对sgd的影响

Batch Normalization 的思路是调整各层的激活值分布使其拥有适当的广度。

为此，要向神经网络中插入对数据分布进行归一化的层，即BatchNormalization层（下文简称Batch Norm层）。

Batch Norm，顾名思义，以进行学习时的mini-batch为单位，按mini-batch进行正规化。

具体而言，就是进行使数据分布的均值为0、方差为1的标准化。

伪代码

if self.training:

    mean = input.mean([0, 2, 3])  # 计算当前 batch 的均值

    var = input.var([0, 2, 3], unbiased=False) # 计算当前 batch 的方差

    n = input.numel() / input.size(1)

    with torch.no_grad():

        # 使用移动平均更新对数据集均值的估算

        self.running_mean = exponential_average_factor * mean\

            + (1 - exponential_average_factor) * self.running_mean

        # 使用移动平均更新对数据集方差的估算

        self.running_var = exponential_average_factor * var * n / (n - 1)\

            + (1 - exponential_average_factor) * self.running_var

else:

    mean = self.running_mean

    var = self.running_var

# 使用均值和方差将每个元素标准化

input = (input - mean[None, :, None, None]) / (torch.sqrt(var[None, :, None, None] + self.eps))

# 对标准化的结果进行缩放（可选）

if self.affine:

    input = input * self.weight[None, :, None, None] + self.bias[None, :, None, None]

图解BatchNorm

均值和标准差是在mini-batches的每一个特征（通道）维度上计算的

γ and β 是维度为C的可学习参数向量 (C是输入的特征数或通道数).

m = nn.BatchNorm1d(100) # With Learnable Parameters

m = nn.BatchNorm1d(100, affine=False) # Without Learnable Parameters

input = torch.randn(20, 100)

output = m(input)

Batch Norm层会对标准化后的数据进行缩放和平移的变换（对净输入() 的标准归一化会使得其取值集中到 0 附近，如果使用 Sigmoid型激活函数时，这个取值区间刚好是接近线性变换的区间，减弱了神经网络的非线性-降低表达能力）。

为了使得标准化不削弱网络的表示能力（有可能降低神经网络的非线性表达能力），可通过一个附加的缩放和平移变换改变取值区间，从而补偿标准化后神经网络的表达力：

从最保守的角度，可通过标准化的逆变换来使得标准化后的变量可被还原为原始值。

通过将BN插入到激活函数的前面（或者后面），可以减小数据分布的偏向。

在测试阶段，将使用训练时收集的均值和方差来进行推断。

BN优点（稳定学习过程）

使用Batch Norm后，可以使学习快速进行,(学习得更快了)。（可以增大学习率）。
不那么依赖参数初始值。
抑制过拟合（降低Dropout等的必要性）

效果展示

给予参数不同的初始值尺度，观察学习的过程如何变化。

几乎所有的情况下都是使用Batch Norm时学习进行得更快（对参数初始值不敏感）。

同时也可以发现，实际上，在不使用Batch Norm的情况下，如果不赋予一个尺度好的初始值（方差），学习将完全无法进行。

逐层归一化不但可以提高优化效率，还可以作为一种隐形的正则化方法。

因为在训练时，它使得神经网络对一个样本的预测不仅和该样本自身相关，也和同一批次中的其他样本相关。

解释：由于在选取批次时具有随机性，因此使得神经网络不会“过拟合”到某个特定样本，从而提高网络的泛化能力。

参考内容

1、深度学习入门

2、李宏毅机器学习

3、深入理解Pytorch的BatchNorm操作（含部分源码）https://zhuanlan.zhihu.com/p/439116200

4、BN究竟起了什么作用？一个闭门造车的分析https://kexue.fm/archives/6992

【深度学习】批量归一化 BatchNormalization的更多相关文章

深度学习面试题21：批量归一化(Batch Normalization,BN)
目录 BN的由来 BN的作用 BN的操作阶段 BN的操作流程 BN可以防止梯度消失吗为什么归一化后还要放缩和平移 BN在GoogLeNet中的应用参考资料 BN的由来 BN是由Google于201 ...
GIS地理处理脚本案例教程——批量栅格分割-批量栅格裁剪-批量栅格掩膜-深度学习样本批量提取
GIS地理处理脚本案例教程--批量栅格分割-批量栅格裁剪-批量栅格掩膜-深度学习样本批量提取商务合作,科技咨询,版权转让:向日葵,135-4855_4328,xiexiaokui#qq.com 关键 ...
如何理解归一化（Normalization）对于神经网络（深度学习）的帮助？
如何理解归一化(Normalization)对于神经网络(深度学习)的帮助? 作者:知乎用户链接:https://www.zhihu.com/question/326034346/answer/730 ...
Pytorch1.0深度学习：损失函数、优化器、常见激活函数、批归一化详解
不用相当的独立功夫,不论在哪个严重的问题上都不能找出真理:谁怕用功夫,谁就无法找到真理. —— 列宁本文主要介绍损失函数.优化器.反向传播.链式求导法则.激活函数.批归一化. 1 经典损失函数 1. ...
深度学习归一化：BN、GN与FRN
在深度学习中,使用归一化层成为了很多网络的标配.最近,研究了不同的归一化层,如BN,GN和FRN.接下来,介绍一下这三种归一化算法. BN层 BN层是由谷歌提出的,其相关论文为<Batch No ...
【深度学习】线性回归（Linear Regression）——原理、均方损失、小批量随机梯度下降
1. 线性回归回归(regression)问题指一类为一个或多个自变量与因变量之间关系建模的方法,通常用来表示输入和输出之间的关系. 机器学习领域中多数问题都与预测相关,当我们想预测一个数值时,就会 ...
深度学习中 --- 解决过拟合问题（dropout, batchnormalization）
过拟合,在Tom M.Mitchell的<Machine Learning>中是如何定义的:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比 ...
L18 批量归一化和残差网络
批量归一化(BatchNormalization) 对输入的标准化(浅层模型) 处理后的任意一个特征在数据集中所有样本上的均值为0.标准差为1. 标准化处理输入数据使各个特征的分布相近批量归一化(深 ...
深度学习系列 Part(3)
这是<GPU学习深度学习>系列文章的第三篇,主要是接着上一讲提到的如何自己构建深度神经网络框架中的功能模块,进一步详细介绍 Tensorflow 中 Keras 工具包提供的几种深度神经网 ...
[DeeplearningAI笔记]神经网络与深度学习人工智能行业大师访谈
觉得有用的话,欢迎一起讨论相互学习~Follow Me 吴恩达采访Geoffrey Hinton NG:前几十年,你就已经发明了这么多神经网络和深度学习相关的概念,我其实很好奇,在这么多你发明的东西中 ...

随机推荐

C/C++ 实现正反向端口映射
通常服务器是放在内网中,内部局域网中,并且分配了私有IP地址,而如果想要在外部直接访问内部服务器则需要端口映射,端口映射也叫做端口转发,或者叫做虚拟服务器,在渗透时当我们拿到目标机器权限以后,目标机器 ...
STM32CubeMX教程28 SDIO - 使用FatFs文件系统读写SD卡
1.准备材料正点原子stm32f407探索者开发板V2.4 STM32CubeMX软件(Version 6.10.0) keil µVision5 IDE(MDK-Arm) ST-LINK/V2驱动 ...
ubuntu离线安装tcpdump
环境 Distributor ID: Ubuntu Description: Ubuntu 16.04.5 LTS Release: 16.04 Codename: xenial 准备安装包 tcpd ...
P9993 [Ynoi Easy Round 2024] TEST_133 题解
题目链接: [Ynoi Easy Round 2024] TEST_133 首先历史最大加,吉司机跑不掉了,维护历史最大加标记以及历史最大,那么根据吉司机标记思想更新操作应该为 \[new \Left ...
Git 简明教程（一）
版本控制工具,早期的vss tfs svn等,这些应该是老一辈程序员常用的工具.目前 git 已经在版本控制领域占主流的地位,因为国外的github 和国内的码云 gitee 均用的是git. git ...
C#对于加密的一点整合 (AES,RSA,MD5,SHA256)
aes 对称加密密钥必须是32字节 using System; using System.Security.Cryptography; using System.Text; namespace C ...
SP21690 POWERUP - Power the Power Up 题解
题目传送门前置知识扩展欧拉定理解法直接对 \(a\) 和 \(b^c\) 分讨,跑一遍扩展欧拉定理就行了. 另外由于本题的特殊规定 \(0^0=1\),故需要在当 \(a=0\) 时,对 \( ...
renren-fast-vue@1.2.2 项目编译报错: build `gulp`
问题呈现: PS D:\Code\Java\ideaWorkspace\renren-fast-vue> npm run build > renren-fast-vue@1.2.2 bui ...
Android上的日志
Android的日志机制和普通的Java项目有一些不一样, 这里记录一下安卓内建的Log 安卓应用类型(在build.gradle里定义 android {...})的模块, 可以直接引用内建的an ...
win32- copyfile的使用
#include <stdio.h> #include <stdlib.h> #include <windows.h> #include <tchar.h&g ...