Ioffe S. and Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In International Conference on Machine Learning (ICML), 2015.

Ba J., Kiros J. and Hinton G. Layer normalization. In Advances in Neural Information Processing Systems (NIPS) 2016.

Ulyanov D., Vedaldi A. and Lempitsky V. Instance normalization: the missing ingredient for fast stylization.arXiv preprint arXiv:1607.08022, 2016.

Wu Y. and He K. Group normalization. In Proceedings of the European conference on computer vision (ECCV), 2018.

整理一下各种normalization方法.

主要内容

对于每一层, 可以简化的理解为:

\[h^l = f(Wh^{l-1} + b),
\]

其中\(h^{l}\)是前一层的输入, \(W, b\)分别为该层的权重和偏置, \(f\)是对应的激活函数.

但是仅按照这种方式搭建的网络训练不稳定还非常慢, 这也是为什么各种normalization方法被提出的初衷.

这些方法可以统一为:

\[h^{l} = f(g(Wh^{l-1} + b)),
\]

这里用\(g(\cdot)\)表示某种normalization方法.

为了方便起见, 另外令

\[x = Wh^{l-1} + b, \\
y = g(x).
\]

总的示意图如下(图片来自Group Normalization):

Batch Normalization

该normalization方法思想是最朴素的, 即每一次我们都recentering一下数据:

\[y = g(x) = \frac{x - \mu}{\sigma},
\]

这里\(\mu,\sigma\)分别表示\(x\)的均值和标准差.

但是上述的标准化存在均值和标准差的估计问题, 故在训练中我们取一个batch作为估计:

\[y = \frac{x - \hat{\mu}}{\hat{\sigma}}, \quad \hat{\mu}:= \frac{1}{n} \sum_{i=1}^n x^i, \hat{\sigma} := \sqrt{\frac{1}{n}\sum_i (x^i - \hat{\mu})^2}.
\]

其中\(x^i, i=1,2,\cdots, n\)为一个batch的数据.

在实际中, 为了安全和可扩展, 采取如下形式:

\[y = \frac{x - \hat{\mu}}{\sqrt{\hat{\sigma}^2+\epsilon}} \cdot \gamma + \beta,
\]

其中\(\gamma, \beta\)为weight 和 bias, \(\epsilon\)常取1e-5.

在训练中, 每次forward pass都会更新running_mean \(\mu\), running_var \(\sigma^2\):

\[\mu = (1 - m) \cdot \mu + m \cdot \hat{\mu} \\
\sigma^2 = (1 - m) \cdot \sigma^2 + m \cdot \hat{\sigma}^2.
\]

这里\(m\)是用于滑动平均的momentum, 这里采取这种形式是为了和Pytorch的实现保持一致, 其选择\(m=0.1\).

在evaluation中, 我们变使用\(\mu, \sigma^2\)来normalization:

\[y = \frac{x - \mu}{\sqrt{\sigma^2+\epsilon}} \cdot \gamma + \beta.
\]

注: 在处理\(dim=1\)(即向量数据)的时候, 均值和方差的计算就是普通的, 但是\(dim=2\)的时候, 比如常见的卷积mapping, 其结构为\(N \times C \times H \times W\), 则其均值方差是对于每一个通道计算的, 即\(\mu,\sigma \in \mathbb{R}^C\), 同理\(\gamma, \beta \in \mathbb{R}^C\).

Layer Normalization

显然, batch normalization的batch size 不能太小, 而layer normalization 可以处理这一点, 因为它是针对单个样本而言的.

其同样采取

\[y = \frac{x - \hat{\mu}}{\sqrt{\hat{\sigma}^2+\epsilon}} \cdot \gamma + \beta,
\]

的形式, 只是

\[\hat{\mu} := \frac{1}{H} \sum_{i}^H x_i,\: \hat{\sigma}:= \sqrt{\frac{1}{H}\sum_{i=1}^H (x_i - \hat{\mu})^2},
\]

这里\(x_i\)表示\(x\)的第\(i\)个分量, 特征维度为\(H\).

注: 在Pytorch的实现中, \(\gamma, \beta\)都是element-wise的, 即如果我们选取\(C \times H \times W\), 则\(\gamma, \beta \in \mathbb{R}^{C \times H \times W}\).

Instance Normalization

instance normalization 主要是用于消除图片之间的contrast而提出的:

\[y = \frac{x - \hat{\mu}}{\sqrt{\hat{\sigma}^2+\epsilon}} \cdot \gamma + \beta,
\]

注意, instance的normalization同样是基于单个样本而言的, 对于卷积层而言\(N \times C \times H \times W\):

\[\hat{\mu} := \frac{1}{HW}\sum_i \sum_j x_{ij}, \\
\hat{\sigma} := \sqrt{\frac{1}{HW}\sum_i \sum_j (x_{ij} - \hat{\mu})^2},
\]

显然\(\hat{\mu}, \hat{\sigma} \in \mathbb{R}^C\). 对于向量数据而言, 和layernorm其实是一致的.

注: instance normalization 通常没有放射变换(即舍弃\(\gamma, \beta\)).

Group Normalization

GN则是根据通道\(C\)分成\(G\)个group, 对每一个group沿着\(H, W\)方向估计:

\[\hat{\mu}_g := \frac{1}{(C / G) \cdot HW} \sum_{i=1}^H\sum_{j=1}^W\sum_{k=(g - 1)\cdot \frac{C}{G} + 1}^{g * \frac{C}{G}} x_{kij}, \\
\hat{\sigma}_g := \sqrt{\frac{1}{(C / G) \cdot HW} \sum_{i=1}^H\sum_{j=1}^W\sum_{k=(g - 1)\cdot \frac{C}{G} + 1}^{g * \frac{C}{G}} (x_{kij} - \hat{\mu}_g)^2}, \\
g = 1, 2, \cdots, G.
\]

注: 这里假设\(C\)能够整除\(G\).

注: 当\(G=C\)的时候, GN 就是 IN, \(G=1\)的时候, GN就是LN.

Normalization Methods的更多相关文章

  1. 机器学习中的标准化方法(Normalization Methods)

    希望这篇随笔能够从一个实用化的角度对ML中的标准化方法进行一个描述.即便是了解了标准化方法的意义,最终的最终还是要:拿来主义,能够在实践中使用. 动机:标准化的意义是什么? 我们为什么要标准化?想象我 ...

  2. JabRef 文献管理软件

    JabRef 文献管理软件简明教程 大多只有使用LaTeX撰写科技论文的研究人员才能完全领略到JabRef的妙不可言,但随着对Word写作平台上BibTeX4Word插件的开发和便利应用,使用Word ...

  3. 大规模视觉识别挑战赛ILSVRC2015各团队结果和方法 Large Scale Visual Recognition Challenge 2015

    Large Scale Visual Recognition Challenge 2015 (ILSVRC2015) Legend: Yellow background = winner in thi ...

  4. LaTeX 的对参考文献的处理

      LaTeX 的对参考文献的处理实在是非常的方便,我用过几次,有些体会,写出来供大家 参考.当然,自己的功力还不够深,有些地方问题一解决就罢手了,没有细究.     LaTeX 对参考文献的处理有这 ...

  5. BIBTeX制作参考文献

    一篇关于Latex的参考文献的好文章!基本问题都能解答~ 文章来源:http://www.cnblogs.com/longdouhzt/archive/2012/06/21/2557965.html ...

  6. latex bib format

    LaTeX 的对参考文献的处理实在是非常的方便,我用过几次,有些体会,写出来供大家参考.当然,自己的功力还不够深,有些地方问题一解决就罢手了,没有细究. LaTeX 对参考文献的处理有这么一些优点: ...

  7. Spiking-YOLO : 前沿性研究,脉冲神经网络在目标检测的首次尝试 | AAAI 2020

    论文提出Spiking-YOLO,是脉冲神经网络在目标检测领域的首次成功尝试,实现了与卷积神经网络相当的性能,而能源消耗极低.论文内容新颖,比较前沿,推荐给大家阅读   来源:晓飞的算法工程笔记 公众 ...

  8. Video processing systems and methods

    BACKGROUND The present invention relates to video processing systems. Advances in imaging technology ...

  9. 数据预处理中归一化(Normalization)与损失函数中正则化(Regularization)解惑

    背景:数据挖掘/机器学习中的术语较多,而且我的知识有限.之前一直疑惑正则这个概念.所以写了篇博文梳理下 摘要: 1.正则化(Regularization) 1.1 正则化的目的 1.2 正则化的L1范 ...

随机推荐

  1. day06 视图层

    day06 视图层 今日内容 视图层 小白必会三板斧 JsonResponse form表单发送文件 FBV与CBV FBV基于函数的视图 CBV基于类的视图 模板层 模板语法的传值 模板语法之过滤器 ...

  2. Ubuntu下STL源码文件路径+VS2010下查看STL源码

    Ubuntu版本信息 然后STL源码位置就在 /usr/include/c++/7/bits /usr/include/c++/7.4.9/bits 这两个文件下都有 然后我日常写程序用的Window ...

  3. Linux系统时钟与硬件时钟

    linux系统有两个时钟:一个是由主板电池驱动的硬件时钟(Real Time Clock),也叫做RTC或者叫CMOS时钟.当操作系统关机的时候,用这个来记录时间,但是对于运行的系统是不用这个时间的: ...

  4. 转Android Canvas和Paint基本使用

    Android Canvas和Paint基本使用   这篇文章主要介绍下画笔Paint和画布Canvas的基本使用  1.Paint 创建对象Paint mPaint = new Paint(); 常 ...

  5. Linux基础命令---vmstat显示虚拟内存状态

    vmstat vmstat指令用来显示虚拟内存使用状态,同时也可以显示进程.cpu活动情况.vmstat报告有关进程.内存.分页.块IO.陷阱和CPU活动的信息.生成的第一份报告给出了自上次重新启动以 ...

  6. GO类型转换

    golang []byte转string golang中,字符切片[]byte转换成string最简单的方式是 package main import ( "fmt" _ &quo ...

  7. Android CameraX 打开摄像头预览

    目标很简单,用CameraX打开摄像头预览,实时显示在界面上.看看CameraX有没有Google说的那么好用.先按最简单的来,把预览显示出来. 引入依赖 模块gradle的一些配置,使用的Andro ...

  8. 02 - Vue3 UI Framework - 顶部边栏

    顶部边栏比较简单,而且首页和文档页都需要,所以我们先从顶部边栏做起 前文回顾点击 这里 返回阅读列表点击 这里 初始化 首先,在 components 文件夹下,创建一个 vue 组件,命名为 Top ...

  9. 车载以太网第二弹 | 测试之实锤-物理层PMA测试实践

    前言 本期先从物理层"PMA测试"开始,下图1为"PMA测试"的测试结果汇总图.其中,为了验证以太网通信对线缆的敏感度,特选取两组不同特性线缆进行测试对比,果然 ...

  10. Android: Client-Server communication

    Refer to: http://osamashabrez.com/simple-client-server-communication-in-android/ I was working of an ...