Batch Norm 与 Layer Norm 比较

一.结论

Batch Norm一般用于CV领域，而Layer Norm一般用于NLP领域
Batch Norm需要计算全局平均，而Layer Norm不需要计算全局平均

二.Batch Norm

Batch Norm原理：

BatchNorm把一个batch中同一通道的所有特征（如上图红色区域）视为一个分布（有几个通道就有几个分布），并将其标准化。这意味着:
- 不同图片的的同一通道的相对关系是保留的，即不同图片的同一通达的特征是可以比较的
- 同一图片的不同通道的特征则是失去了可比性

用于CV领域的解释：

有一些可解释性方面的观点认为，feature的每个通道都对应一种特征（如低维特征的颜色，纹理，亮度等，高维特征的人眼，鸟嘴特征等）。BatchNorm后不同图片的同一通道的特征是可比较的，或者说A图片的纹理特征和B图片的纹理特征是可比较的；而同一图片的不同特征则是失去了可比性，或者说A图片的纹理特征和亮度特征不可比较。这其实是很好理解的，视觉的特征是比较客观的，一张图片是否有人跟一张图片是否有狗这两种特征是独立，即同一图片的不同特征是不需要可比性；而人这种特征模式的定义其实是网络通过比较很多有人的图片，没人的图片得出的，因此不同图片的同一特征需要具有可比性。

三.Layer Norm

Layer Norm原理:

如上图LayerNorm把一个样本的所有词义向量（如上图红色部分）视为一个分布（有几个句子就有几个分布），并将其标准化。这意味着:
- 同一句子中词义向量（上图中的V1, V2, …, VL）的相对大小是保留的，或者也可以说LayerNorm不改变词义向量的方向，只改变它的模。
- 不同句子的词义向量则是失去了可比性。
用于NLP领域解释:

考虑两个句子，“教练，我想打篮球！” 和 “老板，我要一打包子。”。通过比较两个句子中 “打” 的词义我们可以发现，词义并非客观存在的，而是由上下文的语义决定的。因此进行标准化时不应该破坏同一句子中不同词义向量的可比性，而LayerNorm是满足这一点的，BatchNorm则是不满足这一点的。且不同句子的词义特征也不应具有可比性，LayerNorm也是能够把不同句子间的可比性消除。
使用方法:

四.关于计算全局平均的区别

batch norm在测试的阶段，有可能一个一个样本进行预测，此时没有batch的概念，所以需要用训练的时候的全局平均
layer norm在训练和测试都不需要计算全局平均

Batch Norm 与 Layer Norm 比较的更多相关文章

Batch Norm、Layer Norm、Weight Norm与SELU
加速网络收敛——BN.LN.WN与selu 自Batch Norm出现之后,Layer Norm和Weight Norm作为Batch Norm的变体相继出现.最近又出来一个很”简单”的激活函数Sel ...
bn两个参数的计算以及layer norm、instance norm、group norm
bn一般就在conv之后并且后面再接relu 1.如果输入feature map channel是6,bn的gamma beta个数是多少个? 6个. 2.bn的缺点: BN会受到batchsize大 ...
Batch Normalization、Layer Normalization、Instance Normalization、Group Normalization、Switchable Normalization比较
深度神经网络难训练一个重要的原因就是深度神经网络涉及很多层的叠加,每一层的参数变化都会导致下一层输入数据分布的变化,随着层数的增加,高层输入数据分布变化会非常剧烈,这就使得高层需要不断适应低层的参数更 ...
Batch Normalization和Layer Normalization
Batch Normalization:对一个mini batch的样本,经过一个nueron(或filter)后生成的feature map中的所有point进行归一化.(纵向归一化) Layer ...
NLP学习(5)----attention/ self-attention/ seq2seq/ transformer
目录: 1. 前提 2. attention (1)为什么使用attention (2)attention的定义以及四种相似度计算方式 (3)attention类型(scaled dot-produc ...
部分NLP工程师面试题总结
面试题 https://www.cnblogs.com/CheeseZH/p/11927577.html 其他大数据相关面试题 https://www.cnblogs.com/CheeseZH/p/ ...
Self-Attention 和 Transformer
1.Self-Attention 之前的RNN输入是难以并行化的,我们下一个输入可能依赖前一个输出,只有知道了前面的输出才能计算后面的输出. 于是提出了 self-attention ,但是这时候 $ ...
Norm比较
目录 Introduction BN LN IN GN SN Conclusion Introduction 输入图像shape记为[N, C, H, W] Batch Norm是在batch上,对N ...
norm函数的作用，matlab
格式:n=norm(A,p)功能:norm函数可计算几种不同类型的返回A中最大一列和,即max(sum(abs(A))) 2 返回A的最大奇异值,和n=norm(A)用法一样 inf 返回A中最大一行 ...

随机推荐

ms08-067漏洞复现
一.环境说明 kali linux 靶机是 XP (xp启动445) 二.nmap扫描主机存在的漏洞 root@kali:~# nmap --script smb-vuln* 192.168.244. ...
NC53681 「土」巨石滚滚
NC53681 「土」巨石滚滚题目题目描述帕秋莉掌握了一种土属性魔法她使用这种魔法建造了一个大型的土球,并让其一路向下去冲撞障碍土球有一个稳定性 $x$ ,如果 $x < 0$ ...
Linux系列之文本操作命令
前言 Linux 有八个常用的文本操作命令:cat.head.tail.nl.grep.sed.more.less.本文介绍它们的区别和简单用法. cat命令显示文本的最基本命令. cat file ...
from Crypto.Cipher import AES报错
python 在 Windows下使用AES时要安装的是pycryptodome 模块 pip install pycryptodome python 在 Linux下使用AES时要安装的是pyc ...
e.printStackTrace() 原理的分析
e.printStackTrace(); 先查看下源码如图片中1所示,使用的是 PrintStreamOrWriter public void printStackTrace() { printSt ...
4-3 Spring MVC框架-02
Spring MVC框架-02 Ⅰ.RESTful基础是一种设计风格和开发方式 1.get和post请求区别: get post 获取请求上传请求请求参数在地址栏URL 请求参数在请求体里面 U ...
Eslint 项目笔记
1.代码下一行不要验证报错代码的上一行打上注释 <--eslint-disable-next-line-->
暑假打工 2 个月，让我明白了 Keepalived 高可用的三种路由方案
暑假打工 2 个月,让我明白了 Keepalived 高可用的三种路由方案这是悟空的第 158 篇原创文章原文链接:首发悟空聊架构官网:www.passjava.cn 你好,我是悟空. 前言 ...
阻塞赋值-非阻塞赋值（LUT,FDC,BUF...）
一.看RTL级综合网络 1.1 FDC FDPE FDRE FDSE均是XILINX FPGA片上资源中四种不同的触发器,具体功能可直接百度 1.2 LUT是实现组合逻辑功能的一张真值表,根据输入值直 ...
javaweb 02: servlet
Servlet对象的生命周期什么是Servlet对象生命周期? Servlet对象什么时候被创建. Servlet对象什么时候被销毁. Servlet对象创建了几个? Servlet对象的生命周期表 ...