Group Normalization

2018年03月26日 18:40:43

阅读数：1351

FAIR 团队，吴育昕和恺明大大的新作Group Normalization。

主要的优势在于，BN会受到batchsize大小的影响。如果batchsize太小，算出的均值和方差就会不准确，如果太大，显存又可能不够用。

而GN算的是channel方向每个group的均值和方差，和batchsize没关系，自然就不受batchsize大小的约束。

从上图可以看出，随着batchsize的减小，GN的表现基本不受影响，而BN的性能却越来越差。

BatchNorm基础：

其中u为均值，seigema为方差，实际训练中使用指数滑动平均EMA计算。

gamma为scale值，beta为shift值

BatchNorm：batch方向做归一化，算N*H*W的均值

LayerNorm：channel方向做归一化，算C*H*W的均值

InstanceNorm：一个channel内做归一化，算H*W的均值

GroupNorm：将channel方向分group，然后每个group内做归一化，算(C//G)*H*W的均值

Tensorflow代码：

def GroupNorm(x,G=16,eps=1e-5):
N,H,W,C=x.shape
x=tf.reshape(x,[tf.cast(N,tf.int32),tf.cast(H,tf.int32),tf.cast(W,tf.int32),tf.cast(G,tf.int32),tf.cast(C//G,tf.int32)])
mean,var=tf.nn.moments(x,[1,2,4],keep_dims=True)
x=(x-mean)/tf.sqrt(var+eps)
x=tf.reshape(x,[tf.cast(N,tf.int32),tf.cast(H,tf.int32),tf.cast(W,tf.int32),tf.cast(C,tf.int32)])
gamma = tf.Variable(tf.ones(shape=[1,1,1,tf.cast(C,tf.int32)]), name="gamma")
beta = tf.Variable(tf.zeros(shape=[1,1,1,tf.cast(C,tf.int32)]), name="beta")
return x*gamma+beta

References:

https://www.zhihu.com/question/269576836/answer/348670955

https://github.com/taokong/group_normalization

https://github.com/shaohua0116/Group-Normalization-Tensorflow

Group Normalization的更多相关文章

Group Normalization笔记
作者:Yuxin,Wu Kaiming He 机构:Facebook AI Research (FAIR) 摘要:BN是深度学习发展中的一个里程碑技术,它使得各种网络得以训练.然而,在batch维度上 ...
Batch Normalization、Layer Normalization、Instance Normalization、Group Normalization、Switchable Normalization比较
深度神经网络难训练一个重要的原因就是深度神经网络涉及很多层的叠加,每一层的参数变化都会导致下一层输入数据分布的变化,随着层数的增加,高层输入数据分布变化会非常剧烈,这就使得高层需要不断适应低层的参数更 ...
全面解读Group Normalization，对比BN，LN，IN
前言 Face book AI research(FAIR)吴育昕-何恺明联合推出重磅新作Group Normalization(GN),提出使用Group Normalization 替代深度学习里 ...
（转载）深度剖析 | 可微分学习的自适配归一化 (Switchable Normalization)
深度剖析 | 可微分学习的自适配归一化 (Switchable Normalization) 作者:罗平.任家敏.彭章琳编写:吴凌云.张瑞茂.邵文琪.王新江转自:知乎.原论文参考arXiv:180 ...
扫盲记-第六篇--Normalization
深度学习模型中的Normalization 数据经过归一化和标准化后可以加快梯度下降的求解速度,这就是Batch Normalization等技术非常流行的原因,Batch Normalization ...
『计算机视觉』各种Normalization层辨析
『教程』Batch Normalization 层介绍知乎:详解深度学习中的Normalization,BN/LN/WN 一.两个概念独立同分布(independent and identical ...
深度学习中的Normalization模型
Batch Normalization(简称 BN)自从提出之后,因为效果特别好,很快被作为深度学习的标准工具应用在了各种场合.BN 大法虽然好,但是也存在一些局限和问题,诸如当 BatchSize ...
bn两个参数的计算以及layer norm、instance norm、group norm
bn一般就在conv之后并且后面再接relu 1.如果输入feature map channel是6,bn的gamma beta个数是多少个? 6个. 2.bn的缺点: BN会受到batchsize大 ...
[优化]深度学习中的 Normalization 模型
来源:https://www.chainnews.com/articles/504060702149.htm 机器之心专栏作者:张俊林 Batch Normalization (简称 BN)自从提出 ...

随机推荐

Vue2.0 v-for 中 :key 的作用
python实现tail -f功能
这篇文章最初是因为reboot的群里,有人去面试,笔试题有这个题,不知道怎么做,什么思路,就发群里大家讨论我想了一下,简单说一下我的想法吧,当然,也有很好用的pyinotify模块专门监听文件变化, ...
Vue右键菜单
rightShow(item) { this.isPersoncontextMenus = true; let menu = document.getElementById("msgRigh ...
关于事件冒泡和键盘事件以及与Angular的区别
一.事件冒泡方法一.使用event.cancelBubble = true来组织冒泡 <div @click="show2()"> <input type=&q ...
JAVA-JSP内置对象之request获得封装所有参数值的Map
相关资料:<21天学通Java Web开发> 获得封装所有参数值的Map1.通过request对象的getParameterMap()方法来获得封装所有的参数值的Map对象.2.通过该Ma ...
C#学习笔记（29）——Linq的实现，Lambda求偶数和水仙花数
说明(2017-11-22 18:15:48): 1. Lambda表达式里面用了匿名委托,感觉理解起来还是挺难的.求偶数的例子模拟了Linq查询里的一个where方法. 2. 蒋坤说求水仙花数那个例 ...
Struts标签判断当前用户是否存在
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...
linux下mysql重置密码并且远程可以访问
.重置mysql密码: 杀死所有的yum myql进程: pkill mysql; 查看端口 netstat 端口号杀死) 修改my.cnf文件,在[mysqld]下加入skip-grant-tabl ...
Bootstrap+Angularjs自制弹框
指令 directive('bsPopup', function ($parse) { return { require: 'ngModel', restrict: 'A', link: functi ...
PostgreSql 函数
DECLARE curParkingTime TIMESTAMP ; curLeavingTime TIMESTAMP; parkingSpaceIndexCode VARCHAR[]; days I ...

Group Normalization

Group Normalization

Group Normalization的更多相关文章

随机推荐

热门专题