Tensorflow BN具体实现（多种方式）：

理论知识（参照大佬）：https://blog.csdn.net/hjimce/article/details/50866313

补充知识：

① tf.nn.moments 这个函数的输出就是BN需要的mean和variance。

方式1：

tf.nn.batch_normalization（`x, mean, variance, offset, scale, variance_epsilon, name=None`）：原始接口封装使用

x
·mean moments方法的输出之一
·variance moments方法的输出之一
·offset BN需要学习的参数
·scale BN需要学习的参数
·variance_epsilon 归一化时防止分母为0加的一个常量

实现代码：

 import tensorflow as tf

 # 实现Batch Normalization

 def bn_layer(x,is_training,name='BatchNorm',moving_decay=0.9,eps=1e-5):

     # 获取输入维度并判断是否匹配卷积层(4)或者全连接层(2)

     shape = x.shape

     assert len(shape) in [2,4]

     param_shape = shape[-1]

     with tf.variable_scope(name):

         # 声明BN中唯一需要学习的两个参数，y=gamma*x+beta

         gamma = tf.get_variable('gamma',param_shape,initializer=tf.constant_initializer(1))

         beta  = tf.get_variable('beat', param_shape,initializer=tf.constant_initializer(0))

         # 计算当前整个batch的均值与方差

         axes = list(range(len(shape)-1))

         batch_mean, batch_var = tf.nn.moments(x,axes,name='moments')

         # 采用滑动平均更新均值与方差

         ema = tf.train.ExponentialMovingAverage(moving_decay)

         def mean_var_with_update():

             ema_apply_op = ema.apply([batch_mean,batch_var])

             with tf.control_dependencies([ema_apply_op]):

                 return tf.identity(batch_mean), tf.identity(batch_var)

         # 训练时，更新均值与方差，测试时使用之前最后一次保存的均值与方差

         mean, var = tf.cond(tf.equal(is_training,True),mean_var_with_update,

                 lambda:(ema.average(batch_mean),ema.average(batch_var)))

         # 最后执行batch normalization

         return tf.nn.batch_normalization(x,mean,var,beta,gamma,eps)

方式2：

tf.contrib.layers.batch_norm：封装好的批处理类

实际上tf.contrib.layers.batch_norm对于tf.nn.moments和tf.nn.batch_normalization进行了一次封装

参数：

1 inputs：输入

2 decay ：衰减系数。合适的衰减系数值接近1.0,特别是含多个9的值：0.999,0.99,0.9。如果训练集表现很好而验证/测试集表现得不好，选择

小的系数（推荐使用0.9）。如果想要提高稳定性，zero_debias_moving_mean设为True

3 center：如果为True，有beta偏移量；如果为False，无beta偏移量

4 scale：如果为True，则乘以gamma。如果为False，gamma则不使用。当下一层是线性的时（例如nn.relu），由于缩放可以由下一层完成，

所以可以禁用该层。

5 epsilon：避免被零除

6 activation_fn：用于激活，默认为线性激活函数

7 param_initializers ： beta, gamma, moving mean and moving variance的优化初始化

8 param_regularizers ： beta and gamma正则化优化

9 updates_collections ：Collections来收集计算的更新操作。updates_ops需要使用train_op来执行。如果为None，则会添加控件依赖项以

确保更新已计算到位。

10 is_training:图层是否处于训练模式。在训练模式下，它将积累转入的统计量moving_mean并 moving_variance使用给定的指数移动平均值 decay。当它不是在训练模式，那么它将使用的数值moving_mean和moving_variance。
11 scope：可选范围variable_scope 注意：训练时，需要更新moving_mean和moving_variance。默认情况下，更新操作被放入tf.GraphKeys.UPDATE_OPS，所以需要添加它们作为依赖项train_op。例如：

update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS) with tf.control_dependencies(update_ops): train_op = optimizer.minimize(loss)

可以将updates_collections = None设置为强制更新，但可能会导致速度损失，尤其是在分布式设置中。

实现代码：

 import tensorflow as tf

 def batch_norm(x,epsilon=1e-5, momentum=0.9,train=True, name="batch_norm"):

     with tf.variable_scope(name):

         epsilon = epsilon

         momentum = momentum

         name = name

     return tf.contrib.layers.batch_norm(x, decay=momentum, updates_collections=None, epsilon=epsilon,

                                         scale=True, is_training=train,scope=name)

BN一般放哪一层？

BN层的设定一般是按照conv->bn->scale->relu的顺序来形成一个block

训练和测试时 BN的区别？？？

bn层训练的时候，基于当前batch的mean和std调整分布；当测试的时候，也就是测试的时候，基于全部训练样本的mean和std调整分布

所以，训练的时候需要让BN层工作，并且保存BN层学习到的参数。测试的时候加载训练得到的参数来重构测试集。

BN 详解和使用Tensorflow实现（参数理解）的更多相关文章

Java虚拟机详解（五）------JVM参数（持续更新）
JVM参数有很多,其实我们直接使用默认的JVM参数,不去修改都可以满足大多数情况.但是如果你想在有限的硬件资源下,部署的系统达到最大的运行效率,那么进行相关的JVM参数设置是必不可少的.下面我们就来对 ...
一文详解如何用 TensorFlow 实现基于 LSTM 的文本分类（附源码）
雷锋网按:本文作者陆池,原文载于作者个人博客,雷锋网已获授权. 引言学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实例,这个星期就用 ...
Java虚拟机详解03----常用JVM配置参数
[声明] 欢迎转载,但请保留文章原始出处→_→ 生命壹号:http://www.cnblogs.com/smyhvae/ 文章来源:http://www.cnblogs.com/smyhvae/p/4 ...
Apache:详解QSA,PT,L,E参数的作用
[QSA] 当被替换的URI包含有query string的时候,apache的默认行为是,丢弃原有的query string 并直接使用新产生的query string,如果加上了[QSA]选项,那 ...
C#调用存储过程详解(带返回值、参数输入输出等)
CREATE PROCEDURE [dbo].[GetNameById] @studentid varchar(8), @studentname nvarchar(50) OUTPUT AS BEGI ...
object detection api调参详解（兼SSD算法参数详解）
一.引言使用谷歌提供的object detection api图像识别框架,我们可以很方便地重新训练一个预训练模型,用于自己的具体业务.以我所使用的ssd_mobilenet_v1预训练模型为例,训 ...
Python趣味入门9：函数是你走过的套路，详解函数、调用、参数及返回值
1.概念琼恩·雪诺当上守夜人的司令后,为训练士兵对付僵尸兵团,把成功斩杀僵尸的一系列动作编排成了"葵花宝典剑法",这就是函数.相似,在计算机世界,一系列前后连续的计算机语句组合在 ...
Java 虚拟机系列二：垃圾收集机制详解，动图帮你理解
前言上篇文章已经给大家介绍了 JVM 的架构和运行时数据区 (内存区域),本篇文章将给大家介绍 JVM 的重点内容--垃圾收集.众所周知,相比 C / C++ 等语言,Java 可以省去手动管理内存 ...
Eureka（一）术语详解（用具体的事物理解抽象的概念）
最近工作较闲,所以自己研究了下eureka的原理,实现,和集群搭建等.(注:我没实操过eureka集群项目,都是自己做的demo产生的结论,如果有错误欢迎指出) 首先说一下我对eureka的一些术语的 ...

随机推荐

Java中的方法重写
方法的重载: 在同一个类中,出现多个同名的方法,参数列表不同,与返回值类型,修饰符无关方法的重写: 子类中出现和父类中一模一样的方法(包括返回值类型,方法名,参数列表) 方法重写的注意事项: 1.重 ...
C语言数据结构链栈（创建、入栈、出栈、取栈顶元素、遍历链栈中的元素）
/**创建链栈*创建一个top指针代表head指针*采用链式存储结构*采用头插法创建链表*操作创建出栈入栈取栈顶元素*创建数据域的结构体*创建数据域的名称指针*使用随机函数对数据域的编号进行赋 ...
javascript中 (function(){})();如何理解?
javascript中 (function(){})();如何理解? javascript中: (function(){})()是匿名函数,主要利用函数内的变量作用域,避免产生全局变量,影响整体页面环 ...
1. Python中的基本数据类型、运算、变量
本文利用的是Python 3.x版本,建议学习3.x版本 Python中的基本数据类型.运算.变量 1. 基本数据类型 1.1 整数 py可以处理任意大小的整数,例如123,1234567891324 ...
hdu 5182 PM2.5
问题描述目前,我们用PM2.5的含量来描述空气质量的好坏.一个城市的PM2.5含量越低,它的空气质量就越好.所以我们经常按照PM2.5的含量从小到大对城市排序.一些时候某个城市的排名可能上升,但是他 ...
Maven pom 配置简介
1. groupId artifactId version 2. dependencies 3. plugins http://shmilyaw-hotmail-com.iteye.com/blog/ ...
Java 学习（7）：java 日期时间 & 正则表达式
目录 --- 日期时间 --- 正则表达式日期时间:java.util 包提供了 Date 类来封装当前的日期和时间. Date 类提供两个构造函数来实例化 Date 对象. 构造函数:用于初始化对 ...
[bzoj2743][HEOI2012]采花_树状数组
采花 bzoj-2743 HEOI-2012 题目大意:给定n朵花,每朵花有一个种类,m次询问:一段区间中至少出现两朵花的种类的个数. 注释:$1\le n,m\le10^6$. 想法:这个题超级像H ...
[bzoj2802][Poi2012]Warehouse Store_贪心_堆
Warehouse Store bzoj-2802 Poi-2012 题目大意:一家商店的连续n天内,每一天会进货$a_i$个,有且只有一个客人回来买$b_i$个,问至多满足多少人. 注释:$1\le ...
优化实例- not use hash to avoid temp space issue
在展开下面的original sql 和 execution plan之前,要知道这个SQL的问题就在于占用大量的TEMP space orignal SQL SELECT roster.IC_N A ...

BN 详解和使用Tensorflow实现（参数理解）