关于归一化的讲解的博客——【深度学习】Batch Normalization(批归一化)

tensorflow实现代码在这个博客——【超分辨率】TensorFlow中批归一化的实现——tf.layers.batch_normalization()函数

tf.nn.batch_normalization()函数用于执行批归一化。

# 用于最中执行batch normalization的函数
tf.nn.batch_normalization(
    x,
    mean,
    variance,
    offset,
    scale,
    variance_epsilon,
    name=None
)
1
2
3
4
5
6
7
8
9
10
参数:

x是input输入样本

mean是样本均值

variance是样本方差

offset是样本偏移(相加一个转化值)

scale是缩放(默认为1)

variance_epsilon是为了避免分母为0,添加的一个极小值

输出的计算公式为:
y=scale∗(x−mean)/var+offset y = scale * (x - mean) / var + offset
y=scale∗(x−mean)/var+offset

这里安利一个简单讲述batch normalization的文章,还有相应的代码,通俗易懂。

tensorflow-BatchNormalization(tf.nn.moments及tf.nn.batch_normalization)
————————————————
原文链接:https://blog.csdn.net/TeFuirnever/article/details/88911995

批标准化

批标准化(batch normalization,BN)一般用在激活函数之前,使结果x=Wx+bx=Wx+b 各个维度均值为0,方差为1。通过规范化让激活函数分布在线性区间,让每一层的输入有一个稳定的分布会有利于网络的训练。
优点:
加大探索步长,加快收敛速度。
更容易跳出局部极小。
破坏原来的数据分布,一定程度上防止过拟合。
解决收敛速度慢和梯度爆炸。
tensorflow相应API

mean, variance = tf.nn.moments(x, axes, name=None, keep_dims=False)
计算统计矩,mean 是一阶矩即均值,variance 则是二阶中心矩即方差,axes=[0]表示按列计算;
tf.nn.batch_normalization(x, mean, variance, offset, scale, variance_epsilon, name=None)
tf.nn.batch_norm_with_global_normalization(x, mean, variance, beta, gamma, variance_epsilon, scale_after_normalization, name=None);
tf.nn.moments 计算返回的 mean 和 variance 作为 tf.nn.batch_normalization 参数调用;
tensorflow及python实现

import tensorflow as tf
W = tf.constant([[-2.,12.,6.],[3.,2.,8.]], )
mean,var = tf.nn.moments(W, axes = [0])
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
resultMean = sess.run(mean)
print(resultMean)
resultVar = sess.run(var)
print(resultVar)
[ 0.5  7.   7. ]
[ 6.25 25. 1. ]

计算每个列的均值及方差。

size = 3
scale = tf.Variable(tf.ones([size]))
shift = tf.Variable(tf.zeros([size]))
epsilon = 0.001
W = tf.nn.batch_normalization(W, mean, var, shift, scale, epsilon)
#参考下图BN的公式,相当于进行如下计算
#W = (W - mean) / tf.sqrt(var + 0.001)
#W = W * scale + shift

with tf.Session() as sess:
#必须要加这句不然执行多次sess会报错
sess.run(tf.global_variables_initializer())
resultW = sess.run(W)
print(resultW)
#观察初始W第二列 12>2 返回BN的W值第二列第二行是负的,其余两列相反
[[-0.99992001  0.99997997 -0.99950027]
[ 0.99991995 -0.99997997 0.99950027]]

Bug
Attempting to use uninitialized value Variable_8:

#运行sess.run之前必须要加这句不然执行多次sess会报错
sess.run(tf.global_variables_initializer())

参考
深度学习Deep Learning(05):Batch Normalization(BN)批标准化
谈谈Tensorflow的Batch Normalization
tensorflow 的 Batch Normalization 实现(tf.nn.moments、tf.nn.batch_normalization)
————————————————
原文链接:https://blog.csdn.net/eclipsesy/article/details/77597965

tensorflow 在实现 Batch Normalization(各个网络层输出的归一化)时,主要用到以下两个 api:

tf.nn.moments(x, axes, name=None, keep_dims=False) ⇒ mean, variance:
统计矩,mean 是一阶矩,variance 则是二阶中心矩
tf.nn.batch_normalization(x, mean, variance, offset, scale, variance_epsilon, name=None)
https://www.tensorflow.org/api_docs/python/tf/nn/batch_normalization
γ⋅x−μσ+β \gamma\cdot\frac{x-\mu}{\sigma}+\beta

γ 表示 scale 缩放因子,β \betaβ 表示偏移量;
tf.nn.batch_norm_with_global_normalization(t, m, v, beta, gamma, variance_epsilon, scale_after_normalization, name=None)
由函数接口可知,tf.nn.moments 计算返回的 mean 和 variance 作为 tf.nn.batch_normalization 参数进一步调用;
1. tf.nn.moments,矩
tf.nn.moments 返回的 mean 表示一阶矩,variance 则是二阶中心矩;
如我们需计算的 tensor 的 shape 为一个四元组 [batch_size, height, width, kernels],一个示例程序如下:

import tensorflow as tf
shape = [128, 32, 32, 64]
a = tf.Variable(tf.random_normal(shape)) # a:activations
axis = list(range(len(shape)-1)) # len(x.get_shape())
a_mean, a_var = tf.nn.moments(a, axis)

这里我们仅给出 a_mean, a_var 的维度信息,

sess = tf.Session()
sess.run(tf.global_variables_initalizer()) sess.run(a_mean).shape # (64, )
sess.run(a_var).shape # (64, ) ⇒ 也即是以 kernels 为单位,batch 中的全部样本的均值与方差

2. demo

def batch_norm(x):
epsilon = 1e-3
batch_mean, batch_var = tf.nn.moments(x, [0])
return tf.nn.batch_normalization(x, batch_mean, batch_var,
offset=None, scale=None,
variance_epsilon=epsilon)

references

<a href=“http://www.jianshu.com/p/0312e04e4e83”, target="_blank">谈谈Tensorflow的Batch Normalization
————————————————
原文链接:https://blog.csdn.net/lanchunhui/article/details/70792458

deep_learning_Function_bath_normalization()的更多相关文章

随机推荐

  1. wpf prism IRegionManager 和IRegionViewRegistry

    引入了一个新的问题,IRegionViewRegistry和IRegionManager都具有RegisterViewWithRegion方法,二者有区别么? 答案是——没有.我们已经分析过,在Uni ...

  2. JavaScript基础之常用事件

    js 基础之常用事件 在js当中,事件是较为常用的内容,本篇文章来说一些常用的事件. 鼠标事件 下面是常用的鼠标事件: click 当用户按下并释放鼠标按键或其他方式"激活"元素时 ...

  3. C# Job System概述

    C# 作业系统是如何工作 允许用户编写与Unity其余部分良好交互的多线程代码,并使编写正确的代码变得更加容易. 编写多线程代码可以提供高性能的好处,其中包括帧速率的显著提高.以及将Burst编译器与 ...

  4. 121. 买卖股票的最佳时机( Best Time to Buy and Sell Stock)

    题目地址:https://leetcode-cn.com/problems/best-time-to-buy-and-sell-stock/ 解题思路一:暴力求解法 根据题目我们可以知道,我们知道最大 ...

  5. ASP.NET Session详解(转)

    ASP.NET Session详解 本文章来自:http://blog.163.com/adam601@126/blog/static/22506317200932824210996/ 当用户在 We ...

  6. C++学习笔记-C++对C语言的函数拓展

    内联函数 内联函数是指用inline关键字修饰的函数.在类内定义的函数被默认成内联函数.内联函数从源代码层看,有函数的结构,而在编译后,却不具备函数的性质 inline关键字只是给编译器一个建议,编译 ...

  7. 搭建elk集群 disabled in libcurl elasticsearch-6.2.2 更新license 版本

    0.logstash的部分配置 output { stdout {codec => rubydebug} elasticsearch { hosts => ["172.31.25 ...

  8. 论文阅读 | Towards a Robust Deep Neural Network in Text Domain A Survey

    摘要 这篇文章主要总结文本中的对抗样本,包括器中的攻击方法和防御方法,比较它们的优缺点. 最后给出这个领域的挑战和发展方向. 1 介绍 对抗样本有两个核心:一是扰动足够小:二是可以成功欺骗网络. 所有 ...

  9. [转帖]看完这篇文章,我奶奶都懂了https的原理

    看完这篇文章,我奶奶都懂了https的原理 http://www.17coding.info/article/22 非对称算法 以及 CA证书 公钥 核心是 大的质数不一分解 还有 就是 椭圆曲线算法 ...

  10. spring请求多方式

    <!-- 使表单可以使用GET,.POST. HEAD.OPTIONS.PUT.DELETE.TRACE方式提交--> <filter> <filter-name> ...