深度学习(八) Batch Normalization

tensorflow中具有一个这样的方法,可以让我们归一化数据
# value表示输入的value,mean表示value的均值,variance表示方差,这两个参数用来计算value的normalization,eps:分母附加值,防止除以方差时出现除0操作,默认为1e-5
# beta,gamma会在训练时进行学习
tf.nn.batch_normalization(value, mean, variance, beta, gamma, 1e-5)
我们在训练的时候,方差和均值,需要记录一个影子变量,这个影子变量用来当输入测试集的时候,只有单一的数据,没有均值和方差(在训练的时候,是一个batch的输入,具有均值和方差),利用影子变量来记算均值和方差。影子变量可以参考这篇博客。
具体代码数据归一层的代码如下:
"""
参考 https://www.cnblogs.com/cloud-ken/p/7521609.html
加入这个衰减率的原因是为了预测下一次的方差和均值,因为当输入测试集的时候,我们要给他均值和方差,只有一个数据,没有均值和方差,在输入训练集的时候是一个batch的输入,具有均值和方差
所以使用影子变量来记录均值和方差,
所以这里分训练和不训练,为了让归一化更好,与其说是让归一化更好,实际上时,为了让输入的数据的均值和方差,更加趋向我们的测试数据分布,使其测试率更加准确。
shadow_variable = decay * shadow_variable + (1 - decay) * updated_model_variable
"""
# 数据归一化 为了提高学习率,使得数据的均值为0,方差为1,最后加入beta和gamma来还原数据分布
def batch_norm(value, is_train=True, name='batch_norm',
epsilon=1e-5, momentum=0.9):
with tf.variable_scope(name): # tf.train.ExponentialMovingAverage用于更新参数,参数越大,模型越稳定
ema = tf.train.ExponentialMovingAverage(decay=momentum) # value.get_shape().as_list()[-1] 获取value最后一维的大小
shape = value.get_shape().as_list()[-1]
#print(value,shape) # 这里加入beta和gamma的意思就是让经过归一化的数据趋近于输入时候的分布,公式中的那两个参数,这两个参数为利用梯度下降进行学习
beta = bias('beta', [shape], bias_start=0.0)
gamma = bias('gamma', [shape], bias_start=1.0) if is_train:
# 求均值和方差
batch_mean, batch_variance = tf.nn.moments(value, [0, 1, 2], name='moments')
# 定义影子变量的名字,方便以后进行调用
moving_mean = bias('moving_mean', [shape], 0.0, False)
moving_variance = bias('moving_variance', [shape], 1.0, False) # 进行衰减,不使用原来的变量,衰减均值和方差
with tf.variable_scope(tf.get_variable_scope(), reuse=False):
# 进行计算影子变量
ema_apply_op = ema.apply([batch_mean, batch_variance]) # ema.average获取影子变量(也叫滑动平均值),把移动的平均分配给moving_mean bias值,相当于平均移动多少 assign为重新赋值的操作
assign_mean = moving_mean.assign(ema.average(batch_mean))
assign_variance = moving_variance.assign(ema.average(batch_variance)) """
tf.control_dependencies指定某些操作执行的依赖关系,control_dependencies(control_input)返回一个控制依赖的上下文管理器,
使用with关键字可以让在这个上下文环境中的操作都在ema_apply_op执行,control_input必须是一个list,使用[]是将ema_apply_op
转换为一个list
"""
# 这里也可以不在计算影子变量后执行
with tf.control_dependencies([ema_apply_op]):
# 这里加tf.identity的作用的是加入一个op,如果不加一个op的话,这里这个控制依赖就无法执行,因为tf.control_dependencies定义的是op的执行顺序
mean, variance = tf.identity(batch_mean), tf.identity(batch_variance) """
这里为什么要在这后面执行,因为这里要记录影子变量,为什么能记录,因为在一个variable_scope下面,到时候调用这个variable_scope的名字,可以直接调用这个变量
然后才返回数据归一化后的结果
"""
with tf.control_dependencies([assign_mean, assign_variance]):
# value表示输入的value,mean表示value的均值,variance表示方差,这两个参数用来计算value的normalization,eps:分母附加值,防止除以方差时出现除0操作,默认为1e-5
# beta,gamma会在训练时进行学习
return tf.nn.batch_normalization(value, mean, variance, beta, gamma, 1e-5) else:
mean = bias('moving_mean', [shape], 0.0, False)
variance = bias('moving_variance', [shape], 1.0, False) return tf.nn.batch_normalization(
value, mean, variance, beta, gamma, epsilon)
深度学习(八) Batch Normalization的更多相关文章
- 深度学习中 Batch Normalization
深度学习中 Batch Normalization为什么效果好?(知乎) https://www.zhihu.com/question/38102762
- 深度学习之Batch Normalization
在机器学习领域中,有一个重要的假设:独立同分布假设,也就是假设训练数据和测试数据是满足相同分布的,否则在训练集上学习到的模型在测试集上的表现会比较差.而在深层神经网络的训练中,当中间神经层的前一层参数 ...
- 深度学习中 Batch Normalization为什么效果好
看mnist数据集上其他人的CNN模型时了解到了Batch Normalization 这种操作.效果还不错,至少对于训练速度提升了很多. batch normalization的做法是把数据转换为0 ...
- 深度学习中batch normalization
目录 1 Batch Normalization笔记 1.1 引包 1.2 构建模型: 1.3 构建训练函数 1.4 结论 Batch Normalization笔记 我们将会用MNIST数 ...
- zz详解深度学习中的Normalization,BN/LN/WN
详解深度学习中的Normalization,BN/LN/WN 讲得是相当之透彻清晰了 深度神经网络模型训练之难众所周知,其中一个重要的现象就是 Internal Covariate Shift. Ba ...
- 深度学习中的Normalization模型
Batch Normalization(简称 BN)自从提出之后,因为效果特别好,很快被作为深度学习的标准工具应用在了各种场合.BN 大法虽然好,但是也存在一些局限和问题,诸如当 BatchSize ...
- [优化]深度学习中的 Normalization 模型
来源:https://www.chainnews.com/articles/504060702149.htm 机器之心专栏 作者:张俊林 Batch Normalization (简称 BN)自从提出 ...
- 深度学习之Batch归一化
前言 以下内容是个人学习之后的感悟,转载请注明出处~ Batch归一化 在神经网络中,我们常常会遇到梯度消失的情况,比如下图中的sigmod激活函数,当离零点很远时,梯度基本为0 ...
- 关于深度学习之中Batch Size的一点理解(待更新)
batch 概念:训练时候一批一批的进行正向推导和反向传播.一批计算一次loss mini batch:不去计算这个batch下所有的iter,仅计算一部分iter的loss平均值代替所有的. 以下来 ...
- 算法工程师<深度学习基础>
<深度学习基础> 卷积神经网络,循环神经网络,LSTM与GRU,梯度消失与梯度爆炸,激活函数,防止过拟合的方法,dropout,batch normalization,各类经典的网络结构, ...
随机推荐
- 深海划水队项目---七天冲刺day2
上完选修后的站立式会议: 工作进度 昨天已完成的工作: 这周任务分配,每日任务要求. 今天计划完成的工作: 推进开发进度,进一步理清开发思路. 工作中遇到的困难: 站立式会议好难统一时间啊. 燃尽图 ...
- Web 应用简单测试方案
测试:一定要分阶段测试,先确定入队列成功,再测试队列的执行是否成功. 功能点: 1. 翻页2. 加精3. 置顶4. 帖子浏览量(PV)5. 发帖6. 回复7. 评论 8. crontab 脚本 @20 ...
- 算法 - 最小m段和问题
题目分析 给定n个整数组成的序列,要求将序列分割为m段,每段子序列中的数在原序列中连续排列,求使得子段和的最大值达到最小的分割方法 解题方法 状态转移方程 State[i][j]表示前i个数据分成j段 ...
- linux下切换用户出现This account is currently not available
今天在一台新服务器下切换用户的时候出现“This account is currently not available”错误上网检索了一 下发现是用户的shell禁止登录的问题 解决办法:比如我是 s ...
- Npoi将excel数据导入到sqlserver数据库
/// <summary> /// 将excel导入到datatable /// </summary> /// <param name="filePath&qu ...
- Windows10 下 github ssh 访问出现 Permission denied(publickey)错误的解决方法
Windows10 下 github ssh 访问出现 Permission denied(publickey)错误的解决方法. 错误信息: git clone git@github.com:ediw ...
- C#中的类
C#编程语言,从本质上讲是一组类型声明.所以,本人认为第一个要区分的点是:类型!=类. 当然,如果想要系统的学习C#还是应该先了解一下.Net框架,本文目的只是从相对宏观的角度讲清楚C#中的类.关于类 ...
- cesium随笔 — 简单实现获取三维范围(包括相机高度)
代码 // 获取当前三维范围 function getCurrentExtent() { // 范围对象 var extent = {}; // 得到当前三维场景 var scene = viewer ...
- vim编辑后权限不够保存问题解决方案
常常忘记了sudo就直接用vim编辑/etc内的文件,等编辑好了,保存时候才发现没权限. 1.曲线救国:先保存个临时文件,退出后再sudo cp回去 2.可以直接用 :w !sudo tee % 查阅 ...
- 瞄一眼,带你走进SparkSQL的世界
本文由 网易云发布. 作者:范欣欣(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权.) 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合.互相借鉴的.传统型数据库强势在于其久经考验 ...