在tensorflow中使用batch normalization

问题

训练神经网络是一个很复杂的过程，在前面提到了深度学习中常用的激活函数，例如ELU或者Relu的变体能够在开始训练的时候很大程度上减少梯度消失或者爆炸问题，但是却不能保证在训练过程中不出现该问题，例如在训练过程中每一层输入数据分布发生了改变了，那么我们就需要使用更小的learning rate去训练，这一现象被称为internal covariate shift，Batch Normalization能够很好的解决这一问题。目前该算法已经被广泛应用在深度学习模型中，该算法的强大至于在于：

可以选择一个较大的学习率，能够达到快速收敛的效果。
能够起到Regularizer的效果，在一些情况下可以不使用Dropout，因为BN提高了模型的泛化能力

介绍

我们在将数据输入到神经网络中往往需要对数据进行归一化，原因在于模型的目的就是为了学习模型的数据的分布，如果训练集的数据分布和测试集的不一样那么模型的泛化能力就会很差，另一方面如果模型的每一 batch的数据分布都不一样，那么模型就需要去学习不同的分布，这样模型的训练速度会大大降低。
BN是一个独立的步骤，被应用在激活函数之前，它简单地对输入进行零中心(zero-center)和归一化(normalize)，然后使用两个新参数来缩放和移动结果（一个用于缩放，另一个用于缩放转移）。换句话说，BN让模型学习最佳的尺度和每层的输入的平均值。
为了零中心和归一化数据的分布，BN需要去估算输入的mean和standard deviation。

应用

tensorflow中有不同级别的封装层，我一般使用的tf.layers。这次用的是tf.layers.batch_normalization.

def myConv(x_in, nf, strides=1, is_training=True, name = 'conv3d'):

    with tf.variable_scope(name):

        # x_out = Conv3D(nf, kernel_size=3, padding='same',

        #        kernel_initializer='he_normal', strides=strides)(x_in)

        x_out = tf.layers.conv3d(inputs=x_in,

                                 filters=nf,

                                 kernel_size=(3, 3, 3),

                                 strides=strides,

                                 padding='same',

                                 kernel_initializer=tf.keras.initializers.he_normal(),

                                 )

        x_out = batch_norm(x_out,is_training)

        x_out = LeakyRelU(x_out, 0.2)

        return x_out

def batch_norm(x, is_train=True):

    with tf.variable_scope("batch_norm"):

        return tf.layers.batch_normalization(x,

                                             epsilon=1e-5,

                                             momentum=0.99,

                                             training=is_train,

                                            )

这是因为在计算BN中需要计算moving_mean和moving_variance并且更新，所以在执行run的时候需要将其添加到执行列表中。需要下面这段代码这样才能计算μ和σ的滑动平均（测试时会用到），测试时traing设为False。

extra_update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)

        with tf.control_dependencies(extra_update_ops):

            self.g_A_trainer = optimizer.minimize(g_loss_A, var_list=g_A_vars)

在网上看到了很多这个问题的讨论，也有人自己写了一个BN层，最终还是去阅读了源码和官方教程这样写的。

在tensorflow中使用batch normalization的更多相关文章

使用TensorFlow中的Batch Normalization
问题训练神经网络是一个很复杂的过程,在前面提到了深度学习中常用的激活函数,例如ELU或者Relu的变体能够在开始训练的时候很大程度上减少梯度消失或者爆炸问题.但是却不能保证在训练过程中不出现该问题, ...
tensorflow中使用Batch Normalization
在深度学习中为了提高训练速度,经常会使用一些正正则化方法,如L2.dropout,后来Sergey Ioffe 等人提出Batch Normalization方法,可以防止数据分布的变化,影响神经网络 ...
Pytorch中的Batch Normalization操作
之前一直和小伙伴探讨batch normalization层的实现机理,作用在这里不谈,知乎上有一篇paper在讲这个,链接这里只探究其具体运算过程,我们假设在网络中间经过某些卷积操作之后的输出的f ...
PyTorch中的Batch Normalization
Pytorch中的BatchNorm的API主要有: 1 torch.nn.BatchNorm1d(num_features, 2 3 eps=1e-05, 4 5 momentum=0.1, 6 7 ...
神经网络中使用Batch Normalization 解决梯度问题
BN本质上解决的是反向传播过程中的梯度问题. 详细点说,反向传播时经过该层的梯度是要乘以该层的参数的,即前向有: 那么反向传播时便有: 那么考虑从l层传到k层的情况,有: 上面这个便是问题所在.因为 ...
tensorflow中batch normalization的用法
网上找了下tensorflow中使用batch normalization的博客,发现写的都不是很好,在此总结下: 1.原理公式如下: y=γ(x-μ)/σ+β 其中x是输入,y是输出,μ是均值,σ ...
Batch Normalization原理及其TensorFlow实现——为了减少深度神经网络中的internal covariate shift，论文中提出了Batch Normalization算法，首先是对”每一层“的输入做一个Batch Normalization 变换
批标准化(Bactch Normalization,BN)是为了克服神经网络加深导致难以训练而诞生的,随着神经网络深度加深,训练起来就会越来越困难,收敛速度回很慢,常常会导致梯度弥散问题(Vanish ...
tensorflow 的 Batch Normalization 实现（tf.nn.moments、tf.nn.batch_normalization）
tensorflow 在实现 Batch Normalization(各个网络层输出的归一化)时,主要用到以下两个 api: tf.nn.moments(x, axes, name=None, kee ...
BN(Batch Normalization)
Batch Nornalization Question? 1.是什么? 2.有什么用? 3.怎么用? paper:<Batch Normalization: Accelerating Deep ...

随机推荐

python两段多线程的例子
记录瞬间 =====================其一===================== # coding:UTF-8 import os import threading from tim ...
已有的PHP安装gd扩展
第一步安装依赖 1.安装xpm yum install libXpm-devel 2.安装zlib wget http://zlib.net/zlib-1.2.8.tar.gz tar -xzvf ...
ASP.NET页面之间传值的方式之Server.Transfer（个人整理）
Server.Transfer 这个方法相比以前介绍的方法稍微复杂一点,但在页面间值传递中却是特别有用的,使用该方法你可以在另一个页面以对象属性的方式来存取显露的值,当然了,使用这种方法,你需要额外写 ...
redis 列表(list)函数
列表(list)函数 lPush 命令/方法/函数 Description Adds the string value to the head (left) of the list. Creates ...
zw字王《中华大字库》2018版升级项目正式启动
zw字王<中华大字库>2018版升级项目正式启动 https://www.cnblogs.com/ziwang/p/9500537.html 这次升级是和字库协会一起合作,首批推出的字体, ...
oracle 11g 安装步骤
指定安装路径输入数据库名(cwbpm),(按照自己要求输入,可以直接用默认库名) 输入密码(自定义):123456 (自定义密码) 下一步选择“是” 点击完成,开始安装数据库安装完成后会弹出页面 ...
Unity 让物体朝摄像机观察方向移动，已摇杆方向转向
using System.Collections;using System.Collections.Generic;using UnityEngine; [RequireComponent(typeo ...
ok6410 nandflash 启动uboot 超过256k怎么办
1＼在调试ok6410 nandflash启动uboot时,需要添加调试信息,导致uboot大于256k 2\需要修改下面几个地方参考资料在uboot中可以添加文字菜单,但是不够美观. 利用pho ...
Prometheus监控学习笔记之Prometheus的Relabel，SD以及Federation功能
0x00 k8s 的监控设计 k8s 默认以及推荐的监控体系是它自己的一套东西:Heapster + cAdvisor + Influxdb + Grafana,具体可以看这里 . 包括 k8s 自 ...
Powershell获取硬件信息
1.获取系统的BIOS的信息: Get-WMIObject -Class Win32_BIOS 2.获取内存信息: Get-WMIObject -Class Win32_PhysicalMemory ...

在tensorflow中使用batch normalization

问题

介绍

应用

在tensorflow中使用batch normalization的更多相关文章

随机推荐

热门专题