tensorflow学习率指数衰减ExponentialDecay的参数介绍与使用方法

本文介绍在tensorflow库中，用于动态调整神经网络的学习率的一种方法——指数衰减ExponentialDecay()策略的参数含义及其具体用法。

在进行神经网络训练时，我们经常需要用到动态变化的学习率，其中指数衰减ExponentialDecay()策略是我们常用的一种策略。在tensorflow库中，其完整的用法是tf.keras.optimizers.schedules.ExponentialDecay()，其中的具体参数如下所示。

tf.keras.optimizers.schedules.ExponentialDecay(

    initial_learning_rate, decay_steps, decay_rate, staircase=False, name=None

)

首先，我们需要知道，在用了ExponentialDecay()策略后，程序将动态调整神经网络训练过程中的学习率，且这一调整是与我们当前训练的step有关的。具体关于step的解释，大家可以参考文章神经网络常见参数解释：epoch、batch、batch size、step、iteration，本文就不再赘述。

如以下代码所示，使用ExponentialDecay()策略后，程序将依据如下的规律，基于当前训练的step，以及我们自行设定的几个参数，从而计算得到当前的学习率。其中，函数的返回值就是当前的学习率。

def decayed_learning_rate(step):

  return initial_learning_rate * decay_rate ^ (step / decay_steps)

其中，initial_learning_rate * decay_rate ^ (step / decay_steps)就是当前学习率的计算公式。这里的initial_learning_rate、decay_rate以及decay_steps，就是我们前面提到的ExponentialDecay()函数的前3个参数。其中，initial_learning_rate是我们的初始学习率，decay_rate是学习率下降的速率，而decay_steps则是学习率下降的位置（具体含义我们稍后介绍）。此外，ExponentialDecay()策略还有两个参数，staircase表示我们在计算(step / decay_steps)时，是对结果向下取整还是取小数，默认为False，即取小数结果（具体含义我们稍后介绍）；最后一个name参数，只是对当前这一学习率下降的策略加以命名，一般用不上这个参数，我们就不再介绍了。

由此，我们可以初步知道，ExponentialDecay()函数的前4个参数都是用来计算当前的学习率的；且结合我们前面的公式initial_learning_rate * decay_rate ^ (step / decay_steps)，我们可以知道，随着当前的step不断增加，decay_rate ^ (step / decay_steps)是降低的。

接下来，我们直接带入具体的数据，来看一下这几个参数的具体作用。

如下图所示，我们这里有一个训练数据集，其中共有193608个样本。

同时，我设置了神经网络的batch size为2048，那么基于前述提及的文章神经网络常见参数解释：epoch、batch、batch size、step、iteration，可知在1个epoch中，我们对这193608个样本加以训练，共需要的batch数目为193608 / 2048，也就是94.54，向上取整为95，相当于需要95个step。此外，我设置initial_learning_rate、decay_rate以及decay_steps分别为0.1、0.95以及95，且设置staircase为True。如下图所示。

此时，我们就可以对每一个参数的具体含义与作用加以介绍了。首先，我们开始训练神经网络模型，即step开始从0逐步增加；但是由于我的staircase为True，因此只要指数(step / decay_steps)是小于1的，那么都视作0（因为当前参数设置是对结果向下取整）；而由于除了0以外任何数的0次方都是1，因此此时的公式initial_learning_rate * decay_rate ^ (step / decay_steps)始终等于initial_learning_rate，也就是一直保持0.1；只有当step到达我们设置的decay_steps之后，指数(step / decay_steps)才可以成为1，使得decay_rate终于产生了效果。而在这里，由于我故意设置decay_steps为95，因此按道理只要经过1个epoch之后，学习率就会下降——因为前面我们计算过了，在1个epoch中需要95个step。那么此时，学习率就变为了0.1 * 0.95。

接下来，我们运行上述代码，训练6个epoch，来验证一下学习率的变化是否如同我们的设想。

下图为TensorBoard中，学习率随着epoch的变化。这里需要注意，我这里截图的时候开了曲线图的平滑选项，因此应该以浅色的线为准。

上面的图因为不太全，所以或许看不出什么；我们直接将学习率变化情况导出，如下图所示。

其中，图中的step实际上表示的是epoch，大家这里理解即可。可以看到，在epoch为0时（也就是进行第一个epoch时），学习率一直为0.1；而进行到第二个epoch时——此时我们训练过程的step就应该是从95开始，但还不到190，因此(step / decay_steps)始终为1，学习率就是0.1 * 0.95 = 0.095了（因为数据格式问题，精度稍有差距）；随后，进行到第三个epoch时——此时我们训练过程的step就应该是从190开始，但还不到285，因此(step / decay_steps)始终为2，学习率就已经是0.1 * 0.95 * 0.95 = 0.09025了。

由此可知，假如我将decay_steps扩大10倍，使得其为950，那么在前10个epoch时，学习率都不会发生改变，而从第11个epoch开始，学习率才会开始衰减。

这里我的参数staircase设置为True，因此会出现上述结果；相反的，如果设置为False，那么计算(step / decay_steps)时，是对结果取小数，换句话说只要step发生变化，那么当前对应的学习率也会发生变化，只不过变化的幅度会稍小一些。

由此看到，上述学习率的变化，是符合我们的预期的。当然，上图中最后两个epoch对应的学习率没有发生变化，这个具体原因我暂时也没搞清楚；不过学习率下降作为一种策略，我们通过上述代码，还是达到了动态调整学习率的需求的。

至此，大功告成。

tensorflow学习率指数衰减ExponentialDecay的参数介绍与使用方法的更多相关文章

【体系结构】Oracle参数介绍
[体系结构]Oracle参数介绍 1 BLOG文档结构图 2 前言部分 2.1 导读和注意事项各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩ ...
【tensorflow】】模型优化（一）指数衰减学习率
指数衰减学习率是先使用较大的学习率来快速得到一个较优的解,然后随着迭代的继续,逐步减小学习率,使得模型在训练后期更加稳定.在训练神经网络时,需要设置学习率(learning rate)控制参数的更新速 ...
Tensorflow笔记——神经网络图像识别（四）搭建模块化的神经网络八股（正则化，指数衰减学习率，滑动平均等优化）
实战案例: 数据X[x0,x1]为正太分布随机点, 标注Y_,当x0*x0+x1*x1<2时,y_=1(红),否则y_=0(蓝) 建立三个.py文件 1. generateds.py生成数据 ...
TensorFlow笔记之常见七个参数
对TensorFlow深度学习中常见参数的总结分析神经网络中常见的参数有:初始学习率.学习率衰减率.隐藏层节点数量.迭代轮数.正则化系数.滑动平均衰减率.批训练数量七个参数. 对这七个参数,大部分情 ...
caffe中的学习率的衰减机制
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/Julialove102123/article/details/79200158 根据 caffe/ ...
TensorFlow tf.app&tf.app.flags用法介绍
TensorFlow tf.app&tf.app.flags用法介绍 TensorFlow tf.app argparse tf.app.flags 下面介绍 tf.app.flags.FL ...
【转载】 TensorFlow tf.app&tf.app.flags用法介绍
作者:marsggbo 出处:https://www.cnblogs.com/marsggbo版权声明:署名 - 非商业性使用 - 禁止演绎,协议普通文本 | 协议法律文本. ---------- ...
SQLMAP参数介绍
转自:http://zhan.renren.com/bugpower?gid=3602888498044629629&checked=true SQLMAP参数介绍 sqlmap的使用方式:p ...
G++ 参数介绍(转载)
g++参数介绍 From: http://www.cnblogs.com/lidan/archive/2011/05/25/2239517.html gcc and g++分别是gnu的c & ...
pentaho cde 画图参数介绍
初步接触pentaho,由于在国内的资料很少,唯有看英文文档,做了N次反复尝试,挖掘了pentaho CDE中画图的一些基本参数. 下面就列出来了一些常用参数介绍: crosstabMode:表明如果 ...

随机推荐

为datagridview添加自定义按钮
先上图: 我是直接网上搜得代码,不是本人写得.下面说说大体思路,继承DataGridViewButtonCell类实现自定义类比如这个:DataGridViewDetailButtonCell 里面, ...
企业生产环境中的麒麟V10（ARM架构）操作系统部署jdk和redis三主三从交叉版集群
前言:麒麟ARM操作系统是国企和政务机关推行信创化选择率比较高的一款操作系统,然而ARM操作系统非主流的X86系统,除了命令一样,在架构方面差别极大,初次接触多多少少会踩坑,下面我将在公司中部署的实例 ...
js 中你不知道的各种循环测速
在前端 js 中,有着多种数组循环的方式: for 循环: while 和 do-while 循环: forEach.map.reduce.filter 循环: for-of 循环: for-in 循 ...
Wpf UI框架 MaterialDesign 的使用记录
近期公司有桌面客户端的开发需求,并且对样式和界面反馈有一定的要求,对比各种开源UI框架后确认使用MaterialDesign . 1.引入框架MaterialDesignThemes,注意下对应的版本 ...
Flutter(九)Json序列化与反序列化(转Model)
在日常开发中JSON的序列化与反序列化是一个常见的操作:而Dart语言不支持反射,运行时反射会影响Dart的tree shaking(摇树优化),tree shaking可以"抖掉" ...
Qt(python) + 百度语音合成实现demo
python实现安装api sudo pip3 install baidu-aip 安装音频处理模块pydub sudo pip3 install pydub from aip import Aip ...
wordpress 折腾记
今天我看到一篇个人博客,我想建个人网站的心又动了. 虽说博客园已经很符合我的预期了,但我还是一直很想做一个个人网站做一些个性化的东西,今天试试用用wordpress搭建一个wordpress网站介绍 ...
Java中的变量分类(按照位置分类)
变量按位置分通过上面类的建立我们又得到了新的概念:成员变量和局部变量成员变量: 可以使用基本数据类型,也可以使用引用数据类型. java中的变量在使用时必须初始化,成员变量可以不对其初始化,系统会 ...
vue移动端滚动
better-scroll: https://better-scroll.github.io/docs/zh-CN/guide/ 影院列表数据使用better-scroll来完成数据的展示,此插件对于 ...
P7959 [COCI2014-2015#6] WTF 题解
P7959 [COCI2014-2015#6] WTF 题解呃,是一道 DP 题说实话,原题实际上是不要输出一种方法的--但是似乎放这道题的人想增加一点难度? 这里有两种做法,但都是 DP. 预备 ...

tensorflow学习率指数衰减ExponentialDecay的参数介绍与使用方法

tensorflow学习率指数衰减ExponentialDecay的参数介绍与使用方法的更多相关文章

随机推荐

热门专题