tensorflow中的学习率调整策略

通常为了模型能更好的收敛,随着训练的进行,希望能够减小学习率,以使得模型能够更好地收敛,找到loss最低的那个点.

tensorflow中提供了多种学习率的调整方式.在https://www.tensorflow.org/api_docs/python/tf/compat/v1/train搜索decay.可以看到有多种学习率的衰减策略.

cosine_decay
exponential_decay
inverse_time_decay
linear_cosine_decay
natural_exp_decay
noisy_linear_cosine_decay
polynomial_decay

本文介绍两种学习率衰减策略,指数衰减和多项式衰减.

指数衰减

https://www.tensorflow.org/api_docs/python/tf/compat/v1/train/exponential_decay

tf.compat.v1.train.exponential_decay(

    learning_rate,

    global_step,

    decay_steps,

    decay_rate,

    staircase=False,

    name=None

)

learning_rate 初始学习率

global_step 当前总共训练多少个迭代

decay_steps 每xxx steps后变更一次学习率

decay_rate 用以计算变更后的学习率

staircase： global_step/decay_steps的结果是float型还是向下取整

学习率的计算公式为:decayed_learning_rate = learning_rate * decay_rate ^ (global_step / decay_steps)

我们用一段测试代码来绘制一下学习率的变化情况.

#coding=utf-8

import matplotlib.pyplot as plt

import tensorflow as tf

x=[]

y=[]

N = 200 #总共训练200个迭代

num_epoch = tf.Variable(0, name='global_step', trainable=False)

with tf.Session() as sess:

    sess.run(tf.global_variables_initializer())

    for num_epoch in range(N):

        ##初始学习率0.5,每10个迭代更新一次学习率.

        learing_rate_decay = tf.train.exponential_decay(learning_rate=0.5, global_step=num_epoch, decay_steps=10, decay_rate=0.9, staircase=False)

        learning_rate = sess.run([learing_rate_decay])

        y.append(learning_rate)

#print(y)

x = range(N)

fig = plt.figure()

ax.set_xlabel('step')

ax.set_ylabel('learing rate')

plt.plot(x, y, 'r', linewidth=2)

plt.show()

结果如图:

多项式衰减

tf.compat.v1.train.polynomial_decay(

    learning_rate,

    global_step,

    decay_steps,

    end_learning_rate=0.0001,

    power=1.0,

    cycle=False,

    name=None

)

设定一个初始学习率,一个终止学习率,然后线性衰减.cycle控制衰减到end_learning_rate后是否保持这个最小学习率不变,还是循环往复. 过小的学习率会导致收敛到局部最优解,循环往复可以一定程度上避免这个问题.

根据cycle是否为true,其计算方式不同,如下:

#coding=utf-8

import matplotlib.pyplot as plt

import tensorflow as tf

x=[]

y=[]

z=[]

N = 200 #总共训练200个迭代

num_epoch = tf.Variable(0, name='global_step', trainable=False)

with tf.Session() as sess:

    sess.run(tf.global_variables_initializer())

    for num_epoch in range(N):

        ##初始学习率0.5,每10个迭代更新一次学习率.

        learing_rate_decay = tf.train.polynomial_decay(learning_rate=0.5, global_step=num_epoch, decay_steps=10, end_learning_rate=0.0001, cycle=False)

        learning_rate = sess.run([learing_rate_decay])

        y.append(learning_rate)

        learing_rate_decay2 = tf.train.polynomial_decay(learning_rate=0.5, global_step=num_epoch, decay_steps=10, end_learning_rate=0.0001, cycle=True)

        learning_rate2 = sess.run([learing_rate_decay2])

        z.append(learning_rate2)

#print(y)

x = range(N)

fig = plt.figure()

ax.set_xlabel('step')

ax.set_ylabel('learing rate')

plt.plot(x, y, 'r', linewidth=2)

plt.plot(x, z, 'g', linewidth=2)

plt.show()

绘图结果如下:

cycle为false时对应红线,学习率下降到0.0001后不再下降. cycle=true时,下降到0.0001后再突变到一个更大的值,在继续衰减,循环往复.

在代码里,通常通过参数去控制不同的学习率策略,例如

def _configure_learning_rate(num_samples_per_epoch, global_step):

  """Configures the learning rate.

  Args:

    num_samples_per_epoch: The number of samples in each epoch of training.

    global_step: The global_step tensor.

  Returns:

    A `Tensor` representing the learning rate.

  Raises:

    ValueError: if

  """

  # Note: when num_clones is > 1, this will actually have each clone to go

  # over each epoch FLAGS.num_epochs_per_decay times. This is different

  # behavior from sync replicas and is expected to produce different results.

  decay_steps = int(num_samples_per_epoch * FLAGS.num_epochs_per_decay /

                    FLAGS.batch_size)

  if FLAGS.sync_replicas:

    decay_steps /= FLAGS.replicas_to_aggregate

  if FLAGS.learning_rate_decay_type == 'exponential':

    return tf.train.exponential_decay(FLAGS.learning_rate,

                                      global_step,

                                      decay_steps,

                                      FLAGS.learning_rate_decay_factor,

                                      staircase=True,

                                      name='exponential_decay_learning_rate')

  elif FLAGS.learning_rate_decay_type == 'fixed':

    return tf.constant(FLAGS.learning_rate, name='fixed_learning_rate')

  elif FLAGS.learning_rate_decay_type == 'polynomial':

    return tf.train.polynomial_decay(FLAGS.learning_rate,

                                     global_step,

                                     decay_steps,

                                     FLAGS.end_learning_rate,

                                     power=1.0,

                                     cycle=False,

                                     name='polynomial_decay_learning_rate')

  else:

    raise ValueError('learning_rate_decay_type [%s] was not recognized' %

                     FLAGS.learning_rate_decay_type)

推荐一篇:https://blog.csdn.net/dcrmg/article/details/80017200 对各种学习率衰减策略描述的很详细.并且都有配图,可以很直观地看到各种衰减策略下学习率变换情况.

tensorflow中的学习率调整策略的更多相关文章

tensorflow中常用学习率更新策略
神经网络训练过程中,根据每batch训练数据前向传播的结果,计算损失函数,再由损失函数根据梯度下降法更新每一个网络参数,在参数更新过程中使用到一个学习率(learning rate),用来定义每次参数 ...
【转载】 PyTorch学习之六个学习率调整策略
原文地址: https://blog.csdn.net/shanglianlm/article/details/85143614 ----------------------------------- ...
深度学习训练过程中的学习率衰减策略及pytorch实现
学习率是深度学习中的一个重要超参数,选择合适的学习率能够帮助模型更好地收敛. 本文主要介绍深度学习训练过程中的6种学习率衰减策略以及相应的Pytorch实现. 1. StepLR 按固定的训练epoc ...
史上最全学习率调整策略lr_scheduler
学习率是深度学习训练中至关重要的参数,很多时候一个合适的学习率才能发挥出模型的较大潜力.所以学习率调整策略同样至关重要,这篇博客介绍一下Pytorch中常见的学习率调整方法. import torch ...
【转载】 Pytorch中的学习率调整lr_scheduler,ReduceLROnPlateau
原文地址: https://blog.csdn.net/happyday_d/article/details/85267561 ------------------------------------ ...
PyTorch学习之六个学习率调整策略
PyTorch学习率调整策略通过torch.optim.lr_scheduler接口实现.PyTorch提供的学习率调整策略分为三大类,分别是有序调整:等间隔调整(Step),按需调整学习率(Mul ...
TensorFlow中设置学习率的方式
目录 1. 指数衰减 2. 分段常数衰减 3. 自然指数衰减 4. 多项式衰减 5. 倒数衰减 6. 余弦衰减 6.1 标准余弦衰减 6.2 重启余弦衰减 6.3 线性余弦噪声 6.4 噪声余弦衰减 ...
pytorch中的学习率调整函数
参考:https://pytorch.org/docs/master/optim.html#how-to-adjust-learning-rate torch.optim.lr_scheduler提供 ...
深度学习---1cycle策略：实践中的学习率设定应该是先增再降
深度学习---1cycle策略:实践中的学习率设定应该是先增再降本文转载自机器之心Pro,以作为该段时间的学习记录深度模型中的学习率及其相关参数是最重要也是最难控制的超参数,本文将介绍 Lesli ...

随机推荐

Jenkins节点配置
1.系统管理---configure Global Security(全局安全设置)---Tcp port for inbound agents---指定端口---服务器防火墙中开放此端口点击 ag ...
Python_函数做字典的值
当需要用到3个及以上的if...elif...else时就要考虑该方法进行简化通过将函数名称当做字典的值,利用字典的关键字查询,可以快速定位函数,进行执行 [场景]用户查询信息,输入fn查询,执行对 ...
代码审计-凡诺CMS 2.1文件包含漏洞
0x01代码审计后台账号密码: admin admin 安装好了是这样的漏洞文件:/channel.php if (ism()) { include($dir.$t_mpath.$c_mcmode ...
【css】CSS设置文字不能被选中
CSS设置文字不能被选中 /*设置文字不能被选中以下为css样式*/ -webkit-user-select:none; -moz-user-select:none; -ms-user-select ...
详解AJAX工作原理以及实例讲解（通俗易懂）
什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新.这意味 ...
Python3+RobotFramework+pycharm环境搭建
我的环境为 python3.6.5+pycharm 2019.1.3+robotframework3.1.2 1.安装python3.x 略之后在cmd下执行:pip install robot ...
C# 求Π Π/4=1-1/3+1/5-1/7+......+1/(2*n-3)-1/(2*n-1); (n=2000)
double a = 0.0;//最终Π的结果 double类型 int n; for (n = 1; n <= 2000; n++) { if (n % 2 == 1) { a += 1.0 ...
Vue学习系列(三)——基本指令
前言在上一篇中,我们已经对组件有了更加进一步的认识,从组件的创建构造器到组件的组成,进而到组件的使用,.从组件的基本使用.组件属性,以及自定义事件实现父子通讯和巧妙运用插槽slot分发内容,进一步的 ...
SVG系列 - 基础
标题为SVG基础,但是过于基础的东西就不再熬述啦,可以参考几个学习网址: SVG参考手册:http://www.runoob.com/svg/svg-reference.html MDN SVG:ht ...
Leetcode（6）Z字形变换
Leetcode(6)Z字形变换 [题目表述]: 将一个给定字符串根据给定的行数,以从上往下.从左到右进行 Z 字形排列. 比如输入字符串为 "LEETCODEISHIRING" ...

tensorflow中的学习率调整策略

tensorflow中的学习率调整策略的更多相关文章

随机推荐

热门专题