学习率(Learning rate)的理解以及如何调整学习率

LLLiuye 2024-10-22 13:41:35 原文

1. 什么是学习率(Learning rate)？

学习率(Learning rate)作为监督学习以及深度学习中重要的超参，其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。
这里以梯度下降为例，来观察一下不同的学习率对代价函数的收敛过程的影响（这里以代价函数为凸函数为例）：
回顾一下梯度下降的代码：
repeat{
$ \theta_j = \theta_j - \alpha \frac{\Delta J(\theta)}{\Delta \theta_j} $
}
当学习率设置的过小时，收敛过程如下：

当学习率设置的过大时，收敛过程如下：

由上图可以看出来，当学习率设置的过小时，收敛过程将变得十分缓慢。而当学习率设置的过大时，梯度可能会在最小值附近来回震荡，甚至可能无法收敛。
我们再来看一下学习率对深度学习模型训练的影响：

可以由上图看出，固定学习率时，当到达收敛状态时，会在最优值附近一个较大的区域内摆动；而当随着迭代轮次的增加而减小学习率，会使得在收敛时，在最优值附近一个更小的区域内摆动。（之所以曲线震荡朝向最优值收敛，是因为在每一个mini-batch中都存在噪音）。
因此，选择一个合适的学习率，对于模型的训练将至关重要。下面来了解一些学习率调整的方法。

2. 学习率的调整

2.1 离散下降(discrete staircase)

对于深度学习来说，每 $ t $ 轮学习，学习率减半。对于监督学习来说，初始设置一个较大的学习率，然后随着迭代次数的增加，减小学习率。

2.2 指数减缓(exponential decay)

对于深度学习来说，学习率按训练轮数增长指数差值递减。例如：
\[ \alpha = 0.95^{epoch\_num} \cdot \alpha_0 \]
又或者公式为：
\[ \alpha = \frac{k}{\sqrt {epoch\_num}} \]
其中epoch_num为当前epoch的迭代轮数。不过第二种方法会引入另一个超参 $ k $ 。

2.3 分数减缓(1/t decay)

对于深度学习来说，学习率按照公式 $ \alpha = \frac{\alpha}{1+ {decay _ rate} * {epoch _ num}} $ 变化， decay_rate控制减缓幅度。

引用及参考：
[1] https://mooc.study.163.com/learn/2001281003?tid=2001391036#/learn/content?type=detail&id=2001702125&cid=2001693086
[2] https://www.cnblogs.com/keguo/p/6244253.html
[3] https://blog.csdn.net/jningwei/article/details/79243800
[4] https://baijiahao.baidu.com/s?id=1591531217345055627&wfr=spider&for=pc

写在最后：本文参考以上资料进行整合与总结，属于原创，文章中可能出现理解不当的地方，若有所见解或异议可在下方评论，谢谢！
若需转载请注明：https://www.cnblogs.com/lliuye/p/9471231.html

学习率(Learning rate)的理解以及如何调整学习率的更多相关文章

深度学习: 学习率 (learning rate)
Introduction 学习率 (learning rate),控制模型的学习进度 : lr 即 stride (步长) ,即反向传播算法中的 ηη : ωn←ωn−η∂L∂ωnωn←ωn−η∂ ...
学习率 Learning Rate
本文从梯度学习算法的角度中看学习率对于学习算法性能的影响,以及介绍如何调整学习率的一般经验和技巧. 在机器学习中,监督式学习(Supervised Learning)通过定义一个模型,并根据训练集上的 ...
mxnet设置动态学习率（learning rate）
https://blog.csdn.net/xiaotao_1/article/details/78874336 如果learning rate很大,算法会在局部最优点附近来回跳动,不会收敛: 如果l ...
权重衰减（weight decay）与学习率衰减（learning rate decay）
本文链接:https://blog.csdn.net/program_developer/article/details/80867468“微信公众号” 1. 权重衰减(weight decay)L2 ...
Dynamic learning rate in training - 培训中的动态学习率
I'm using keras 2.1.* and want to change the learning rate during training. I know about the schedul ...
ubuntu之路——day8.5 学习率衰减learning rate decay
在mini-batch梯度下降法中,我们曾经说过因为分割了baby batch,所以迭代是有波动而且不能够精确收敛于最小值的因此如果我们将学习率α逐渐变小,就可以使得在学习率α较大的时候加快模型训练 ...
Pytorch调整学习率
每隔一定的epoch调整学习率 def adjust_learning_rate(optimizer, epoch): """Sets the learning rate ...
跟我学算法-吴恩达老师(mini-batchsize，指数加权平均，Momentum 梯度下降法，RMS prop， Adam 优化算法， Learning rate decay)
1.mini-batch size 表示每次都只筛选一部分作为训练的样本,进行训练,遍历一次样本的次数为(样本数/单次样本数目) 当mini-batch size 的数量通常介于1,m 之间当 ...
Keras 自适应Learning Rate (LearningRateScheduler)
When training deep neural networks, it is often useful to reduce learning rate as the training progr ...

随机推荐

记换换回收一个js逆向分析
随着现在对数据的重视程度越来越高,现在各大网站都加强了反爬技术,比如本文中js加密 url地址:https://www.huanhuanhuishou.com/gujia/22201.html 需要爬 ...
SEO优化上首页之搜索引擎作弊案例与反作弊原理
搜索引擎流量价值巨大,有不少人专门研究排名机制,利用搜索引擎漏洞作弊,寻求快速提高网站排名,进而获取更多的流量和利益,甚至有的网站优化公司专门提供作弊服务.搜索引擎为了杜绝这种情况,必须能过滤大量垃圾 ...
（收藏）mci 录音和播放
原文http://blog.csdn.net/lvbian/article/details/18226741 最近在做Android与C#录音并互相通信的小东西.但是卡在C#录音这儿了.找了好久,说的 ...
# 20155229 2016-2017-2 《Java程序设计》第七周学习总结
20155229 2016-2017-2 <Java程序设计>第七周学习总结教材学习内容总结第十二章 lambda的主体是一个表达式,而不是一个代码块.仅仅能在lambda表达式中封装 ...
c++ 绘制方框
知识点: GetStdHandle函数 FillConsoleOutputCharacter函数 SetConsoleCursorPosition函数 system函数一. GetStdHandle ...
iOS开发-通过正则表达式进行各种判断银行卡,车牌号,邮箱地址,QQ,身份证,全字母,仅输入字母或数字同时包含大小写字母和数字,仅能输入中文等
/* * 验证银行卡号是否正确 * 车牌号验证 * 检验邮箱地址是否正确 * 手机号中间四位密文显示 * 判断QQ号是否正确(5-11位) * 判断身份证号是否正确(如末位为字母请用“x” ...
java 继承类之后，访问不到超类的属性的原因及解决方法
是因为超类里的属性没有加上public关键字解决方法: 超类和超类里的属性或者方法如果想被其他包下的方法调用,就必须全部加上public权限,即设置为公开访问例: @Controller publ ...
Java的自动拆/装箱
作者:Alvin 关键字:语法糖类对象参考 Java 中的语法糖语法糖--这一篇全了解浅谈 Integer 类什么是Java中的自动拆装箱深入剖析Java中的装箱和拆箱前言我们知道, ...
svn检出项目后，serverlet包报错
因为缺少一个包 servlet-api.jar 没引.
Python学习环境搭建——VMware,Ubuntu,Anaconda,Pycharm
1.安装VMware虚拟机,版本是14.1.2(含注册码) 链接:https://pan.baidu.com/s/1ffNLONDjEMYDAenE36gRpA 密码:yazx 注:我的电脑分辨率较高 ...