sgd学习率选择问题

关于使用SGD时如何选择初始的学习率(这里SGD是指带动量的SGD,momentum=0.9)：

训练一个epoch，把学习率从一个较小的值(10^-8)上升到一个较大的值(10)，画出学习率(取log)和经过平滑后的loss的曲线，根据曲线来选择合适的初始学习率。

从上图可以看出学习率和loss之间的关系，最曲线的最低点的学习率已经有了使loss上升的趋势，曲线的最低点不选。最低点左边的点都是可供选择的点，但是选择太小的学习率会导致收敛的速度过慢，所以根据上图我们可以选择0.01(10^-2)为初始的学习率。

关于学习率的调整策略，在使用SGD时不建议使用指数型连续下降的调节方法，建议使用阶梯式调节学习率的方法。每隔一定数量的epoch学习率调节为之前的0.1倍(根据自己实际任务调节每个阶段迭代epoch的数量)。

如果不想使用上述方法，这里提供几个经验值供选择，fine-tune模型初始学习率可设置为0.01，从头开始训练模型学习率可设置为0.1(仅供参考)。

供参考的寻找初始学习率的pytorch代码(根据自己的任务进行修改)：

def find_lr(init_value = 1e-8, final_value=10., beta = 0.98):

    num = len(train_loader)-1

    mult = (final_value / init_value) ** (1/num)

    lr = init_value

    optimizer.param_groups[0]['lr'] = lr

    avg_loss = 0.

    best_loss = 0.

    batch_num = 0

    losses = []

    log_lrs = []

    for data in train_loader:

        batch_num += 1

        #As before, get the loss for this mini-batch of inputs/outputs

        inputs,labels = data

        inputs, labels = Variable(inputs), Variable(labels)

        optimizer.zero_grad()

        outputs = net(inputs)

        loss = criterion(outputs, labels)

        #Compute the smoothed loss

        avg_loss = beta * avg_loss + (1-beta) *loss.data[0]

        smoothed_loss = avg_loss / (1 - beta**batch_num)

        #Stop if the loss is exploding

        if batch_num > 1 and smoothed_loss > 4 * best_loss:

            return log_lrs, losses

        #Record the best loss

        if smoothed_loss < best_loss or batch_num==1:

            best_loss = smoothed_loss

        #Store the values

        losses.append(smoothed_loss)

        log_lrs.append(math.log10(lr))

        #Do the SGD step

        loss.backward()

        optimizer.step()

        #Update the lr for the next step

        lr *= mult

        optimizer.param_groups[0]['lr'] = lr

    return log_lrs, losses

参考论文《Cyclical Learning Rates for Training Neural Networks》

和博客https://sgugger.github.io/how-do-you-find-a-good-learning-rate.html

sgd学习率选择问题的更多相关文章

Rich feature hierarchies for accurate object detection and semantic segmentation（理解）
0 - 背景该论文是2014年CVPR的经典论文,其提出的模型称为R-CNN(Regions with Convolutional Neural Network Features),曾经是物体检测领 ...
R-CNN阅读笔记
论文地址:<Rich feature hierarchies for accurate object detection and semantic segmentation> 论文包含两个 ...
转-------基于R-CNN的物体检测
基于R-CNN的物体检测原文地址:http://blog.csdn.net/hjimce/article/details/50187029 作者:hjimce 一.相关理论本篇博文主要讲解2014 ...
深度学习笔记之基于R-CNN的物体检测
不多说,直接上干货! 基于R-CNN的物体检测原文地址:http://blog.csdn.net/hjimce/article/details/50187029 作者:hjimce 一.相关理论本 ...
【神经网络与深度学习】【计算机视觉】RCNN- 将CNN引入目标检测的开山之作
转自:https://zhuanlan.zhihu.com/p/23006190?refer=xiaoleimlnote 前面一直在写传统机器学习.从本篇开始写一写深度学习的内容. 可能需要一定的神 ...
深度学习入门实战（二）-用TensorFlow训练线性回归
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者 :董超上一篇文章我们介绍了 MxNet 的安装,但 MxNet 有个缺点,那就是文档不太全,用起来可能 ...
TensorFlow入门：线性回归
随机.mini-batch.batch(见最后解释) 在每个 epoch 送入单个数据点.这被称为随机梯度下降(stochastic gradient descent).我们也可以在每个 epoch ...
小匠_碣第三周期打卡 Task06~Task08
Task06:批量归一化和残差网络:凸优化:梯度下降批量归一化和残差网络对输入的标准化(浅层模型) 处理后的任意一个特征在数据集中所有样本上的均值为0.标准差为1. 标准化处理输入数据使各个特征的 ...
一天搞懂深度学习-训练深度神经网络(DNN)的要点
前言这是<一天搞懂深度学习>的第二部分一.选择合适的损失函数典型的损失函数有平方误差损失函数和交叉熵损失函数. 交叉熵损失函数: 选择不同的损失函数会有不同的训练效果二.mini- ...

随机推荐

【BZOJ 1430】 1430: 小猴打架（Prufer数列）
1430: 小猴打架 Time Limit: 5 Sec Memory Limit: 162 MBSubmit: 625 Solved: 452 Description 一开始森林里面有N只互不相 ...
Cmd2001的毒瘤水题题解
怕不是我再不写题解这题就该成没人做也没人会的千古谜题了...... T1: 仔细分析题面,发现相同就是广义SAM上节点相同,相似就是广义SAM上为从根到某个点路径的前缀..直接SAM上跑从根开始,每个 ...
[POI2013]Taksówki
[POI2013]Taksówki 题目大意: ABC三地在同一条直线上,AC相距\(m(m\le10^{18})\)米,AB相距\(d\),B在AC之间.总共有\(n(n\le5\times10^5 ...
JavaScript学习笔记[0]
JavaScript学习笔记[0] 使用的是廖雪峰JavaScript教程. 数据类型 Number 表示数字,不区分浮点整形. === 比较时不转化数据类型. == 反之. NaN与任何值都不想等, ...
JVM7、8参数详解及优化
1. JVM堆内存划分这两天看到下面这篇文章的图不错. 一图读懂JVM架构解析 1.1 JDK7及以前的版本其中最上一层是Nursery内存,一个对象被创建以后首先被放到Nursery中的Eden ...
CentOS 7解压安装PHP7.1.21
下载php yum install -y wget wget http://cn2.php.net/distributions/php-7.1.21.tar.gz 解压 tar -zxvf php-7 ...
How to replace a value in web.xml with a Maven property?(转)
<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-war-p ...
关于bootstrap的treeview不显示多选(复选框)的问题，以及联动选择的问题，外加多选后取值
最近做项目用到了treeview.因为涉及到多选的问题,很是棘手,于是乎,我决定查看原生JS,探个究竟.需要引用官方的bootstrap-treeview.js都知道吧,对于所需要引用的,我就不多说了 ...
InnoDB 与 MYISAM
http://www.cnblogs.com/sopc-mc/archive/2011/11/01/2232212.html
网站前端优化技术 BigPipe分块处理技术
前端优化已经到极致了么?业务还在为看到不停的而揪心么?还在为2秒率不达标苦恼么? 好吧我知道答案,大家一如既往的烦恼中... 那么接下来我们看看,facebook,淘宝,人人网,一淘都是怎么做前端优化 ...

sgd学习率选择问题

sgd学习率选择问题的更多相关文章

随机推荐

热门专题