如何选择梯度下降法中的学习速率α（Gradient Descent Learning Rate Alpha）

梯度下降算法的任务是寻找参数θ，使之能够最小化损失函数。

那么梯度下降法中的学习速率α应该如何选择呢？通常我们画出损失函数随迭代次数增加而变化的曲线。

可能会得到如下的一条曲线，x轴表示迭代次数，y轴表示梯度下降算法迭代相应次数之后算出的损失函数值。

可以看到，当迭代300次之后，损失函数的值并没有下降多少，也就是说在这里梯度下降算法基本上已经收敛了。因此，这条曲线还可以帮助你判断梯度下降算法是否已经收敛。（对于某一个特定的问题，梯度下降算法所需要的迭代次数相差很大，可能对于某一个问题只需要30步，但是对于另一个问题则需要30000步，我们没有办法提前进行判断。）

如果梯度下降算法工作正常，那么每一步迭代之后，损失函数的值都应该下降。

如下图左上角所示，如果你发现随着迭代次数的增加，损失函数的值在变大，这通常是因为学习速率α选择的太大，需要将它调小。（如下图右面所示，我们从初始θ出发，但是由于学习速率α太大，一下子跑到了最低点的左边，然后下一次迭代又一下子跑到了最低点的右边，如此往复，损失函数就会越来越大。）

如下图左下角所示，你也会遇到这样的一种情况：随着迭代次数的增加，损失函数的值一会上升，一会下降，这通常也是因为学习速率α太大，需要使用较小的学习速率。

总结来说，如果学习速率α太小，梯度下降收敛速度会很慢；如果学习速率α太大，损失函数的值在每次迭代后不一定能下降，算法最后可能会发散。对于学习速率α，可以先选择0.001，然后按10倍来进行调整。

如何选择梯度下降法中的学习速率α（Gradient Descent Learning Rate Alpha）的更多相关文章

几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）
https://blog.csdn.net/u012328159/article/details/80252012 我们在训练神经网络模型时,最常用的就是梯度下降,这篇博客主要介绍下几种梯度下降的变种 ...
线性回归、梯度下降（Linear Regression、Gradient Descent）
转载请注明出自BYRans博客:http://www.cnblogs.com/BYRans/ 实例首先举个例子,假设我们有一个二手房交易记录的数据集,已知房屋面积.卧室数量和房屋的交易价格,如下表: ...
NLR：利用非线性回归，梯度下降法求出学习参数θ，进而求得Cost函数最优值——Jason niu
import numpy as np import random def genData(numPoints,bias,variance): x = np.zeros(shape=(numPoints ...
斯坦福大学公开课机器学习：梯度下降运算的学习率a（gradient descent in practice 2：learning rate alpha）
本章节主要讲怎么确定梯度下降的工作是正确的,第二是怎么选择学习率α,如下图所示: 上图显示的是梯度下降算法迭代过程中的代价函数j(θ)的值,横轴是迭代步数,纵轴是j(θ)的值如果梯度算法正常工作,那 ...
机器学习---用python实现最小二乘线性回归算法并用随机梯度下降法求解（Machine Learning Least Squares Linear Regression Application SGD）
在<机器学习---线性回归(Machine Learning Linear Regression)>一文中,我们主要介绍了最小二乘线性回归算法以及简单地介绍了梯度下降法.现在,让我们来实践 ...
RFC2889MAC地址学习速率——网络测试仪实操
一.简介 RFC 2889为LAN交换设备的基准测试提供了方法学,它将RFC 2544中为网络互联设备基准测试所定义的方法学扩展到了交换设备,提供了交换机转发性能(Forwarding Perform ...
梯度下降算法实现原理(Gradient Descent)
概述梯度下降法(Gradient Descent)是一个算法,但不是像多元线性回归那样是一个具体做回归任务的算法,而是一个非常通用的优化算法来帮助一些机器学习算法求解出最优解的,所谓的通用就是很 ...
Coursera在线学习---第一节.梯度下降法与正规方程法求解模型参数比较
一.梯度下降法优点:即使特征变量的维度n很大,该方法依然很有效缺点:1)需要选择学习速率α 2)需要多次迭代二.正规方程法(Normal Equation) 该方法可以一次性求解参数Θ 优点:1 ...
机器学习算法中怎样选取超參数：学习速率、正则项系数、minibatch size
本文是<Neural networks and deep learning>概览中第三章的一部分,讲机器学习算法中,怎样选取初始的超參数的值.(本文会不断补充) 学习速率(learnin ...

随机推荐

swagger 报错：illegal defaultValue null for param type integer
swagger(版本2.9.2) 刷新报错,错误信息如下图: 问题原因: 根据上面这句报错信息,点进去AbstractSerializableParameter.java:412可以看到源码, @J ...
node-red 安装
介绍 Node-RED背景介绍• Node-Red是IBM公司开发的一个可视化的编程工具.它允许程序员通过组合各部件来编写应用程序.这些部件可以是硬件设备(如:Arduino板子).Web API(如 ...
Mysql之锁的基本介绍
数据库锁定机制简单来说,就是数据库为了保证数据的一致性,而使各种共享资源在被并发访问变得有序所设计的一种规则.对于任何一种数据库来说都需要有相应的锁定机制,所以MySQL自然也不能例外.MySQL数据 ...
DHCP服务器的架设
DHCP服务器的架设一.DHCP服务器的安装要求: 搭建DHCP服务器需要一些必备条件支持,主要有以下方面: 需要一台运行Windows Server系统的服务器,并为其指定静态IP地址. 根据子网 ...
Python学习日记(十九) 模块导入
模块导入当文件夹中有这样一个自定义的command模块在它的内部写下下列代码: print('这个py文件被调用!') def fuc(): print('这个函数被调用!') 然后我们在comm ...
Luogu P1196 银河英雄传说
Luogu P1196 银河英雄传说我们考虑用并查集来维护战舰的情况. 同时,我们用一个$d$数组来记录$x$与$fa[x]$之间的距离.再用$size$数组记录战舰当前所在列的战舰数. 易知两艘在 ...
Vue项目中自动将px转换为rem
一.配置与安装步骤: 1.在 Vue 项目的 src 文件夹下创建一个 config 文件夹: 2.在 config 文件夹中创建 rem.js: 3.将以下代码复制到 rem.js 中: // 基准 ...
微信小程序~生命周期方法详解
生命周期是指一个小程序从创建到销毁的一系列过程在小程序中 ,通过App()来注册一个小程序 ,通过Page()来注册一个页面先来看一张小程序项目结构从上图可以看出,根目录下面有包含了app.js ...
unsupervised learning: clustering介绍
unsupervised learning 上面是监督学习与无监督学习的比较,监督学习的training set是一组带label(y)的训练集,而无监督学习不带有label(y). 上图中的监督学习 ...
（java）selenium webdriver学习，选择模块，点击下一页，获取当前url
selenium webdriver学习,选择模块,点击下一页,获取当前url 查找下一页有多种方法,这里列举两种: isSelected()函数用于判断是否点击选中,返回Boolean类型 impo ...

如何选择梯度下降法中的学习速率α（Gradient Descent Learning Rate Alpha）

如何选择梯度下降法中的学习速率α（Gradient Descent Learning Rate Alpha）的更多相关文章

随机推荐

热门专题