梯度下降和随机梯度下降

梯度下降在深度学习中很少被直接使用，但理解梯度的意义以及沿着梯度反方向更新自变量可能降低目标函数值的原因是学习后续优化算法的基础。随后，将引出随机梯度下降（stochastic gradient descent）。

一维梯度下降

以简单的一维梯度下降为例，解释梯度下降算法可能降低目标函数值的原因。假设连续可导的函数f:ℝ→ℝ的输入和输出都是标量。给定绝对值足够小的数ϵ，根据泰勒展开公式，得到以下的近似：

学习率

梯度下降算法中的正数η通常叫作学习率。这是一个超参数，需要人工设定。如果使用过小的学习率，会导致x更新缓慢从而需要更多的迭代才能得到较好的解。

如果使用过大的学习率，∣ηf′(x)∣可能会过大从而使前面提到的一阶泰勒展开公式不再成立：这时我们无法保证迭代x会降低f(x)的值。

多维梯度下降

随机梯度下降

使用适当的学习率，沿着梯度反方向更新自变量可能降低目标函数值。梯度下降重复这一更新过程直到得到满足要求的解。
学习率过大或过小都有问题。一个合适的学习率通常是需要通过多次实验找到的。
当训练数据集的样本较多时，梯度下降每次迭代的计算开销较大，因而随机梯度下降通常更受青睐。

机器学习（ML）十五之梯度下降和随机梯度下降的更多相关文章

机器学习算法（优化）之一：梯度下降算法、随机梯度下降（应用于线性回归、Logistic回归等等）
本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法,以及实际应用到线性回归.Logistic回归.矩阵分解推荐算法等ML中. 梯度下降算法基本公式常见的符号说明和损失函数 X :所有 ...
NN优化方法对照：梯度下降、随机梯度下降和批量梯度下降
1.前言这几种方法呢都是在求最优解中常常出现的方法,主要是应用迭代的思想来逼近.在梯度下降算法中.都是环绕下面这个式子展开: 当中在上面的式子中hθ(x)代表.输入为x的时候的其当时θ參数下的输出值 ...
对数几率回归法（梯度下降法，随机梯度下降与牛顿法）与线性判别法(LDA)
本文主要使用了对数几率回归法与线性判别法(LDA)对数据集(西瓜3.0)进行分类.其中在对数几率回归法中,求解最优权重W时,分别使用梯度下降法,随机梯度下降与牛顿法. 代码如下: #!/usr/bin ...
梯度下降之随机梯度下降 -minibatch 与并行化方法
问题的引入: 考虑一个典型的有监督机器学习问题,给定m个训练样本S={x(i),y(i)},通过经验风险最小化来得到一组权值w,则现在对于整个训练集待优化目标函数为: 其中为单个训练样本(x(i),y ...
谷歌机器学习速成课程---降低损失 (Reducing Loss)：随机梯度下降法
在梯度下降法中,批量指的是用于在单次迭代中计算梯度的样本总数.到目前为止,我们一直假定批量是指整个数据集.就 Google 的规模而言,数据集通常包含数十亿甚至数千亿个样本.此外,Google 数据集 ...
梯度下降VS随机梯度下降
样本个数m,x为n维向量.h_theta(x) = theta^t * x梯度下降需要把m个样本全部带入计算,迭代一次计算量为m*n^2 随机梯度下降每次只使用一个样本,迭代一次计算量为n^2,当m很 ...
梯度下降、随机梯度下降、方差减小的梯度下降(matlab实现)
梯度下降代码: function [ theta, J_history ] = GradinentDecent( X, y, theta, alpha, num_iter ) m = length(y ...
online learning，batch learning&批量梯度下降，随机梯度下降
以上几个概念之前没有完全弄清其含义及区别,容易混淆概念,在本文浅析一下: 一.online learning vs batch learning online learning强调的是学习是实时的,流 ...
机器学习---用python实现最小二乘线性回归算法并用随机梯度下降法求解（Machine Learning Least Squares Linear Regression Application SGD）
在<机器学习---线性回归(Machine Learning Linear Regression)>一文中,我们主要介绍了最小二乘线性回归算法以及简单地介绍了梯度下降法.现在,让我们来实践 ...

随机推荐

SocketAsyncEvent方式的Server
1.AsyncUserToken public class AsyncUserToken { /// <summary> /// 客户端IP地址 /// </summary> ...
Iptables防火墙（未完）
来自深信服培训第二天下午课程软防跟硬防 Linux包过滤防火墙概述 netfilter 位于Linux内核中的包过滤功能体系称为Linux防火墙的"内核态" iptables ...
pytest-fixture之conftest.py
场景: 对于一个py文件中某些用例需要前置条件,某些用例不需要前置条件的情况,使用setup/teardown肯定是不方便的, 这时就需要自定义测试用例的前置条件. 1.fixture优点: 命名不局 ...
USACO06DEC 牛奶模式
题意:求最长的可重叠的 K重复子串的长度考虑二分长度s,转化为验证性问题. 对SA进行分组.保证组内Height最小为s.这样在组内RMQ就可以任意了,因为RMQ一定是大于S的. 只要组内元素个数 ...
gulp打包js多个文件夹并压缩混淆，编译ES6语法，及多个import依赖由一个入口打包成一个cdn
感觉和webpack的步骤差不多首先安装gulp:参考上一篇安装完之后新建一个文件目录起名在当前目录下打开cmd 执行:npm init 创建package.json文件然后安装第一个插件g ...
HTML link标签
<link> 标签定义文档与外部资源的关系. 最常见的用途是链接样式表.CSS
AcWing 1027. 方格取数
#include<iostream> using namespace std ; ; *N][N][N]; int w[N][N]; int n; int main() { cin> ...
wcf编程资料
如下为WCF编辑资料链接:https://pan.baidu.com/s/1kZnc6eNOfEggHSfJNXj8Ag 提取码:gj7s 复制这段内容后打开百度网盘手机App,操作更方便哦第01 ...
MySQL数据库重点监控指标
MySQL数据库重点监控指标 QPS queries per seconds 每秒中查询数量 show global status like 'Question%'; Queries/seconds ...
java-Timestamp
java获取取得Timestamp类型的当前系统时间格式:2010-11-04 16:19:42 方法1: Timestampd = new Timestamp(System.currentTimeM ...

机器学习（ML）十五之梯度下降和随机梯度下降