Gradient Descent with Momentum and Nesterov Momentum

在Batch Gradient Descent及Mini-batch Gradient Descent, Stochastic Gradient Descent(SGD)算法中，每一步优化相对于之前的操作，都是独立的。每一次迭代开始，算法都要根据更新后的Cost Function来计算梯度，并用该梯度来做Gradient Descent。

Momentum以及Nestrov Momentum相较于前三种算法，虽然也会根据Cost Function来计算当前的梯度，但是却不直接用此梯度去做Gradient Descent。而是赋予当前梯度一个权值，并综合考虑之前N次优化的梯度（使其形成一个动量、或类比为惯性），得到一个加权平均的移动平均值(Weighted Moving Average)，之后再来作Gradient Descent。

Gradient Descent with Momentum:

首先，我们需要计算Momentum，即动量。这里使用Exponential Moving Average(EMA)来计算该加权平均值，公式为：

dW为本次计算出的梯度值，β是衰减因子,取值在0-1之间。为了直观的理解指数衰减权值，将上式展开，可以得到：

通过上式，我们可以知道，梯度序列的权重是随着β进行指数衰减的。根据β值的大小，可以得出大致纳入考虑范围的步数为1/(1-β)，β值越大，衰减满、纳入考虑的步数约多，反之则窗口约窄。

Momentum算法会减小算法的震荡，在实现上也非常有效率，比起Simple Moving Average，EMA所用的存储空间小，并且每次迭代中使用一行代码即可实现。不过，β成为了除α外的又一个Hyperparameter，调参要更难了。

Nesterov Momentum:

如下图左侧所示，Gradient Descent with Momentum实际上是两个分向量的加和。一个分量是包含“惯性”的momentum，另一个分量是当前梯度，二者合并后产生出实际的update梯度。下图右侧，是Nesterov Momentum算法的示意图。其思路是：明知道momentum分量是需要的，不如先将这部分更新了。

在下图中，Nesterov算法不在红点处计算梯度，而是先更新绿色箭头，并且在绿色箭头处计算梯度，再做更新。两个算法会得出不一样的结果。

Gradient Descent with Momentum and Nesterov Momentum的更多相关文章

深度学习（九）深度学习最全优化方法总结比较（SGD，Momentum，Nesterov Momentum，Adagrad，Adadelta，RMSprop，Adam）
前言这里讨论的优化问题指的是,给定目标函数f(x),我们需要找到一组参数x(权重),使得f(x)的值最小. 本文以下内容假设读者已经了解机器学习基本知识,和梯度下降的原理. SGD SGD指stoc ...
(转) An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms Table of contents: Gradient descent variants ...
An overview of gradient descent optimization algorithms
原文地址:An overview of gradient descent optimization algorithms An overview of gradient descent optimiz ...
<反向传播(backprop)>梯度下降法gradient descent的发展历史与各版本
梯度下降法作为一种反向传播算法最早在上世纪由geoffrey hinton等人提出并被广泛接受.最早GD由很多研究团队各自发表,可他们大多无人问津,而hinton做的研究完整表述了GD方法,同时hin ...
FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MINI-BATCH LEARNING. WHAT IS THE DIFFERENCE?
FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MIN ...
（转）Introduction to Gradient Descent Algorithm (along with variants) in Machine Learning
Introduction Optimization is always the ultimate goal whether you are dealing with a real life probl ...
Adaptive gradient descent without descent
目录概主要内容算法1 AdGD 定理1 ADGD-L 算法2 定理2 算法3 ADGD-accel 算法4 Adaptive SGD 定理4 代码 Malitsky Y, Mishchenko ...
梯度下降（Gradient Descent）小结
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法.这里就对梯度下降法做一个完整的总结. 1. 梯度在微 ...
机器学习基础——梯度下降法（Gradient Descent）
机器学习基础--梯度下降法(Gradient Descent) 看了coursea的机器学习课,知道了梯度下降法.一开始只是对其做了下简单的了解.随着内容的深入,发现梯度下降法在很多算法中都用的到,除 ...

随机推荐

编译驱动Makefile解析
#ubuntu的内核源码树,如果要编译在ubuntu中安装的模块就打开这2个 #KERN_VER = $(shell uname -r) #KERN_DIR = /lib/modules/$(KERN ...
洛谷 P2672 推销员（贪心，模拟）
传送门解题思路第一种: 对于选i家,很显然,a值前i-1家的一定会选,所以只需要考虑最后一家的选法.要么是选择a值第i大的(就不管s了),要么选择剩下的中s最大的. 我们把每一家的情况(s和a)存 ...
Educational Codeforces Round 60 (Rated for Div. 2) D. Magic Gems（矩阵快速幂）
题目传送门题意: 一个魔法水晶可以分裂成m个水晶,求放满n个水晶的方案数(mol1e9+7) 思路: 线性dp,dp[i]=dp[i]+dp[i-m]; 由于n到1e18,所以要用到矩阵快速幂优化 ...
MySQL里null与空值的辨析
CREATE TABLE `test` ( `col1` VARCHAR( 10 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL , `co ...
Codeforces Manthan, Codefest 19 (open for everyone, rated, Div. 1 + Div. 2)
传送门 A. XORinacci 手玩三四项发现序列就是 $a,b,a\ xor\ b,a,b,...$,直接输出即可 #include<iostream> #include<cst ...
apache2.4 只允许合法域名访问网站禁止使用ip、非法域名访问
1.ip访问禁用ip访问只能对应端口有效<VirtualHost *:80> ServerName xx.xx.xx.xx ServerAlias * <Location /> ...
C# 同步调用异步调用异步回调多线程的作用
同步调用 : 委托的Invoke方法用来进行同步调用.同步调用也可以叫阻塞调用,它将阻塞当前线程,然后执行调用,调用完毕后再继续向下进行. 异步调用 :同步调用会阻塞线程,如果是要调用一项繁重的 ...
03-CSS颜色、文本、字体、边框、背景
# Css颜色,文本字体 ## css颜色表示法1.颜色名表示,比如:red 红色,gold 金色 2.16进制数值表示,比如:#ff0000 表示红色,这种可以简写成 #f00 3.RGB颜色: 红 ...
20191126PHP连接数据（1）
引进数据 mysql> create database stu1 character set utf8; mysql> use stu1 mysql> set names utf8; ...
HTML替换元素,非替换元素和控制元素
替换元素:元素内容由标签的属性来设置,标签其实就是一个占位符.替换元素因为元素内容来自外部资源,所以这些标签大多具有src,指明要引入的资源路径,所以大多仅需要一个标签就可以.例如:<link ...

Gradient Descent with Momentum and Nesterov Momentum

Gradient Descent with Momentum and Nesterov Momentum的更多相关文章

随机推荐

热门专题