Stochastic Gradient Descent (SGD)

SGD的参数

在使用随机梯度下降（SGD）的学习方法时，一般来说有以下几个可供调节的参数:

Learning Rate 学习率
Weight Decay 权值衰减
Momentum 动量
Learning Rate Decay 学习率衰减

再此之中只有第一的参数（Learning Rate）是必须的，其余部分都是为了提高自适应性的参数，也就是说后3个参数不需要时可以设为0。

Learning Rate

学习率决定了权值更新的速度，设置得太大会使结果越过最优值，太小会使下降速度过慢。仅靠人为干预调整参数需要不断修改学习率，因此后面3种参数都是基于自适应的思路提出的解决方案。

wi←wi−η∂E∂wi

Weight decay

在实际运用中，为了避免模型的over-fitting，需要对cost function加入规范项，在SGD中我们加入−ηλwi这一项来对cost function进行规范化。

wi←wi−η∂E∂wi−ηλwi

这个公式的基本思路是减小不重要的参数对结果的影响，而有用的权重则不会受到Weight decay的影响，这种思路与Dropout的思路原理上十分相似。

Link 1
Link 2

Learning Rate Decay

一种提高SGD寻优能力的方法，具体做法是每次迭代减小学习率的大小。

initial learning rate η=η0
learning rate decay ηd
At each iteration s:

η(s)=η01+s⋅ηd

在许多论文中，另一种比较常见的方法是迭代30-50次左右直接对学习率进行操作(η←0.5⋅η)

Momentum

灵感来自于牛顿第一定律，基本思路是为寻优加入了“惯性”的影响，这样一来，当误差曲面中存在平坦区SGD可以一更快的速度学习。

wi←m⋅wi−η∂E∂wi

注意：这里的表示方法并没有统一的规定，这里只是其中一种

Link 1
Link 2
Link 3
Link 4

SGD优缺点

实现简单，当训练样本足够多时优化速度非常快
需要人为调整很多参数，比如学习率，收敛准则等

Averaged Stochastic Gradient Descent (ASGD)

在SGD的基础上计算了权值的平均值。
$$\bar{w}t=\frac{1}{t-t_0}\sum^t{i=t_0+1} w_t$$

ASGD的参数

在SGD的基础上增加参数t0

学习率 η
参数 t0

ASGD优缺点

运算花费和second order stochastic gradient descent (2SGD)一样小。
比SGD的训练速度更为缓慢。
t0的设置十分困难

Link 1

3. Conjugate Gradient（共轭梯度法）

介于最速下降法与牛顿法之间的一个方法，它仅仅需要利用一阶导数的信息，克服了GD方法收敛慢的特点。

Link 1

Limited-memory Broyden-Fletcher-Goldfarb-Shanno (LBFGS) (一种拟牛顿算法)

L-BFGS算法比较适合在大规模的数值计算中，具备牛顿法收敛速度快的特点，但不需要牛顿法那样存储Hesse矩阵，因此节省了大量的空间以及计算资源。

Link 1
Link 2
Link 3

应用分析

不同的优化算法有不同的优缺点，适合不同的场合:

LBFGS算法在参数的维度比较低（一般指小于10000维）时的效果要比SGD（随机梯度下降）和CG（共轭梯度下降）效果好，特别是带有convolution的模型。
针对高维的参数问题，CG的效果要比另2种好。也就是说一般情况下，SGD的效果要差一些，这种情况在使用GPU加速时情况一样，即在GPU上使用LBFGS和CG时，优化速度明显加快，而SGD算法优化速度提高很小。
在单核处理器上，LBFGS的优势主要是利用参数之间的2阶近视特性来加速优化，而CG则得得益于参数之间的共轭信息，需要计算器Hessian矩阵。

Link 1

Deep Learning 优化方法总结的更多相关文章

Deep Learning and Shallow Learning
Deep Learning and Shallow Learning 由于 Deep Learning 现在如火如荼的势头,在各种领域逐渐占据 state-of-the-art 的地位,上个学期在一门 ...
论文笔记：A Review on Deep Learning Techniques Applied to Semantic Segmentation
A Review on Deep Learning Techniques Applied to Semantic Segmentation 2018-02-22 10:38:12 1. Intr ...
Paper List ABOUT Deep Learning
Deep Learning 方向的部分 Paper ,自用.一 RNN 1 Recurrent neural network based language model RNN用在语言模型上的开山之作 ...
Deep Learning方向的paper
转载 http://hi.baidu.com/chb_seaok/item/6307c0d0363170e73cc2cb65 个人阅读的Deep Learning方向的paper整理,分了几部分吧,但 ...
Deep Learning for Information Retrieval
最近关注了一些Deep Learning在Information Retrieval领域的应用,得益于Deep Model在对文本的表达上展现的优势(比如RNN和CNN),我相信在IR的领域引入Dee ...
Deep Learning基础--参数优化方法
1. 深度学习流程简介 1)一次性设置(One time setup) -激活函数(Activation functions) - 数据预处理(Data Preprocessing) ...
Deep learning：四十三(用Hessian Free方法训练Deep Network)
目前,深度网络(Deep Nets)权值训练的主流方法还是梯度下降法(结合BP算法),当然在此之前可以用无监督的方法(比如说RBM,Autoencoder)来预训练参数的权值,而梯度下降法应用在深度网 ...
深度学习的集成方法——Ensemble Methods for Deep Learning Neural Networks
本文主要参考Ensemble Methods for Deep Learning Neural Networks一文. 1. 前言神经网络具有很高的方差,不易复现出结果,而且模型的结果对初始化参数异 ...
转：浅谈深度学习(Deep Learning)的基本思想和方法
浅谈深度学习(Deep Learning)的基本思想和方法参考:http://blog.csdn.net/xianlingmao/article/details/8478562 深度学习(Deep ...

随机推荐

vue-cli3.0 脚手架搭建项目
1.安装vue-cli 3.0 npm install -g @vue/cli # or yarn global add @vue/cli 安装成功后查看版本:vue -V(大写的V) 2.命令变化 ...
AT2672 Coins
传送门按理说想到转化问题之后就不难了吧,可是我还是不会写一个很容易想到的转化就是差分,将银币数和铜币数都减去金币数,这样就转化为$x+y+z$个钱币选$y$个银币和$z$个铜币的最大数 ...
Windows平台Anaconda使用笔记
1.官网下载anaconda安装. 2.将命令行工具路径加入系统环境变量 C:\ProgramData\Anaconda3\ScriptsC:\ProgramData\Anaconda3\Librar ...
C# AD 验证登陆
using System.DirectoryServices; using System.DirectoryServices.AccountManagement; using (DirectoryEn ...
文件拷贝io nio比较
import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.io.BufferedRead ...
Error: Duplicate key name 'PCS_STATS_IDX' (state=42000,code=1061)
以下异常说明mysql已经启动. 应先关掉先前启动的mysql.再执行初始化schema操作. $service mysql stop; # $HIVE_HOME/bin/schematool -db ...
Android启动时闪一下黑屏或者白屏
1.设定主题,此主题为透明的,加入到res/values/styles.xml中: <style name="Theme.AppStartLoadTranslucent" p ...
交换函数swap的三种实现方法
http://blog.csdn.net/GarfieldEr007/article/details/48314295 本文采用三种方式实现两个数之间的交换,分别是①借助辅助变量temp的swap函数 ...
Unity Download Assistant Error： 'SendRequest Error' while downloading ini file from http://files.unity3d.com/bootstrapper/29055738eb78/unity-5.3.6f1-win.ini
Unity 官网的哥们如此说道 I open the exe on Compatibility Mode , it's solved. You can try. :) 翻译就是我用兼容模式打开,就能 ...
eclipse配置android开发环境并搭建第一个helloWord工程
一.搭建Android在eclipse下环境一.JDK(不用安装下载地址: http://www.xp510.com/xiazai/Application/program/23625.ht ...

Deep Learning 优化方法总结

Stochastic Gradient Descent (SGD)

SGD的参数

Learning Rate

Weight decay

Learning Rate Decay

Momentum

SGD优缺点

Averaged Stochastic Gradient Descent (ASGD)

ASGD的参数

ASGD优缺点

3. Conjugate Gradient（共轭梯度法）

Limited-memory Broyden-Fletcher-Goldfarb-Shanno (LBFGS) (一种拟牛顿算法)

应用分析

Deep Learning 优化方法总结的更多相关文章

随机推荐

热门专题