Deep Learning 之最优化方法

2017年05月21日 22:18:40

阅读数：5910

写在前面本文主要是对Deep Learning一书最优化方法的总结，具体详细的算法，另起博文展开。

整个优化系列文章列表：

Deep Learning 之最优化方法

Deep Learning 最优化方法之SGD

Deep Learning 最优化方法之Momentum（动量）

Deep Learning 最优化方法之Nesterov(牛顿动量)

Deep Learning 最优化方法之AdaGrad

Deep Learning 最优化方法之RMSProp

Deep Learning 最优化方法之Adam

深度学习中，经常需要用到优化方法，来寻找使得损失函数最小的最优解。

先上一些结论：

1.选择哪种优化算法并没有达成共识

2.具有自适应学习率（以RMSProp 和AdaDelta 为代表）的算法族表现得相当鲁棒，不分伯仲，但没有哪个算法能脱颖而出。

3.对于当前流行的优化算法包括括SGD、具动量的SGD、RMSProp、具动量的RMSProp、AdaDelta 和Adam而言，选择哪一个算法似乎主要取决于使用者对算法的熟悉程度（以便调节超参数）

4.基本不用二阶近似优化算法

在这里将这些优化方法分为三类，详见对应的blog：

一.最基本的优化算法

1.1SGD

SGD实际就是min-batch的实现，为最基础的优化算法，当今大部分优化算法都是以SGD为基础实现的。详见Deep Learning 最优化方法之SGD

1.2Momentum（动量）

Momentum引入了动量v，以指数衰减的形式累计历史梯度，以此来解决Hessian矩阵病态问题
详见Deep Learning 最优化方法之Momentum（动量）

1.3Nesterov(牛顿动量)

Nesterov是对Momentum的变种。与Momentum不同的是，Nesterov先更新参数，再计算梯度
详见Deep Learning 最优化方法之Nesterov(牛顿动量)

二.自适应参数的优化算法

这类算法最大的特点就是，每个参数有不同的学习率，在整个学习过程中自动适应这些学习率。

2.1AdaGrad

学习率逐参数的除以历史梯度平方和的平方根，使得每个参数的学习率不同
详见Deep Learning 最优化方法之AdaGrad

2.2RMSProp

AdaGrad算法的改进。
历史梯度平方和—>指数衰减的移动平均,以此丢弃遥远的过去历史。
详见Deep Learning 最优化方法之RMSProp

2.3Adam

Adam算法可以看做是修正后的Momentum+RMSProp算法
详见Deep Learning 最优化方法之Adam

三.二阶近似的优化算法

二阶近似作为早期处理神经网络的方法，在此并不另起blog展开细讲。

3.1牛顿法

牛顿法是基于二阶泰勒级数展开在某点附近来近似损失函数的优化方法。主要需要求得Hessian矩阵的逆。如果参数个数是k,则计算你所需的时间是O(k^3)由于在神经网络中参数个数往往是巨大的，因此牛顿法计算法消耗时间巨大。

具体更新公式如下：

3.2共轭梯度法

共轭梯度（CG）是通过迭代下降的共轭方向（conjugate directions）以有效避免Hessian 矩阵求逆计算的方法。

3.3BFGS

Broyden-Fletcher-Goldfarb-Shanno（BFGS）算法具有牛顿法的一些优点，但没有牛顿法的计算负担。在这方面，BFGS和CG 很像。然而，BFGS使用了一个更直接的方法近似牛顿更新。用矩阵Mt 近似逆，迭代地低秩更新精度以更好地近似Hessian的逆。

3.4L-BFGS

存储受限的BFGS(L-BFGS)通过避免存储完整的Hessian 逆的近似矩阵M，使得BFGS算法的存储代价显著降低。L-BFGS算法使用和BFGS算法相同的方法计算M的近似，但起始假设是M^(t-1) 是单位矩阵，而不是一步一步都要存储近似。

Deep Learning 之最优化方法的更多相关文章

中文译文：Minerva-一种可扩展的高效的深度学习训练平台（Minerva - A Scalable and Highly Efficient Training Platform for Deep Learning）
Minerva:一个可扩展的高效的深度学习训练平台 zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouwan 2015-12-1 声明 ...
Deep learning：五十一(CNN的反向求导及练习)
前言: CNN作为DL中最成功的模型之一,有必要对其更进一步研究它.虽然在前面的博文Stacked CNN简单介绍中有大概介绍过CNN的使用,不过那是有个前提的:CNN中的参数必须已提前学习好.而本文 ...
【深度学习Deep Learning】资料大全
最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books by Yoshua Bengio, Ian Goodfellow and Aaron C ...
《Neural Network and Deep Learning》_chapter4
<Neural Network and Deep Learning>_chapter4: A visual proof that neural nets can compute any f ...
Deep Learning模型之：CNN卷积神经网络（一）深度解析CNN
http://m.blog.csdn.net/blog/wu010555688/24487301 本文整理了网上几位大牛的博客,详细地讲解了CNN的基础结构与核心思想,欢迎交流. [1]Deep le ...
paper 124：【转载】无监督特征学习——Unsupervised feature learning and deep learning
来源:http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio c ...
Deep Learning 26：读论文“Maxout Networks”——ICML 2013
论文Maxout Networks实际上非常简单,只是发现一种新的激活函数(叫maxout)而已,跟relu有点类似,relu使用的max(x,0)是对每个通道的特征图的每一个单元执行的与0比较最大化 ...
Deep Learning 23：dropout理解_之读论文“Improving neural networks by preventing co-adaptation of feature detectors”
理论知识:Deep learning:四十一(Dropout简单理解).深度学习(二十二)Dropout浅层理解与实现.“Improving neural networks by preventing ...
Deep Learning 19_深度学习UFLDL教程：Convolutional Neural Network_Exercise（斯坦福大学深度学习教程）
理论知识:Optimization: Stochastic Gradient Descent和Convolutional Neural Network CNN卷积神经网络推导和实现.Deep lear ...

随机推荐

Android（java）学习笔记51：ScrollView用法
1. 理论部分 (1)ScrollView和HorizontalScrollView是为控件或者布局添加滚动条 (2)上述两个控件只能有一个孩子,但是它并不是传统意义上的容器 (3)上述两个控件可以互 ...
ACM-ICPC (10/19)
这两天在看虚树,的确很难理解. 不过大致的思路就是说删掉一些没有用的点,但是仍然保持树的相对结构,树上只有两种点,一个是集合点,和一些LCA,这些LCA是为了保持树的相对结构,才留下的. 具体做法网上 ...
PHP设计模式——适配器模式
<?php /** * 适配器模式 * 适配器模式是将某个对象的接口适配为另一个对象所期望的接口 * * 在需要转化一个对象的接口用于另一个对象时,最好实现适配器模式对象 */ class We ...
java(IO)读写文件乱码转换UTF-8问题
java(IO)读写文件乱码转换UTF-8问题读取文件 String Content = ""; // 文件很长的话建议使用StringBuffer try { FileInpu ...
js中实现页面跳转（返回前一页、后一页）
一:JS 重载页面,本地刷新,返回上一页代码如下: <a href="javascript:history.go(-1)">返回上一页</a> <a ...
Spring知识点总结(二)之Spring IOC
1.创建bean类,并在spring中进行配置交由spring来管理1. IOC(DI) - 控制反转(依赖注入) 所谓的IOC称之为控制反转,简单来说就是将对象的创建的权利及对象的生命周期的管 ...
springboot缓存的使用
spring针对各种缓存实现,抽象出了CacheManager接口,用户使用该接口处理缓存,而无需关心底层实现.并且也可以方便的更改缓存的具体实现,而不用修改业务代码.下面对于在springboot中 ...
第13届景驰-埃森哲杯广东工业大学ACM程序设计大赛--E-回旋星空
链接:https://www.nowcoder.com/acm/contest/90/E 来源:牛客网 1.题目描述曾经有两个来自吉尔尼斯的人(A和C)恋爱了,他们晚上经常在一起看头上的那片名为假的 ...
转：java23种设计模式
以下是学习过程中查询的资料,别人总结的资料,比较容易理解(站在各位巨人的肩膀上,望博主勿究) 概述设计模式是针对某一类问题的最优解决方案,是从许多优秀的软件系统中总结出的. Java中设计模式(ja ...
jQuery 切换图片（图标）效果
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

Deep Learning 之 最优化方法

Deep Learning 之 最优化方法

一.最基本的优化算法

1.1SGD

1.2Momentum（动量）

1.3Nesterov(牛顿动量)

二.自适应参数的优化算法

2.1AdaGrad

2.2RMSProp

2.3Adam

三.二阶近似的优化算法

3.1牛顿法

3.2共轭梯度法

3.3BFGS

3.4L-BFGS

Deep Learning 之 最优化方法的更多相关文章

随机推荐

热门专题

Deep Learning 之最优化方法

Deep Learning 之最优化方法

Deep Learning 之最优化方法的更多相关文章