机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

2024-11-02 02:36:42 原文

有关各种优化算法的详细算法流程和公式可以参考【这篇blog】，讲解比较清晰，这里说一下自己对他们之间关系的理解。

BGD 与 SGD

首先，最简单的 BGD 以整个训练集的梯度和作为更新方向，缺点是速度慢，一个 epoch 只能更新一次模型参数。

SGD 就是用来解决这个问题的，以每个样本的梯度作为更新方向，更新次数更频繁。但有两个缺点：

更新方向不稳定、波动很大。因为单个样本有很大的随机性，单样本的梯度不能指示参数优化的大方向。
所有参数的学习率相同，这并不合理，因为有些参数不需要频繁变化，而有些参数则需要频繁学习改进。

第一个问题

Mini-batch SGD 和 Momentum 算法做出的改进主要是用来解决第一个问题。

Mini-batch SGD 算法使用一小批样本的梯度和作为更新方向，有效地稳定了更新方向。

Momentum 算法则设置了动量（momentum）的概念，可以理解为惯性，使当前梯度小幅影响优化方向，而不是完全决定优化方向。也起到了减小波动的效果。

第二个问题

AdaGrad 算法做出的改进用来解决第二个问题，其记录了每个参数的历史梯度平方和（平方是 element-wise 的），并以此表征每个参数变化的剧烈程度，继而自适应地为变化剧烈的参数选择更小的学习率。

但 AdaGrad 有一个缺点，即随着时间的累积每个参数的历史梯度平方和都会变得巨大，使得所有参数的学习率都急剧缩小。

RMSProp 算法解决了这个问题，其采用了一种递推递减的形式来记录历史梯度平方和，可以观察其表达式：早期的历史梯度平方和会逐渐失去影响力，系数逐渐衰减。

Adam

简单来讲 Adam 算法就是综合了 Momentum 和 RMSProp 的一种算法，其既记录了历史梯度均值作为动量，又考虑了历史梯度平方和实现各个参数的学习率自适应调整，解决了 SGD 的上述两个问题。

机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）的更多相关文章

优化深度神经网络（二）优化算法 SGD Momentum RMSprop Adam
Coursera吴恩达<优化深度神经网络>课程笔记(2)-- 优化算法深度机器学习中的batch的大小深度机器学习中的batch的大小对学习效果有何影响? 1. Mini-batch ...
详解Oracle数据货场中三种优化：分区、维度和物化视图
转 xiewmang 新浪博客本文主要介绍了Oracle数据货场中的三种优化:对分区的优化.维度优化和物化视图的优化,并给出了详细的优化代码,希望对您有所帮助. 我们在做数据库的项目时,对数据货场的 ...
zz：一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
首先定义:待优化参数: ,目标函数: ,初始学习率 . 而后,开始进行迭代优化.在每个epoch : 计算目标函数关于当前参数的梯度: 根据历史梯度计算一阶动量和二阶动量:, 计算当前时刻的下降 ...
一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着 ...
优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW，LazyAdam)
优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW,LazyAdam) 2019年05月29日 01:07:50 糖葫芦君阅读数 455更多 ...
深度学习笔记：优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)
深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam) 深度学习笔记(一):logistic分类深度学习笔记(二):简单神经网络,后向传播算法及实现 ...
java开发过程中几种常用算法
排序算法排序算法中包括:简单排序.高级排序简单排序简单排序常用的有:冒泡排序.选择排序.插入排序冒泡排序代码如下: private static void bubbleSrot(int[] a ...
Caffe源码-几种优化算法
SGD简介 caffe中的SGDSolver类中实现了带动量的梯度下降法,其原理如下,\(lr\)为学习率,\(m\)为动量参数. 计算新的动量:history_data = local_rate * ...
各种优化方法总结比较(sgd/momentum/Nesterov/adagrad/adadelta)
前言这里讨论的优化问题指的是,给定目标函数f(x),我们需要找到一组参数x,使得f(x)的值最小. 本文以下内容假设读者已经了解机器学习基本知识,和梯度下降的原理. Batch gradient d ...

随机推荐

Windows：服务已经标记为删除
解决办法: 方法一:运行删除服务项命令的时候,服务管理窗口未关闭,关闭服务管理窗口即可: 方法二:删除服务的注册表项,路径为: HKEY_LOCAL_MACHINE\SYSTEM\CurrentCon ...
Eclipse中Tomcat的配置
1.Window-Preferences-Server-Runtime Environments 2.点击Add,选择相应的Tomcat版本,我的是7.0的所以我选择这个.并勾选Create a ne ...
Linux运维之——每日小技巧，谈进程与线程的区别
线程是进程中执行运算的最小单位,是进程中的一个实体,是被系统独立调度和分派的基本单位,线程自己不拥有系统资源,只拥有一点在运行中必不可少的资源,但它可与同属一个进程的其它线程共享进程所拥有的全部资源. ...
Windows10下python3.5的sklearn库安装
具体安装方法参考https://blog.csdn.net/HYDMonster/article/details/79766086 但是注意的是,http://www.lfd.uci.edu/~goh ...
给SVN设置代理
XP系统在C:\Documents and Settings\Administrator\Application Data\Subversion目录下 win7及以上系统在C:\Users\admin ...
题解 P1034 【矩形覆盖】
题面在平面上有n个点(n≤50),每个点用一对整数坐标表示.例如:当n=4时,4个点的坐标分另为:p1(1,1),p2(2,2),p3(3,6),P4(0,7),见图一. 这些点可以用k个矩形(1≤ ...
CompletionService简讲
背景最近在项目中看到太多后台task中使用Executor框架,提交任务后,把future都一个个加入到list,再一个个get这些future的代码. 这个的问题在于一方面没有时限,可能会被某些运 ...
numpy 的排序
import numpy as np # 1.快速排序 ''' 1.np.sort(),不改变原先值的顺序,但是在运行时占内存 2.ndarry.sort(),改变原先值的顺序,不占用内存 ''' # ...
k8s mongodb 集群配置
service.yaml apiVersion: v1 kind: Service metadata: name: mongo labels: name: mongo spec: ports: - p ...
android 7.0拍照问题file:///storage/emulated/0/photo.jpeg exposed beyond app through ClipData.Item.getUri
Android7.0调用相机时出现新的错误: android.os.FileUriExposedException: file:///storage/emulated/0/photo.jpeg exp ...