机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）

2024-11-02 02:36:42 原文

有关各种优化算法的详细算法流程和公式可以参考【这篇blog】，讲解比较清晰，这里说一下自己对他们之间关系的理解。

BGD 与 SGD

首先，最简单的 BGD 以整个训练集的梯度和作为更新方向，缺点是速度慢，一个 epoch 只能更新一次模型参数。

SGD 就是用来解决这个问题的，以每个样本的梯度作为更新方向，更新次数更频繁。但有两个缺点：

更新方向不稳定、波动很大。因为单个样本有很大的随机性，单样本的梯度不能指示参数优化的大方向。
所有参数的学习率相同，这并不合理，因为有些参数不需要频繁变化，而有些参数则需要频繁学习改进。

第一个问题

Mini-batch SGD 和 Momentum 算法做出的改进主要是用来解决第一个问题。

Mini-batch SGD 算法使用一小批样本的梯度和作为更新方向，有效地稳定了更新方向。

Momentum 算法则设置了动量（momentum）的概念，可以理解为惯性，使当前梯度小幅影响优化方向，而不是完全决定优化方向。也起到了减小波动的效果。

第二个问题

AdaGrad 算法做出的改进用来解决第二个问题，其记录了每个参数的历史梯度平方和（平方是 element-wise 的），并以此表征每个参数变化的剧烈程度，继而自适应地为变化剧烈的参数选择更小的学习率。

但 AdaGrad 有一个缺点，即随着时间的累积每个参数的历史梯度平方和都会变得巨大，使得所有参数的学习率都急剧缩小。

RMSProp 算法解决了这个问题，其采用了一种递推递减的形式来记录历史梯度平方和，可以观察其表达式：早期的历史梯度平方和会逐渐失去影响力，系数逐渐衰减。

Adam

简单来讲 Adam 算法就是综合了 Momentum 和 RMSProp 的一种算法，其既记录了历史梯度均值作为动量，又考虑了历史梯度平方和实现各个参数的学习率自适应调整，解决了 SGD 的上述两个问题。

机器学习中几种优化算法的比较（SGD、Momentum、RMSProp、Adam）的更多相关文章

优化深度神经网络（二）优化算法 SGD Momentum RMSprop Adam
Coursera吴恩达<优化深度神经网络>课程笔记(2)-- 优化算法深度机器学习中的batch的大小深度机器学习中的batch的大小对学习效果有何影响? 1. Mini-batch ...
详解Oracle数据货场中三种优化：分区、维度和物化视图
转 xiewmang 新浪博客本文主要介绍了Oracle数据货场中的三种优化:对分区的优化.维度优化和物化视图的优化,并给出了详细的优化代码,希望对您有所帮助. 我们在做数据库的项目时,对数据货场的 ...
zz：一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
首先定义:待优化参数: ,目标函数: ,初始学习率 . 而后,开始进行迭代优化.在每个epoch : 计算目标函数关于当前参数的梯度: 根据历史梯度计算一阶动量和二阶动量:, 计算当前时刻的下降 ...
一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着 ...
优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW，LazyAdam)
优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW,LazyAdam) 2019年05月29日 01:07:50 糖葫芦君阅读数 455更多 ...
深度学习笔记：优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)
深度学习笔记:优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam) 深度学习笔记(一):logistic分类深度学习笔记(二):简单神经网络,后向传播算法及实现 ...
java开发过程中几种常用算法
排序算法排序算法中包括:简单排序.高级排序简单排序简单排序常用的有:冒泡排序.选择排序.插入排序冒泡排序代码如下: private static void bubbleSrot(int[] a ...
Caffe源码-几种优化算法
SGD简介 caffe中的SGDSolver类中实现了带动量的梯度下降法,其原理如下,\(lr\)为学习率,\(m\)为动量参数. 计算新的动量:history_data = local_rate * ...
各种优化方法总结比较(sgd/momentum/Nesterov/adagrad/adadelta)
前言这里讨论的优化问题指的是,给定目标函数f(x),我们需要找到一组参数x,使得f(x)的值最小. 本文以下内容假设读者已经了解机器学习基本知识,和梯度下降的原理. Batch gradient d ...

随机推荐

第二次作业单例模式的SessionFactory以及线程安全的session
单例模式的SessionFactory 在这个工具类Hibernate.java中写一个通过静态代码块生成唯一的SessionFactory,通过一个方法返回一个SessionFactory impo ...
node.js 笔记一
现在地址:http://nodejs.org/download/ 我的机器是windows的,选择的文件是,是编译后的版本:Windows Installer (.msi) 32-bit examp ...
团队作业——Alpha冲刺 9/12
团队作业--Alpha冲刺冲刺任务安排杨光海天今日任务:修复编辑界面与弹窗界面合并中出现的BUG 明日任务:希望完成编辑界面所有接口交互的功能郭剑南今日任务:优化图像预处理所有功能的函数代码 ...
Java中Map根据键值(key)或者值(value)进行排序实现
我们都知道,java中的Map结构是key->value键值对存储的,而且根据Map的特性,同一个Map中不存在两个Key相同的元素,而value不存在这个限制.换句话说,在同一个Map中Ke ...
Excel 怎样去掉单元格中的回车符号
1.同时按下 CTRL+H调出"查找---替换"对话框:2.在查找中输入:按住ALT ,小键盘输入 10 ,然后松开ALT:3.在替换中写入要替换的符号:这样就将回车符换成其他符号 ...
android 实现mqtt消息推送，以及不停断线重连的问题解决
前段时间项目用到mqtt的消息推送,整理一下代码,代码的原型是网上找的,具体哪个地址已经忘记了. 代码的实现是新建了一个MyMqttService,全部功能都在里面实现,包括连服务器,断线重连,订阅消 ...
QGis C++ 开发之图层分类显示
开发环境:Win10 + VS2010 + Qt 4.8.6 + QGis 2.14.4 简单介绍下如何用C++方式实现QGis中图层分类显示的方法. 要实现图层的分类显示主要会用到QgsCatego ...
学习Kali Linux必须知道的几点
Kali Linux 在渗透测试和白帽子方面是业界领先的 Linux 发行版.默认情况下,该发行版附带了大量入侵和渗透的工具和软件,并且在全世界都得到了广泛认可.即使在那些甚至可能不知道 Linux ...
筛选法求N以内的所有素数
素数:一个数只能被1和它本身整除的数.2是最小的素数 #include <iostream> using namespace std; #define NUM 100 ]; int mai ...
Block abstraction view（Create & Reference）
在hierarchical design 中,一般需要调用 hard macro,top调用 macro 的方法有多种: 1. 调用macro对应的db 2. 调用 macro 的 ilm 模型(20 ...