【转载】梯度的直观理解_谈谈优化算法之一（动量法、Nesterov法、自然梯度法）

Angry_Panda 2024-08-04 21:26:45 原文

原文地址：

https://blog.csdn.net/weixin_34613462/article/details/112333623

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/weixin_34613462/article/details/112333623
————————————————

========================================

-------------------------------------------------------------------

是时候谈谈优化算法了。不管是求解优化目标还是为了调参，只要问题从理论层面上升到实际操作层面，就离不开优化算法。本节讲主要围绕梯度下降（Gradient Descent）算法展开。

动量法(Momentum)

陷入局部最优或在平原部分缓步前行

牛顿动量（Nesterov）算法

自然梯度法（Natural Gradient Descent）

当优化问题的两个坐标轴尺度差异较大时，动量法在更新过程中会出现震荡问题，Nesterov算法给出了初步解决，但这两种方法有一个共性，就是都是从参数的角度去优化模型的，那有没有可能从模型本身角度来考虑呢？——这就是自然梯度法。在强化学习的Natural Actor-Critic算法和TRPO算法中，自然梯度法是强有力的优化工具。

========================================

【转载】梯度的直观理解_谈谈优化算法之一（动量法、Nesterov法、自然梯度法）的更多相关文章

改善深层神经网络_优化算法_mini-batch梯度下降、指数加权平均、动量梯度下降、RMSprop、Adam优化、学习率衰减
1.mini-batch梯度下降在前面学习向量化时,知道了可以将训练样本横向堆叠,形成一个输入矩阵和对应的输出矩阵: 当数据量不是太大时,这样做当然会充分利用向量化的优点,一次训练中就可以将所有训练 ...
zz：一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
首先定义:待优化参数: ,目标函数: ,初始学习率 . 而后,开始进行迭代优化.在每个epoch : 计算目标函数关于当前参数的梯度: 根据历史梯度计算一阶动量和二阶动量:, 计算当前时刻的下降 ...
吴恩达机器学习笔记6-梯度下降II（Gradient descent intuition）--梯度下降的直观理解
在之前的学习中,我们给出了一个数学上关于梯度下降的定义,本次视频我们更深入研究一下,更直观地感受一下这个算法是做什么的,以及梯度下降算法的更新过程有什么意义.梯度下降算法如下: 描述:对
梯度优化算法总结以及solver及train.prototxt中相关参数解释
参考链接:http://sebastianruder.com/optimizing-gradient-descent/ 如果熟悉英文的话,强烈推荐阅读原文,毕竟翻译过程中因为个人理解有限,可能会有谬误 ...
机器学习中正则化项L1和L2的直观理解
正则化(Regularization) 概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数的平方的和的开方值. L0正则化稀疏的参数可以防止 ...
深度学习必备：随机梯度下降（SGD）优化算法及可视化
补充在前:实际上在我使用LSTM为流量基线建模时候,发现有效的激活函数是elu.relu.linear.prelu.leaky_relu.softplus,对应的梯度算法是adam.mom.rmspr ...
[DeeplearningAI笔记]改善深层神经网络_优化算法2.6_2.9Momentum/RMSprop/Adam优化算法
Optimization Algorithms优化算法觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.6 动量梯度下降法(Momentum) 另一种成本函数优化算法,优化速度一般快于标准 ...
[DeeplearningAI笔记]改善深层神经网络_优化算法2.3_2.5_带修正偏差的指数加权平均
Optimization Algorithms优化算法觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.3 指数加权平均举个例子,对于图中英国的温度数据计算移动平均值或者说是移动平均值( ...
多目标优化算法（一）NSGA-Ⅱ（NSGA2）（转载）
多目标优化算法(一)NSGA-Ⅱ(NSGA2) 本文链接:https://blog.csdn.net/qq_40434430/article/details/82876572多目标优化算法(一)NSG ...
梯度优化算法Adam
最近读一个代码发现用了一个梯度更新方法, 刚开始还以为是什么奇奇怪怪的梯度下降法, 最后分析一下是用一阶梯度及其二次幂做的梯度更新.网上搜了一下, 果然就是称为Adam的梯度更新算法, 全称是:自适应 ...

随机推荐

EBLK日志收集方案
ELK 是elastic公司提供的一套完整的日志收集以及展示的解决方案,是三个产品的首字母缩写,分别是ElasticSearch.Logstash 和 Kibana.该组合版本会统一发布. Elast ...
Javascript高级程序设计第四章 | ch4 | 阅读笔记
变量.作用域与内存原始值与引用值什么是字面量形式? let obj = { key1: val1, key2: val2, foo () { } } 这就是字面量形式,手动声明一个对象的属性和方法 ...
Linux 提权-MySQL UDF
本文通过 Google 翻译 MySQL User Defined Functions – Linux Privilege Escalation 这篇文章所产生,本人仅是对机器翻译中部分表达别扭的字词 ...
如何搭建私有的ChatGPT服务
背景是这样的,我们几个朋友众筹共享一个chatGPT4 Plus账号,且不想多人公用一个账号登录使用web版,想大家各自搞个本地的ChatGPT客户端,共用一个api-key. 我找了一圈,决定使用 ...
详解Web应用安全系列(2)注入漏洞之XSS攻击
上一篇介绍了SQL注入漏洞,今天我们来介绍另一个注入漏洞,即XSS跨站脚本攻击.XSS 全称(Cross Site Scripting) 跨站脚本攻击, 是Web应用中常见的漏洞.指攻击者在网页中嵌入 ...
k8s健康检查(探针Probe)之LivenessProbe、ReadinessProbe和StartupProbe
背景集群正常服务时,会出现容器死掉问题,如宿主机故障.资源不足.下游故障等.这个时候容器需要从endpoints摘除(容器挂了就不能接流了),并执行它的restart策略. LivenessProb ...
float与byte[]互相转换
今天想利用socket发送数据,可是float类型该怎么发送呢?我的想法是先转换成byte[]型,接收之后再转换回来. float类型是4个字节,而byte是1个字节,所以需要转换成为byte[]的类 ...
量子算法抛转（以及Oracle函数初步）
接下来要接触量子算法了,我们会看到怎么利用量子并行机制和干涉原理.干涉在算法对结果进行测量求值时举足轻重. Deutsch-Jozsa 算法 DJ算法是量子算法的入门算法,就像编程界的"He ...
SpringBoot 启动时报错Unable to start embedded Tomcat
导读最近公司有个gradle构建的工程,需要改造成maven方式构建(点我直达).转为maven后,启动时一直报tomcat错误,最终排查是因为servlet-api这个包导致的依赖冲突,将这个依赖 ...
Sql Client Show All Conten Of A Field
Terminate the query with \G in place of ; For example: SELECT content_txt FROM sometable\G