Adam 优化算法

在深度学习的历史上，包括许多知名研究者在内，提出了优化算法，并很好地解决了一些问题，但随后这些优化算法被指出并不能一般化，并不适用于多种神经网络，时间久了，深度学习圈子里的人开始多少有些质疑全新的优化算法，很多人都觉得动量（Momentum）梯度下降法很好用，很难再想出更好的优化算法。所以RMSprop以及Adam优化算法，就是少有的经受住人们考验的两种算法，已被证明适用于不同的深度学习结构，这个算法会毫不犹豫地推荐给，因为很多人都试过，并且用它很好地解决了许多问题。

Adam优化算法基本上就是将Momentum和RMSprop结合在一起，那么来看看如何使用Adam算法。

使用Adam算法，首先要初始化，\(v_{dW} = 0\)，\(S_{dW} =0\)，\(v_{db} = 0\)，\(S_{db} =0\)，在第\(t\)次迭代中，要计算微分，用当前的mini-batch计算\(dW\)，\(db\)，一般会用mini-batch梯度下降法。接下来计算Momentum指数加权平均数，所以\(v_{dW}= \beta_{1}v_{dW} + ( 1 - \beta_{1})dW\)（使用\(\beta_{1}\)，这样就不会跟超参数\(\beta_{2}\)混淆，因为后面RMSprop要用到\(\beta_{2}\)），使用Momentum时肯定会用这个公式，但现在不叫它\(\beta\)，而叫它\(\beta_{1}\)。同样\(v_{db}= \beta_{1}v_{db} + ( 1 -\beta_{1} ){db}\)。

接着用RMSprop进行更新，即用不同的超参数\(\beta_{2}\)，\(S_{dW}=\beta_{2}S_{dW} + ( 1 - \beta_{2}){(dW)}^{2}\)，再说一次，这里是对整个微分\(dW\)进行平方处理，\(S_{db} =\beta_{2}S_{db} + \left( 1 - \beta_{2} \right){(db)}^{2}\)。

相当于Momentum更新了超参数\(\beta_{1}\)，RMSprop更新了超参数\(\beta_{2}\)。一般使用Adam算法的时候，要计算偏差修正，\(v_{dW}^{\text{corrected}}\)，修正也就是在偏差修正之后，

\(v_{dW}^{\text{corrected}}= \frac{v_{dW}}{1 - \beta_{1}^{t}}\)，

同样\(v_{db}^{\text{corrected}} =\frac{v_{db}}{1 -\beta_{1}^{t}}\)，

\(S\)也使用偏差修正，也就是\(S_{dW}^{\text{corrected}} =\frac{S_{dW}}{1 - \beta_{2}^{t}}\)，\(S_{db}^{\text{corrected}} =\frac{S_{db}}{1 - \beta_{2}^{t}}\)。

最后更新权重，所以\(W\)更新后是\(W:= W - \frac{a v_{dW}^{\text{corrected}}}{\sqrt{S_{dW}^{\text{corrected}}} +\varepsilon}\)（如果只是用Momentum，使用\(v_{dW}\)或者修正后的\(v_{dW}\)，但现在加入了RMSprop的部分，所以要除以修正后\(S_{dW}\)的平方根加上\(\varepsilon\)）。

根据类似的公式更新\(b\)值，\(b:=b - \frac{\alpha v_{\text{db}}^{\text{corrected}}}{\sqrt{S_{\text{db}}^{\text{corrected}}} +\varepsilon}\)。

所以Adam算法结合了Momentum和RMSprop梯度下降法，并且是一种极其常用的学习算法，被证明能有效适用于不同神经网络，适用于广泛的结构。

本算法中有很多超参数，超参数学习率\(a\)很重要，也经常需要调试，可以尝试一系列值，然后看哪个有效。\(\beta_{1}\)常用的缺省值为0.9，这是dW的移动平均数，也就是\(dW\)的加权平均数，这是Momentum涉及的项。至于超参数\(\beta_{2}\)，Adam论文作者，也就是Adam算法的发明者，推荐使用0.999，这是在计算\({(dW)}^{2}\)以及\({(db)}^{2}\)的移动加权平均值，关于\(\varepsilon\)的选择其实没那么重要，Adam论文的作者建议\(\varepsilon\)为\(10^{-8}\)，但并不需要设置它，因为它并不会影响算法表现。但是在使用Adam的时候，人们往往使用缺省值即可，\(\beta_{1}\)，\(\beta_{2}\)和\(\varepsilon\)都是如此，觉得没人会去调整\(\varepsilon\)，然后尝试不同的\(a\)值，看看哪个效果最好。也可以调整\(\beta_{1}\)和\(\beta_{2}\)，但认识的业内人士很少这么干。

为什么这个算法叫做Adam？Adam代表的是Adaptive Moment Estimation，\(\beta_{1}\)用于计算这个微分（\(dW\)），叫做第一矩，\(\beta_{2}\)用来计算平方数的指数加权平均数（\({(dW)}^{2}\)），叫做第二矩，所以Adam的名字由此而来，但是大家都简称Adam权威算法。

这就是关于Adam优化算法的全部内容，有了它，可以更加快速地训练神经网络。

神经网络优化篇：详解Adam 优化算法(Adam optimization algorithm)的更多相关文章

【机器学习详解】SMO算法剖析（转载）
[机器学习详解]SMO算法剖析转载请注明出处:http://blog.csdn.net/luoshixian099/article/details/51227754 CSDN−勿在浮沙筑高台本文力 ...
走向DBA[MSSQL篇] 详解游标
原文:走向DBA[MSSQL篇] 详解游标前篇回顾:上一篇虫子介绍了一些不常用的数据过滤方式,本篇详细介绍下游标. 概念简单点说游标的作用就是存储一个结果集,并根据语法将这个结果集的数据逐条处理. ...
PHP函数篇详解十进制、二进制、八进制和十六进制转换函数说明
PHP函数篇详解十进制.二进制.八进制和十六进制转换函数说明作者: 字体:[增加减小] 类型:转载中文字符编码研究系列第一期,PHP函数篇详解十进制.二进制.八进制和十六进制互相转换函数说明 ...
Adam优化算法
Question? Adam 算法是什么,它为优化深度学习模型带来了哪些优势? Adam 算法的原理机制是怎么样的,它与相关的 AdaGrad 和 RMSProp 方法有什么区别. Adam 算法应该 ...
JS中的函数节流throttle详解和优化
JS中的函数节流throttle详解和优化在前端开发中,有时会为页面绑定resize事件,或者为一个页面元素绑定拖拽事件(mousemove),这种事件有一个特点,在一个正常的操作中,有可能在一个短的 ...
Scala进阶之路-Scala函数篇详解
Scala进阶之路-Scala函数篇详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.传值调用和传名调用 /* @author :yinzhengjie Blog:http: ...
my.cnf 详解与优化【转】
MySQL配置文件my.cnf 例子最详细翻译,可以保存做笔记用. #BEGIN CONFIG INFO#DESCR: 4GB RAM, 只使用InnoDB, ACID, 少量的连接, 队列负载大#T ...
apache配置文件详解与优化
apache配置文件详解与优化一.总结一句话总结:结合apache配置文件中的英文说明和配置详解一起看 1.apache模块配置用的什么标签? IfModule 例如: <IfModule ...
跟我学算法-吴恩达老师(mini-batchsize，指数加权平均，Momentum 梯度下降法，RMS prop， Adam 优化算法， Learning rate decay)
1.mini-batch size 表示每次都只筛选一部分作为训练的样本,进行训练,遍历一次样本的次数为(样本数/单次样本数目) 当mini-batch size 的数量通常介于1,m 之间当 ...
tomcat常用配置详解和优化方法
tomcat常用配置详解和优化方法参考: http://blog.csdn.net/zj52hm/article/details/51980194 http://blog.csdn.net/wuli ...

随机推荐

用元编程来判断STL类型
在此之前,先来回顾元编程当中的一个重要概念. template<typename _Tp, _Tp __v> struct integral_constant { static con ...
C++学习笔记二：变量与数据类型（整型）
1.int(整型数据): 1.1 进制的表示:十进制,八进制,16进制,二进制 int number1 = 15; // Decimal int number2 = 017; // Octal int ...
bash shell笔记整理——basename和dirname命令
bashname命令作用去掉给定name的目录部分,如果指定了 SUFFIX, 就同时去掉SUFFIX(后缀).具体看示例吧. bashname语法 Usage: basename NAME [S ...
Next.js 开发指南路由篇 | App Router
前言路由(routers)是应用的重要组成部分.所谓路由,有多种定义,对于应用层的单页应用程序而言,路由是一个决定 URL 如何呈现的库,在服务层实现 API 时,路由是解析请求并将请求定向到处理程 ...
斯坦福课程 UE4 C++ ActionRoguelike游戏实例教程 0.绪论
前言 UE C++在国内目前还处于比较新的一个领域,网上能找到的教程多为蓝图教程,且质量良莠不齐.终于在B站找到了外网搬运的斯坦福UE C++课程,目前看下来是一个完整的ARPG游戏实例教学,对于入门 ...
Python 潮流周刊第 35 期（摘要）
本周刊由 Python猫出品,精心筛选国内外的 250+ 信息源,为你挑选最值得分享的文章.教程.开源项目.软件工具.播客和视频.热门话题等内容.愿景:帮助所有读者精进 Python 技术,并增长职 ...
Vue 2 和 Vue 3 中 toRefs的区别
摘要:本文将介绍 Vue 2 和 Vue 3 中 toRefs 函数的不同用法和行为,并解释其在各个版本中的作用. 正文: Vue 是一款流行的 JavaScript 框架,用于构建用户界面.在 Vu ...
文心一言 VS 讯飞星火 VS chatgpt （45）-- 算法导论6.1 3题
三.证明:在最大堆的任一子树中,该子树所包含的最大元素在该子树的根结点上. 文心一言: 在最大堆中,根结点是整个堆中最大元素的孩子,因此它包含的最大元素是在该子树的根结点上. 我们可以通过递归的方式证 ...
文心一言 VS 讯飞星火 VS chatgpt （40）-- 算法导论5.4 4题
四.一次聚会需要邀请多少人,才能让其中 3 人的生日很可能相同? 文心一言: 为了解决这个问题,我们需要先计算出所有可能的生日组合数,然后计算出其中生日相同的组合数. 已知需要邀请的人数为:23人根 ...
文心一言 VS 讯飞星火 VS chatgpt （37）-- 算法导论5.4 1题
一.一个屋子里必须要有多少人,才能让某人和你生日相同的概率至少为1/2? 必须要有多少人,才能让至少两个人生日为 7月 4 日的概率大于 1/2? 文心一言: 一个屋子里必须要有多少人,才能让某人和你 ...

神经网络优化篇：详解Adam 优化算法(Adam optimization algorithm)

Adam 优化算法

神经网络优化篇：详解Adam 优化算法(Adam optimization algorithm)的更多相关文章

随机推荐

热门专题