PyTorch－Adam优化算法原理，公式，应用

　　　　概念：Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。Adam 最开始是由 OpenAI 的 Diederik Kingma 和多伦多大学的 Jimmy Ba 在提交到 2015 年 ICLR 论文（Adam: A Method for Stochastic Optimization）中提出的．该算法名为「Adam」，其并不是首字母缩写，也不是人名。它的名称来源于适应性矩估计（adaptive moment estimation）

　　Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。它的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。其公式如下：

　　其中，前两个公式分别是对梯度的一阶矩估计和二阶矩估计，可以看作是对期望E|gt|，E|gt^2|的估计;
公式3，4是对一阶二阶矩估计的校正，这样可以近似为对期望的无偏估计。可以看出，直接对梯度的矩估计对内存没有额外的要求，而且可以根据梯度进行动态调整。最后一项前面部分是对学习率n形成的一个动态约束，而且有明确的范围。

　　优点：

1、结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点;
2、对内存需求较小;
3、为不同的参数计算不同的自适应学习率;
4、也适用于大多非凸优化-适用于大数据集和高维空间。

　　应用和源码：

　　参数实例：

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)

　　参数含义：

　　params(iterable)：可用于迭代优化的参数或者定义参数组的dicts。

　　lr (float, optional) ：学习率(默认: 1e-3) betas (Tuple[float, float], optional)：

　　用于计算梯度的平均和平方的系数(默认: (0.9, 0.999)) eps (float, optional)：

　　为了提高数值稳定性而添加到分母的一个项(默认: 1e-8) weight_decay (float, optional)：权重衰减(如L2惩罚)(默认: 0)

　　torch.optim.adam源码：

 import math

 from .optimizer import Optimizer

 class Adam(Optimizer):

     def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8，weight_decay=0):

         defaults = dict(lr=lr, betas=betas, eps=eps,weight_decay=weight_decay)

         super(Adam, self).__init__(params, defaults)

     def step(self, closure=None):

         loss = None

         if closure is not None:

             loss = closure()

         for group in self.param_groups:

             for p in group['params']:

                 if p.grad is None:

                     continue

                 grad = p.grad.data

                 state = self.state[p]

                 # State initialization

                 if len(state) == 0:

                     state['step'] = 0

                     # Exponential moving average of gradient values

                     state['exp_avg'] = grad.new().resize_as_(grad).zero_()

                     # Exponential moving average of squared gradient values

                     state['exp_avg_sq'] = grad.new().resize_as_(grad).zero_()

                 exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']

                 beta1, beta2 = group['betas']

                 state['step'] += 1

                 if group['weight_decay'] != 0:

                     grad = grad.add(group['weight_decay'], p.data)

                 # Decay the first and second moment running average coefficient

                 exp_avg.mul_(beta1).add_(1 - beta1, grad)

                 exp_avg_sq.mul_(beta2).addcmul_(1 - beta2, grad, grad)

                 denom = exp_avg_sq.sqrt().add_(group['eps'])

                 bias_correction1 = 1 - beta1 ** state['step']

                 bias_correction2 = 1 - beta2 ** state['step']

                 step_size = group['lr'] * math.sqrt(bias_correction2) / bias_correction1

                 p.data.addcdiv_(-step_size, exp_avg, denom)

         return loss

　　使用例子：

 import torch

 # N is batch size; D_in is input dimension;

 # H is hidden dimension; D_out is output dimension.

 N, D_in, H, D_out = 64, 1000, 100, 10

 # Create random Tensors to hold inputs and outputs

 x = torch.randn(N, D_in)

 y = torch.randn(N, D_out)

 # Use the nn package to define our model and loss function.

 model = torch.nn.Sequential(

     torch.nn.Linear(D_in, H),

     torch.nn.ReLU(),

     torch.nn.Linear(H, D_out),

 )

 loss_fn = torch.nn.MSELoss(reduction='sum')

 # Use the optim package to define an Optimizer that will update the weights of

 # the model for us. Here we will use Adam; the optim package contains many other

 # optimization algoriths. The first argument to the Adam constructor tells the

 # optimizer which Tensors it should update.

 learning_rate = 1e-4

 optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

 for t in range(500):

     # Forward pass: compute predicted y by passing x to the model.

     y_pred = model(x)

     # Compute and print loss.

     loss = loss_fn(y_pred, y)

     print(t, loss.item())

     # Before the backward pass, use the optimizer object to zero all of the

     # gradients for the variables it will update (which are the learnable

     # weights of the model). This is because by default, gradients are

     # accumulated in buffers( i.e, not overwritten) whenever .backward()

     # is called. Checkout docs of torch.autograd.backward for more details.

     optimizer.zero_grad()

     # Backward pass: compute gradient of the loss with respect to model

     # parameters

     loss.backward()

     # Calling the step function on an Optimizer makes an update to its

     # parameters

     optimizer.step()

　　到这里，相信对付绝大多数的应用是可以的了．我的目的也就基本完成了．接下来就要在应用中加深理解了．

参考文档：

１　https://blog.csdn.net/kgzhang/article/details/77479737

２　https://pytorch.org/tutorials/beginner/examples_nn/two_layer_net_optim.html

PyTorch－Adam优化算法原理，公式，应用的更多相关文章

Adam优化算法
Question? Adam 算法是什么,它为优化深度学习模型带来了哪些优势? Adam 算法的原理机制是怎么样的,它与相关的 AdaGrad 和 RMSProp 方法有什么区别. Adam 算法应该 ...
跟我学算法-吴恩达老师(mini-batchsize，指数加权平均，Momentum 梯度下降法，RMS prop， Adam 优化算法， Learning rate decay)
1.mini-batch size 表示每次都只筛选一部分作为训练的样本,进行训练,遍历一次样本的次数为(样本数/单次样本数目) 当mini-batch size 的数量通常介于1,m 之间当 ...
[DeeplearningAI笔记]改善深层神经网络_优化算法2.6_2.9Momentum/RMSprop/Adam优化算法
Optimization Algorithms优化算法觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.6 动量梯度下降法(Momentum) 另一种成本函数优化算法,优化速度一般快于标准 ...
深度学习剖根问底: Adam优化算法的由来
在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法? 这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳 ...
神经网络优化算法：Dropout、梯度消失/爆炸、Adam优化算法，一篇就够了！
1. 训练误差和泛化误差机器学习模型在训练数据集和测试数据集上的表现.如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确.这是为什么呢 ...
改善深层神经网络_优化算法_mini-batch梯度下降、指数加权平均、动量梯度下降、RMSprop、Adam优化、学习率衰减
1.mini-batch梯度下降在前面学习向量化时,知道了可以将训练样本横向堆叠,形成一个输入矩阵和对应的输出矩阵: 当数据量不是太大时,这样做当然会充分利用向量化的优点,一次训练中就可以将所有训练 ...
DeepLearning.ai学习笔记（二）改善深层神经网络：超参数调试、正则化以及优化--Week2优化算法
1. Mini-batch梯度下降法介绍假设我们的数据量非常多,达到了500万以上,那么此时如果按照传统的梯度下降算法,那么训练模型所花费的时间将非常巨大,所以我们对数据做如下处理: 如图所示,我 ...
《深度学习-改善深层神经网络》-第二周-优化算法-Andrew Ng
目录 1. Mini-batch gradient descent 1.1 算法原理 1.2 进一步理解Mini-batch gradient descent 1.3 TensorFlow中的梯度下降 ...
Coursera Deep Learning笔记改善深层神经网络：优化算法
笔记:Andrew Ng's Deeping Learning视频摘抄:https://xienaoban.github.io/posts/58457.html 本章介绍了优化算法,让神经网络运行的 ...

随机推荐

CentOS升级OpenSSL至OpenSSL 1.1.0f版本<其中有遇到libcrypto.so的问题>
概述: 整体步骤如下: 1.先检查版本 2.进行安装 <安装采用源码安装,然后再做相关的链接指向> 一.检查当前环境 1. 查看当前版本 openssl version 或者使用 yum ...
为nginx创建windows服务自启动
1.下载最新版的 Windows Service Wrapper 程序,比如我下载的名称是 "winsw-1.9-bin.exe",然后,把它命名成你想要的名字(比如: " ...
python 15 常用模块三 re模块
一.正则模块正则表达式(或 RE)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹 ...
20165213 Exp1 PC平台逆向破解
PC平台逆向破解实验内容 1.了解掌握NOP, JNE, JE, JMP, CMP汇编指令的机器码 NOP:NOP指令即"空指令".执行到NOP指令时,CPU什么也不做,仅仅当做 ...
Gym - 101848B Almost AP 暴力
题目链接:http://codeforces.com/gym/101848/problem/B 给出一串数字要你最多改动三个数字使这一串数字成为等差数列.因为最多改动三个数字所以可以先求出相邻两项的差 ...
PCL-安装
1.安装定期更新维护的PCL开发包. 通过PPA支持的Ubuntu系统,安装命令为: sudo add-apt-repository ppa:v-launched-jochen-sprickerhof ...
JavaWeb(一)-Servlet中的Config和Context
一.ServletConfig对象 1.1获取一个servletConfig对象 1)通过初始化方法获得一个servletconfig 2)通过继承父类(GenericServlet.)得到一个ser ...
第四周助教工作总结——NWNU李泓毅
1. 助教博客链接: https://www.cnblogs.com/NWNU-LHY/ 2. 作业要求链接: www.cnblogs.com/nwnu-daizh/p/10487329. ...
arm 执行交叉编译完成的可执行文件时出现premission denied 问题
我用的tftp传过去的文件然后传完执行的时候出现了premission denied (权限不够)得问题解决方法就是添加权限 chmod 777 filename
理解RNN
摘自:https://zybuluo.com/hanbingtao/note/541458 语言模型就是这样的东西:给定一个一句话前面的部分,预测接下来最有可能的一个词是什么. 语言模型是对一种语言的 ...

PyTorch－Adam优化算法原理，公式，应用

PyTorch－Adam优化算法原理，公式，应用的更多相关文章

随机推荐

热门专题