adam优化

AdaGrad (Adaptive Gradient，自适应梯度)

对每个不同的参数调整不同的学习率，

对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。

gt表示第t时间步的梯度（向量，包含各个参数对应的偏导数，gt,i表示第i个参数t时刻偏导数）

gt2表示第t时间步的梯度平方（向量，由gt各元素自己进行平方运算所得，即Element-wise）

优势：数据稀疏时，能利用稀疏梯度的信息，比标准的SGD算法更有效地收敛。

缺点：母项的对梯度平方不断累积，随之时间步地增加，分母项越来越大，最终导致学习率收缩到太小无法进行有效更新。

Adam更新规则

计算t时间步的梯度：

1.计算梯度的指数移动平均数，m0 初始化为0

β1 系数为指数衰减率，控制权重分配（动量与当前梯度），通常取接近于1的值。默认为0.9

2.计算梯度平方的指数移动平均数，v0初始化为0。

β2 系数为指数衰减率，控制之前的梯度平方的影响情况。默认为0.999

3.由于m0初始化为0，会导致mt偏向于0，对其进行纠正

4.v0初始化为0导致训练初始阶段vt偏向0，对其进行纠正

5.更新参数，其中默认学习率α=0.001ε=10^-8，避免除数变为0。

6.代码

class Adam:

    def __init__(self,loss,weights,lr=0.001,beta1=0.9,beta2=0.999,epislon=1e-8):

        self.loss=loss

        self.theta=weights

        self.lr=lr

        self.beta1=beta1

        self.beta2=beta2

        self.epislon=epislon

        self.get_gradient=grad(loss)

        self.m=0

        self.v=0

        self.t=0

    def minimize_raw(self):

        self.t+=1

        g=self.get_gradient(self.theta)

        self.m=self.beta1*self.m+(1-self.beta1)*g

        self.v=self.beta2*self.v+(1-self.beta2)*(g*g)

        self.m_cat=self.m/(1-self.beta1**self.t)

        self.v_cat=self.v/(1-self.beta2**self.t)

        self.theta-=self.lr*self.m_cat/(self.v_cat**0.5+self.epislon)

        print("step{:4d}  g:{}  lr:{}  m:{}  v:{}  theta{}".format(self.t, g, self.lr, self.m, self.v, self.theta))

    def minimize(self):

        self.t+=1

        g=self.get_gradient(self.theta)

        lr=self.lr*(1-self.beta2**self.t)**0.5/(1-self.beta1**self.t)

        self.m=self.beta1*self.m+(1-self.beta1)*g

        self.v=self.beta2*self.v+(1-self.beta2)*(g*g)

        self.theta-=lr.self.m/(self.v**0.5+self.epislon)

        print("step{:4d}  g:{}  lr:{}  m:{}  v:{}  theta{}".format(self.t, g, lr, self.m, self.v, self.theta))

adam优化的更多相关文章

Adam优化算法
Question? Adam 算法是什么,它为优化深度学习模型带来了哪些优势? Adam 算法的原理机制是怎么样的,它与相关的 AdaGrad 和 RMSProp 方法有什么区别. Adam 算法应该 ...
改善深层神经网络_优化算法_mini-batch梯度下降、指数加权平均、动量梯度下降、RMSprop、Adam优化、学习率衰减
1.mini-batch梯度下降在前面学习向量化时,知道了可以将训练样本横向堆叠,形成一个输入矩阵和对应的输出矩阵: 当数据量不是太大时,这样做当然会充分利用向量化的优点,一次训练中就可以将所有训练 ...
跟我学算法-吴恩达老师(mini-batchsize，指数加权平均，Momentum 梯度下降法，RMS prop， Adam 优化算法， Learning rate decay)
1.mini-batch size 表示每次都只筛选一部分作为训练的样本,进行训练,遍历一次样本的次数为(样本数/单次样本数目) 当mini-batch size 的数量通常介于1,m 之间当 ...
简单认识Adam优化器
转载地址 https://www.jianshu.com/p/aebcaf8af76e 基于随机梯度下降(SGD)的优化算法在科研和工程的很多领域里都是极其核心的.很多理论或工程问题都可以转化为对目标 ...
[DeeplearningAI笔记]改善深层神经网络_优化算法2.6_2.9Momentum/RMSprop/Adam优化算法
Optimization Algorithms优化算法觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.6 动量梯度下降法(Momentum) 另一种成本函数优化算法,优化速度一般快于标准 ...
（五） Keras Adam优化器以及CNN应用于手写识别
视频学习来源 https://www.bilibili.com/video/av40787141?from=search&seid=17003307842787199553 笔记 Adam,常 ...
PyTorch－Adam优化算法原理，公式，应用
概念:Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重.Adam 最开始是由 OpenAI 的 Diederik Kingma 和多伦多大学的 Jim ...
深度学习剖根问底: Adam优化算法的由来
在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法? 这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳 ...
神经网络优化算法：Dropout、梯度消失/爆炸、Adam优化算法，一篇就够了！
1. 训练误差和泛化误差机器学习模型在训练数据集和测试数据集上的表现.如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确.这是为什么呢 ...

随机推荐

SpringBoot 整合Shiro 一指禅
目标了解ApacheShiro是什么,能做什么: 通过QuickStart 代码领会 Shiro的关键概念: 能基于SpringBoot 整合Shiro 实现URL安全访问: 掌握基于注解的方法,以 ...
使用HeapAnalyzer分析内存泄漏
从IBM网站下载ha433包,释放,执行ha433.jar文件 https://www.ibm.com/developerworks/mydeveloperworks/groups/service/h ...
maven 插件的应用
在pom.xml里配置以测试插件介绍为主 <build> <plugins> <plugin> <groupId>org.apache.maven.p ...
目标双站定位仿真C++代码
point-position2 初步完善版. 不再使用eigen库,行列式直接计算得出结果.判断共面异面分别处理. 先提取双站获得图像的匹配特征点,由双站位置信息解析目标位置. // point-po ...
docker镜像和加速
首先,需要明确一个问题:Mirror 与 Private Registry 有什么区别? Private Registry 是开发者或者企业自建的镜像存储库,通常用来保存企业内部的 Docker 镜像 ...
Apache配置文件介绍
一.配置文件存放位置 apache配置文件名为httpd.conf 1.yum安装 yum安装后,apache配置文件httpd.conf存放在目录/etc/httpd/conf下 2.源码编译安装 ...
docker运行haproxy 自动生成配置
#根据参数,shell自动生成haproxy配置 #为方便部署,特意做了个haproxy镜像 #Haproxy run as docker #运行实例 run #!/bin/bash #docker ...
Python子类调用父类内属性的方法
常见的就是初始化方法__init__() python中类的初始化方法是__init__(),因此父类子类的初始化方法都是这个,如果子类不实现这个函数,初始化时调用父类的初始化函数,如果子类实现这个函 ...
Java ——运算符
本节重点思维导图递增递减前缀自增自减法(++a,--a): 先进行自增.减运算,再进行表达式运算后缀自增自减法(a++,a--): 先进行表达式运算,再进行自增.减运算例[1]: int a ...
算法之美&数据结构与算法复习
1.归并两个有序链表(归并排序) 2.最小路径和--BP解法 3.计算int sqrt(x)--二分解法 4.趣味面试题 5.跳步游戏(Jump_Game)--后向回溯算法 6.Excel列号转十进制 ...

adam优化

Adam更新规则

adam优化的更多相关文章

随机推荐

热门专题