Gradient Optimization

Gradient Descent

Batch Gradient Descent
Mini-Batch Gradient Descent
Stochastic Gradient Descent

Mini-Batch Gradient Descent

参数
- Mini-Batch Size: 一个Batch样本所含的样本数
参数效果
- 通过设置Mini-Batch Size可以将Mini-Batch转为Stochastic Gradient Descent和Bath Gradient Descent
- 当Mini-Batch Size == m时, Mini-Batch Gradient Descent为Batch Gradient Descent; 当Mini-Batch Size == 1时, Mini-Batch Gradient Descent为Stochastic Gradient Descent; 一般Mini-Batch Size的大小为2的幂次方, 主要考虑到与计算机内存对齐, 一般Mini-Batch Size设置在64-512
特点对比
- Batch Gradient Descent: 当数据量大的时候程序运行很慢
- Stochastic Gradient Descent: 一般不采用此方法, 因为此Gradient Descent方法每迭代一个样本就会更新参数$W$和$b$, 在梯度下降的时候有很多噪音; 但是它可以应用到在线学习上
- Mini-Batch Gradient Descent: 当数据量较大的时候可以加快收敛速度, 但是当在梯度下降的时候, 容易产生震荡(oscillate), 如图
- 其中, +表示$J_{min}$, 在使用Mini-Batch Gradient Descent的时候, 容易在数值方向产生震荡, 我们期望的是缩小竖直方向上的震荡, 在水平方向上加快收敛的速率, 对于这个问题, 解决方案是在Update Parameters的时候, 采用Momentum, RMSProp或者Adam的方法更新参数$W$和$b$, 在下面就会提到

处理震荡

指数权重均值(Exponentially Weighted Average, 简称EMA), 后面的Momentum, RMSProp和Adam都需要EMA
- 以一年的中所有天数的温度为例, 如图
- 由上图可知, $\theta$为气温, $t$为天数, 总体来说中间时刻气温低一点, 两侧高一点
- 定义
  - $v_t=\beta{v_{t-1}}+(1-\beta)\theta_t$, 其中$\beta$为EMA中的一个参数, 一般他的取值范围在$0.9\le \beta \le 0.99$; $v_t$表示的就是EMA; $\theta_t$为第$t$天的气温; $\beta{v_t}$表示的是前$t$天的关注度, 后面的$(1-\beta)\theta_t$是对当前天气温的关注度, 最左侧的$v_t$才是我们对当前天的EMA; EMA公式有递归的感觉
Momentum
- 公式
  - $v_{dW^{[l]}}=\beta{v_{dW^{[l]}}}+(1-\beta)dW^{[l]}$, 其中, $dW^{[l]}$是第$l$层的梯度矩阵, 其他与EMA中的是一样的
  - 返现与EMA中不同的是这里的$\beta{v_{dW^{[l]}}}$不是$\beta{v_{dW^{[l-1]}}}$, 因为我们在实现该算法的时候采用先默认赋予0值, 再在每一次迭代时累加, 下面的RMSProp和Adam也是如此
- 更新参数
  - $W^{[l]}=W^{[l]}-\alpha{v_{dW^{[l]}}}$
RMSProp
- 公式
  - $s_{dW^{[l]}}=\beta{v_{dW^{[l]}}}+(1-\beta)(dW^{[l]})^2$, 其中, 与Momentum不同的就是此处$(dW^{[l]})^2$
- 更新参数
  - $W^{[l]}=W^{[l]}-\alpha{dW^{[l]}\over{\sqrt{s_{dW^{[l]}}+\epsilon}}}$, 其中$\epsilon \approx 10^{-8}$
Adam
- Adam算法是Momentum与RMSProp的结合
- 公式
  - $v_{dW^{[l]}}=\beta_1{v_{dW^{[l]}}}+(1-\beta_1)dW^{[l]}$
  - $v^{correct}_{dW^{[l]}}={v_{dW^{[l]}}\over{1-(\beta_1)^t}}$, 其中t表示深度学习算法迭代到第t次, 这一步是$v_{dW^{[l]}}$的修正, 在后面即使使用$v^{correct}_{dW^{[l]}}$
  - $s_{dW^{[l]}}=\beta_2{v_dW^{[l]}}+(1-\beta_1)(dW^{[l]})^2$
  - $s^{correct}_{dW^{[l]}}={s_{dW^{[l]}}}\over{1-(\beta_2)^t}$,其中t表示深度学习算法迭代到第t次, 这一步是$s_{dW^{[l]}}$的修正, 在后面即使使用$s^{correct}_{dW^{[l]}}$
- Adam结合了之前的Momentum与RMSProp算法, 同时增加了校正EMA的步骤, 因为在Momentum和RMSProp算法都有$\beta$和$s$, 所有在这里为了区分, 使用了$v$与$s$, $\beta_1$与$\beta_2$
- 更新参数
  - $W^{[l]}=W^{[l]}-\alpha{v_{dW^{[l]}}^{[l]}\over{\sqrt{s_{dW^{[l]}}+\epsilon}}}$, 其中$\epsilon \approx 10^{-8}$

使用代码实现的大致思路

选择Mini-Batch Gradient Descent
Shuffle原始数据
选择Mini-Batch Size进行Gradient Descent
在迭代Update Parameters时, 先为Momentum, RMSProp或者Adam需要的$v$, $s$变量赋予0值, 维度与对应的$dW$一致
迭代即可

学习率$\alpha$的衰减

一般来说我们只需要直接固定$\alpha$的值, 随后根据结果进行调整, 但是在数据量很大的时候就会比较浪费时间, 于是使用到了$alpha$的衰减
定义
- $\alpha={1\over{1+decay\_rate\times{epoch}}}\alpha_0$

Gradient Optimization的更多相关文章

( 转) Awesome Image Captioning
Awesome Image Captioning 2018-12-03 19:19:56 From: https://github.com/zhjohnchan/awesome-image-capti ...
ICCV 2017论文分析（文本分析）标题词频分析这算不算大数据第一步：数据清洗（删除作者和无用的页码）
IEEE International Conference on Computer Vision, ICCV 2017, Venice, Italy, October 22-29, 2017. IEE ...
近年Recsys论文
2015年~2017年SIGIR,SIGKDD,ICML三大会议的Recsys论文: [转载请注明出处:https://www.cnblogs.com/shenxiaolin/p/8321722.ht ...
SciPy和Numpy处理能力
1.SciPy和Numpy的处理能力: numpy的处理能力包括: a powerful N-dimensional array object N维数组: advanced array slicing ...
[CS231n-CNN] Training Neural Networks Part 1 : activation functions, weight initialization, gradient flow, batch normalization | babysitting the learning process, hyperparameter optimization
课程主页:http://cs231n.stanford.edu/ Introduction to neural networks -Training Neural Network ________ ...
(转) An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms Table of contents: Gradient descent variants ...
An overview of gradient descent optimization algorithms
原文地址:An overview of gradient descent optimization algorithms An overview of gradient descent optimiz ...
【论文翻译】An overiview of gradient descent optimization algorithms
这篇论文最早是一篇2016年1月16日发表在Sebastian Ruder的博客.本文主要工作是对这篇论文与李宏毅课程相关的核心部分进行翻译. 论文全文翻译: An overview of gradi ...
[CS231n-CNN] Linear classification II, Higher-level representations, image features, Optimization, stochastic gradient descent
课程主页:http://cs231n.stanford.edu/ loss function: -Multiclass SVM loss: 表示实际应该属于的类别的score.因此,可以发现,如果实际 ...

随机推荐

jquery库与其他库冲突的问题解决-jquery.noConflict()
在使用jQuery开发的时候,可能还会使用到其他的JS库,比如Prototype,但多库共存时可能会发生冲突:若是发生冲突后,可以通过以下几种方案进行解决: 一. jQuery库在其他库之前导入,直接 ...
Transaction And Lock--由Lookup导致的死锁情况
存在这样情况:1.表TB1有一列建立索引2.事务A对表进行更新,先获取对表的X锁以更新基本表中数据,然后对索引申请X锁以更新索引数据.3.事务B对表进行更新,先获取索引上S锁以使用索引进行Loopup ...
leetcode 存在重复元素
给定一个整数数组,判断是否存在重复元素. 如果任何值在数组中出现至少两次,函数返回 true.如果数组中每个元素都不相同,则返回 false. 示例 1: 输入: [1,2,3,1] 输出: true ...
c# 判断两个集合是否有交集
/// <summary> /// 判断是否有交集 /// </summary> /// <typeparam name="T"></ty ...
Maximum file handles allowed by OS
Linux can open 1024 files concurrently by each process by default: http://m.blog.csdn.net/blog/keepe ...
[国家集训队] tree Ⅱ
bzoj2631(权限题...):链接落咕:链接考察的是LCT维护链上信息. 但是这个题不一样的是又有加法又有乘法...(有木有想到落咕的模板--线段树2qwq) 因为乘法的运算优先度比加法高,所 ...
android 中如何模拟back键
主要是在使用Fragment时能够返回前一级,所以才找到了这些资料. 有两种方式可以实现,直接上代码方法1: public void onBack(){ new Thread(){ public v ...
jquery加载方式，选择器，样式操作
原生js和css不兼容,jquery已经过测试,可放心使用 https://code.jquery.com 这个网站可以下载jquery的源码,比如把源码下载到js文件夹中,文件名为jquery- ...
P3366 (模板)最小生成树
2019-01-30 最小生成树基本算法定义: 给定一个边带权的无向图G=(V,E),n=|V|,m=|E|,由V中全部n个定点和E中n-1条边构成的无向连通子图被称为G的一颗生成树. 边的权值之和 ...
P2046 [NOI2010]海拔平面图转对偶图（最小割-》最短路）
$ \color{#0066ff}{ 题目描述 }$ YT市是一个规划良好的城市,城市被东西向和南北向的主干道划分为n×n个区域.简单起见,可以将YT市看作一个正方形,每一个区域也可看作一个正方形. ...

Gradient Optimization

Gradient Optimization

Gradient Descent

Mini-Batch Gradient Descent

处理震荡

使用代码实现的大致思路

学习率\(\alpha\)的衰减

Gradient Optimization的更多相关文章

随机推荐

热门专题