梯度下降(HGL)

线性回归：是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

对于一般训练集：

参数系统为：

线性模型为：

损失函数最小的目标就是求解全局最小值，loss函数定义为

目标：min Φ(θ)，loss函数最小。估计最优系数(θ0, θ1, θ2, …, θn)。

1. 梯度下降法(最速下降法)

顾名思义，梯度下降法的计算过程就是沿梯度下降的方向求解极小值。

具体过程如下(如图1所示)：

首先对θ赋值，这个值可以是随机的，也可以让θ是一个全零的向量(初值的选择非常影响梯度下降算法的好与坏)。
改变θ的值，使得Φ(θ)按梯度下降的方向进行减少。

图1 梯度下降描述(来自于斯坦福大学，《机器学习》公开课[2])

过程2)可以表示为：

其中α为步长。

由于我们每进行一次参数更新需要计算整体训练数据的梯度，批量梯度下降会变得很慢，并且会遇到内存吃不下数据就挂了。同时批量梯度下降也无法支持模型的在线更新，例如，新的样本不停的到来。

2. SGD (随机梯度下降算法，Stochastic gradient descent)

在梯度下降中，对于θ的更新，所有的样本都有贡献，也就是参与调整θ，其计算得到的是一个标准梯度。如果数据量非常大，那么运算速度很慢。而随机梯度下降算法的随机也就是说我用样本中的一个例子来近似我所有的样本，来调整θ。这样速度更快，但是更容易陷入局部极小。随机梯度下降算法可以表示为：

每次只选用第i个样本

3. AdaGrad(自适应梯度，Adaptive Gradient)

自适应梯度与SGD类似，AdaGrad的更新速率是可变的。更新速率一定，不一定适合所有的更新阶段。所以AdaGrad调整的是Gradient，对于所有的参数，随着更新的总距离增多，学习速度随之变缓。可以表示为：

其中(θi)t是t步的参数，ε很小，保证非0。

缺点：学习率单调递减，训练后期学习率非常小；需要手动设置全局学习率；更新
θt时，左右两边单位不统一。

参考文献：Duchi, E. Hazan, and Y. Singer. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization

4. AdaDelta

AdaDelta基本思想是用一阶的方法，近似模拟二阶牛顿法，是对AdaGrad的缺点进行改进。可表示为：

？

5. RMSprop

RMSprop和Adadelta是在差不多的时间各自独立产生的工作，目的都是为了缓解Adagrad的学习速率减少的问题。实际上RMSprop和我们在Adadelta中推到的第一个更新向量是相同的：

其中，ρ建议取0.9，α建议取0.001。

6. NAG

这个算法严格的说来是凸优化中的算法，具有O(1/t^2)的收敛率，收敛速度比较快。因为 DNN是一个non-convex的model，所以NAG方法并不能达到这个收敛速度。caffe文档中指出，这个方法对于某些deeplearning 的 architecture是非常有效的。与SGD类似，具体更新过程如下：

7. Adam(个人认为一般都合适的caffe的solver方法)

Adaptive Moment Estimation(Adam) 也是一种不同参数自适应不同学习速率方法，与Adadelta与RMSprop区别在于，它计算历史梯度衰减方式不同，不使用历史平方衰减，其衰减方式类似动量，如下[4]：

Wt与Vt分别是梯度的带权平均和带权有偏方差，初始为0向量，Adam的作者发现他们倾向于0向量(接近于0向量)，特别是在衰减因子(衰减率)ρ1，ρ2接近于1时。为了改进这个问题，对Wt与Vt进行偏差修正(bias-corrected)：

最终，Adam的更新方程为：

[1] http://www.cnblogs.com/denny402/

[2] http://open.163.com/movie/2008/1/M/C/M6SGF6VB4_M6SGHFBMC.html

[3] http://blog.sina.com.cn/s/blog_eb3aea990102v41r.html

[4] http://blog.csdn.net/heyongluoyao8/article/details/52478715?locationNum=7

梯度下降(HGL)的更多相关文章

梯度下降（Gradient Descent）小结
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法.这里就对梯度下降法做一个完整的总结. 1. 梯度在微 ...
从梯度下降到Fista
前言: FISTA(A fast iterative shrinkage-thresholding algorithm)是一种快速的迭代阈值收缩算法(ISTA).FISTA和ISTA都是基于梯度下降的 ...
线性回归、梯度下降（Linear Regression、Gradient Descent）
转载请注明出自BYRans博客:http://www.cnblogs.com/BYRans/ 实例首先举个例子,假设我们有一个二手房交易记录的数据集,已知房屋面积.卧室数量和房屋的交易价格,如下表: ...
随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比[转]
梯度下降(GD)是最小化风险函数.损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正. 下面的h(x)是要拟 ...
为什么是梯度下降？SGD
在机器学习算法中,为了优化损失函数loss function ,我们往往采用梯度下降算法来进行优化.举个例子: 线性SVM的得分函数和损失函数分别为: ...
Stanford大学机器学习公开课（二）：监督学习应用与梯度下降
本课内容: 1.线性回归 2.梯度下降 3.正规方程组监督学习:告诉算法每个样本的正确答案,学习后的算法对新的输入也能输入正确的答案 1.线性回归问题引入:假设有一房屋销售的数据如下: 引 ...
Matlab梯度下降解决评分矩阵分解
for iter = 1:num_iters %梯度下降用户向量 for i = 1:m %返回有0有1 是逻辑值 ratedIndex1 = R_training(i,:)~=0 ; %U(i,: ...
机器学习（一）：梯度下降、神经网络、BP神经网络
这几天围绕论文A Neural Probability Language Model 看了一些周边资料,如神经网络.梯度下降算法,然后顺便又延伸温习了一下线性代数.概率论以及求导.总的来说,学到不少知 ...
梯度下降之随机梯度下降 -minibatch 与并行化方法
问题的引入: 考虑一个典型的有监督机器学习问题,给定m个训练样本S={x(i),y(i)},通过经验风险最小化来得到一组权值w,则现在对于整个训练集待优化目标函数为: 其中为单个训练样本(x(i),y ...

随机推荐

（Frontend Newbie）Web简史
前段时间在微博上看到有人问,前端这几年发展这么迅猛,各种新技术.新框架层出不穷,我们究竟怎么学习这些新技术才能跟得上脚步,毕竟精力有限,逐个学习不现实.个人认为,没有太大的必要去追逐那些新潮的技术.原 ...
Iterator遍历（遍历集合）
迭代器(Iterator) 迭代器是一种设计模式,它是一个对象,它可以遍历并选择序列中的对象,而开发人员不需要了解该序列的底层结构.迭代器通常被称为“轻量级”对象,因为创建它的代价小. Java中的I ...
Linux 上安装 weblogic12C （远程图形界面安装） (二)
上一篇Linux 上安装 weblogic12C (静默安装)介绍了静默方式安装weblogic12C的方式,这一篇主要介绍在windows主机上通过远程图形界面的方式安装weblogic的方式一. ...
[openStack]使用Fuel安装OpenStack juno的fuel_master
安装OpenStack是一件很复杂的事情,特别是在想目中,如果一个组件一个组件,一台一台的coding部署,估计太消耗时间,而且出错的概率很高,所以使用工具推送部署的效率就很高了,而且必须得可靠.mi ...
java中static方法的继承性
首先需要知道的是,java中所有的public实例方法都默认是virtual的,static方法不是virtual的,所以static方法可以被覆盖(new),但不可被重写(override) 1.被 ...
【转】CentOS6下安装mysql后，重置root密码方法
本文转自:CentOS6下安装mysql后,重置root密码方法 centos下安装mysql,居然不知道root用户密码,本想重装,不过还是先度娘了一些,发现这篇文章,刚好解决我的燃眉之急,太赞了. ...
javascript遍历表
定义表结构 1. 通过id遍历 <html> <body> <table id="tb" border="1"> <t ...
topN问题
topN问题:给出一个数组,找出前N个最大的元素. topN问题可以用分治法解决,这个问题与快速排序类似,快速排序是用一个数对数组进行划分,topN问题则不需完成排序,只需划分出前n个最大的数字即可. ...
Java自定义注解源码+原理解释（使用Java自定义注解校验bean传入参数合法性）
Java自定义注解源码+原理解释(使用Java自定义注解校验bean传入参数合法性) 前言:由于前段时间忙于写接口,在接口中需要做很多的参数校验,本着简洁.高效的原则,便写了这个小工具供自己使用(内容 ...
SpringSecurity 3.2入门（3）单用户登录
1.增加web.xml文件配置如下 <!-- 获取Spring Security session的生命周期,这个监听器会在 session 创建和销毁的时候通知 Spring Security ...

梯度下降(HGL)

梯度下降(HGL)的更多相关文章

随机推荐

热门专题