Stochastic Gradient Descent收敛判断及收敛速度的控制

　　要判断Stochastic Gradient Descent是否收敛，可以像Batch Gradient Descent一样打印出iteration的次数和Cost的函数关系图，然后判断曲线是否呈现下降且区域某一个下限值的状态。由于训练样本m值很大，而对于每个样本，都会更新一次θ向量（权重向量），因此可以在每次更新θ向量前，计算当时状况下的cost值，然后每1000次迭代后，计算一次average cost的值。然后打印出iteration和cost之间的关系。

1、不同曲线图代表的含义及应对策略

可能会看到的曲线图有如下几种：

情况1

这样的曲线说明算法已经收敛。

如果我们使用小一点的学习率α，那么可能最终会训练到比较好的θ向量（红色线）

但是小的学习率也意味着更长的训练时间。

情况2

如果我们不是1000次迭代计算并打印一次，而是5000次迭代后才计算并打印一次。那么曲线可能会更加平滑一些（绿色线）。

情况3

如果我们得到的曲线（1000次迭代并打印）是波动很剧烈，并且没有显示任何下降趋势，如下图：

那么有两种可能，一噪声太剧烈而无法看出算法收敛的趋势；二算法没有收敛。

这种情况下，我们可以调整打印的步长（比如5000次迭代才计算并打印一次），那么可能会得到两种不同的曲线（如下两幅图所示）。

如果得到得是类似这条红色的曲线，那么说明算法已经收敛或已经表现出收敛的趋势了。如果得到的是如下图所示的绿色的线，说明算法没有收敛。

情况4

还有一种情况，就是曲线不但没有呈现下降的趋势，反而出现了上升的趋势，如下图：

这说明学习率α设置得过大，需要调小学习率。

2、学习率的设置

当学习率比较小的时候，可以训练出更优的权重向量。但是较小的学习率也意味着更长的训练时间，而且如果是非凸问题则还有可能会陷入局部解中。那么，如果使用动态递减的学习率（即在学习开始之初，学习率较大，然后根据迭代次数的增加，学习率逐渐减小）也许会好一些。这样我们可以用一个式子来按照迭代次数调整学习率，例如：

常量1和常量2的目的是为了保证学习率在一个正常的范围内（不至于当循环次数很高或很低时，学习率会变得过大或过小）。

通过调整学习率（手工或如上式自动调整），就可以控制算法收敛的速度。

Reference：

Andrew Ng Stochastic Gradient Descent Convergence (12 min)

Stochastic Gradient Descent收敛判断及收敛速度的控制的更多相关文章

Stochastic Gradient Descent
一.从Multinomial Logistic模型说起 1.Multinomial Logistic 令为维输入向量; 为输出label;(一共k类); 为模型参数向量: Multinomial Lo ...
Stochastic Gradient Descent 随机梯度下降法-R实现
随机梯度下降法 [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 批量梯度下降法在权值更新前对所有样本汇总 ...
几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）
https://blog.csdn.net/u012328159/article/details/80252012 我们在训练神经网络模型时,最常用的就是梯度下降,这篇博客主要介绍下几种梯度下降的变种 ...
FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MINI-BATCH LEARNING. WHAT IS THE DIFFERENCE?
FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MIN ...
机器学习-随机梯度下降（Stochastic gradient descent）
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
基于baseline、svd和stochastic gradient descent的个性化推荐系统
文章主要介绍的是koren 08年发的论文[1], 2.3部分内容(其余部分会陆续补充上来).koren论文中用到netflix 数据集, 过于大, 在普通的pc机上运行时间很长很长.考虑到写文章目 ...
基于baseline和stochastic gradient descent的个性化推荐系统
文章主要介绍的是koren 08年发的论文[1], 2.1 部分内容(其余部分会陆续补充上来). koren论文中用到netflix 数据集, 过于大, 在普通的pc机上运行时间很长很长.考虑到写文 ...
Gradient Descent 和 Stochastic Gradient Descent（随机梯度下降法）
Gradient Descent(Batch Gradient)也就是梯度下降法是一种常用的的寻找局域最小值的方法.其主要思想就是计算当前位置的梯度,取梯度反方向并结合合适步长使其向最小值移动.通过柯 ...
随机梯度下降法（Stochastic gradient descent, SGD）
BGD(Batch gradient descent)批量梯度下降法:每次迭代使用所有的样本(样本量小) Mold 一直在更新 SGD(Stochastic gradientdescent)随机 ...

随机推荐

用html.parser抓网页中的超链接,返回list
#python3 from html.parser import HTMLParser class MyHTMLParser(HTMLParser): """ 1.tag ...
Maven+Nexus+Jenkins+Svn+Tomcat+Sonar搭建持续集成环境
使用Maven+Nexus+Jenkins+Svn+Tomcat+Sonar搭建持续集成环境(一) 2015-01-14 20:28 by 飘扬的红领巾, 4322 阅读, 5 评论, 收藏, 编辑 ...
Ubuntu18.04下希捷移动硬盘Seagate Backup Plus读写慢
去年买的一块Seagate Backup Plus 4TB, 专门用来备份的, 之前在win7下用过几次, 但是在Ubuntu下可能只用过一两次, 今天备份的时候, 感觉写入速度不太正常, 大概只有1 ...
转:Ogre的MaterialSystem分析
1. Mesh .SubMesh.SubEntity和Entity 所有的Mesh对象是由SubMesh构成的,每个SubMesh代表了Mesh对象的一部分,该部分只能使用一种Meterial.如果一 ...
swift类型转换之Could not cast value of type xxx to xxx错误的一种特殊情况记录
之前swift项目打包成Framework静态库,提供给OC项目套入使用时,有时会抱这样一个错误: 这个错误发生的概率比较随机,有时会,有时不会,而且这句话在swift中的使用,是做model类型强制 ...
Java实现多线程的四种实现方式
以计算0到1000之间的和为例 import java.util.ArrayList; import java.util.LinkedList; import java.util.List; impo ...
LVS负载均衡之持久性连接介绍（session篇）
在实际生产环境中,往往需要根据业务应用场景来设置lvs的会话超时时间以及防session连接丢失的问题提,如在业务支付环节,如若session丢失会导致重复扣款问题,严重影响到安全性,本小节解将会讲到 ...
Ubuntu菜鸟入门（十一）—— windows 和 ubuntu时间冲突解决
一.问题原由 Ubuntu和Windows默认的时间管理方式不同,所以双系统发生时间错乱是正常的 Ubuntu默认时间是把BIOS时间当成GMT+0时间,也就是世界标准时,而我国在东八区(GMT+8) ...
openstack neutron 二/三层网络实现
引用声明:https://zhangchenchen.github.io/2017/02/12/neutron-layer2-3-realization-discovry/ 一.概述 Neutron是 ...
.Net Core ORM选择之路，哪个才适合你通用查询类封装之Mongodb篇 Snowflake(雪花算法)的JavaScript实现【开发记录】如何在B/S项目中使用中国天气的实时天气功能【开发记录】微信小游戏开发入门——俄罗斯方块
.Net Core ORM选择之路,哪个才适合你因为老板的一句话公司项目需要迁移到.Net Core ,但是以前同事用的ORM不支持.Net Core 开发过程也遇到了各种坑,插入条数多了也特别 ...

Stochastic Gradient Descent收敛判断及收敛速度的控制

Stochastic Gradient Descent收敛判断及收敛速度的控制的更多相关文章

随机推荐

热门专题