batch gradient descent(批量梯度下降) 和 stochastic gradient descent(随机梯度下降)
批量梯度下降是一种对参数的update进行累积,然后批量更新的一种方式。用于在已知整个训练集时的一种训练方式,但对于大规模数据并不合适。
随机梯度下降是一种对参数随着样本训练,一个一个的及时update的方式。常用于大规模训练集,当往往容易收敛到局部最优解。
详细参见:Andrew Ng 的Machine Learning的课件(见参考1)
可能存在的改进
1)样本可靠度,特征完备性的验证
例如可能存在一些outlier,这种outlier可能是测量误差,也有可能是未考虑样本特征,例如有一件衣服色彩评分1分,料子1分,确可以卖到10000万元,原来是上面有一个姚明的签名,这个特征没有考虑,所以出现了训练的误差,识别样本中outlier产生的原因。
2)批量梯度下降方法的改进
3)随机梯度下降方法的改进
找到一个合适的训练路径(学习顺序),去最大可能的找到全局最优解
4)假设合理性的检验
H(X)是否合理的检验
5)维度放大
维度放大和过拟合问题,维度过大对训练集拟合会改善,对测试集的适用性会变差,如果找到合理的方法?
下面是我做的一个实验
假定有这样一个对衣服估价的训练样本,代码中matrix表示,第一列表示色彩的评分,第二列表示对料子质地的评分,例如第一个样本1,4表示这件衣服色彩打1分,料子打4分。我们需要训练的是theta,其表示在衣服的估价中,色彩和料子的权重,这个权重是未知量,是需要训练的,训练的依据是这四个样本的真实价格已知,分别为19元,...20元。
通过批量梯度下降和随机梯度下降的方法均可得到theta_C={3,4}T
/*
Matrix_A
1 4
2 5
5 1
4 2
theta_C
?
?
Matrix_A*theta_C
19
26
19
20
*/
批量梯度下降法:
- #include "stdio.h"
- int main(void)
- {
- float matrix[4][2]={{1,4},{2,5},{5,1},{4,2}};
- float result[4]={19,26,19,20};
- float theta[2]={2,5}; //initialized theta {2,5}, we use the algorithm to get {3,4} to fit the model
- float learning_rate = 0.01;
- float loss = 1000.0; //set a loss big enough
- for(int i = 0;i<100&&loss>0.0001;++i)
- {
- float error_sum = 0.0;
- for(int j = 0;j<4;++j)
- {
- float h = 0.0;
- for(int k=0;k<2;++k)
- {
- h += matrix[j][k]*theta[k];
- }
- error_sum = result[j]-h;
- for(int k=0;k<2;++k)
- {
- theta[k] += learning_rate*(error_sum)*matrix[j][k];
- }
- }
- printf("*************************************\n");
- printf("theta now: %f,%f\n",theta[0],theta[1]);
- loss = 0.0;
- for(int j = 0;j<4;++j)
- {
- float sum=0.0;
- for(int k = 0;k<2;++k)
- {
- sum += matrix[j][k]*theta[k];
- }
- loss += (sum-result[j])*(sum-result[j]);
- }
- printf("loss now: %f\n",loss);
- }
- return 0;
- }
随机梯度下降法
- int main(void)
- {
- float matrix[4][2]={{1,4},{2,5},{5,1},{4,2}};
- float result[4]={19,26,19,20};
- float theta[2]={2,5};
- float loss = 10.0;
- for(int i =0 ;i<100&&loss>0.001;++i)
- {
- float error_sum=0.0;
- int j=i%4;
- {
- float h = 0.0;
- for(int k=0;k<2;++k)
- {
- h += matrix[j][k]*theta[k];
- }
- error_sum = result[j]-h;
- for(int k=0;k<2;++k)
- {
- theta[k] = theta[k]+0.01*(error_sum)*matrix[j][k];
- }
- }
- printf("%f,%f\n",theta[0],theta[1]);
- float loss = 0.0;
- for(int j = 0;j<4;++j)
- {
- float sum=0.0;
- for(int k = 0;k<2;++k)
- {
- sum += matrix[j][k]*theta[k];
- }
- loss += (sum-result[j])*(sum-result[j]);
- }
- printf("%f\n",loss);
- }
- return 0;
- }
参考:
【1】http://www.stanford.edu/class/cs229/notes/cs229-notes1.pdf
【2】http://www.cnblogs.com/rocketfan/archive/2011/02/27/1966325.html
【3】http://www.dsplog.com/2011/10/29/batch-gradient-descent/
【4】http://ygc.name/2011/03/22/machine-learning-ex2-linear-regression/
batch gradient descent(批量梯度下降) 和 stochastic gradient descent(随机梯度下降)的更多相关文章
- [Machine Learning] 梯度下降(BGD)、随机梯度下降(SGD)、Mini-batch Gradient Descent、带Mini-batch的SGD
一.回归函数及目标函数 以均方误差作为目标函数(损失函数),目的是使其值最小化,用于优化上式. 二.优化方式(Gradient Descent) 1.最速梯度下降法 也叫批量梯度下降法Batch Gr ...
- 随机梯度下降法(Stochastic gradient descent, SGD)
BGD(Batch gradient descent)批量梯度下降法:每次迭代使用所有的样本(样本量小) Mold 一直在更新 SGD(Stochastic gradientdescent)随机 ...
- 随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比[转]
梯度下降(GD)是最小化风险函数.损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正. 下面的h(x)是要拟 ...
- 【转】 随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比
梯度下降(GD)是最小化风险函数.损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正. 下面的h(x)是要拟 ...
- 机器学习-随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )
梯度下降(GD)是最小化风险函数.损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正. 下面的h(x)是要拟 ...
- 机器学习-随机梯度下降(Stochastic gradient descent)
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
- online learning,batch learning&批量梯度下降,随机梯度下降
以上几个概念之前没有完全弄清其含义及区别,容易混淆概念,在本文浅析一下: 一.online learning vs batch learning online learning强调的是学习是实时的,流 ...
- 批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent).随机梯度下降(Stochastic Gradient Descent ...
- 梯度下降算法实现原理(Gradient Descent)
概述 梯度下降法(Gradient Descent)是一个算法,但不是像多元线性回归那样是一个具体做回归任务的算法,而是一个非常通用的优化算法来帮助一些机器学习算法求解出最优解的,所谓的通用就是很 ...
- 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD
排版也是醉了见原文:http://www.cnblogs.com/maybe2030/p/5089753.html 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度 ...
随机推荐
- 亲密接触Redis-第三天(Redis的Load Balance)
前言 上两天讲述了Redis的基本搭建和基于HA的集群布署方式以及相关的策略和注意点.今天开始讲述Redis的Cluster功能,而这块目前来说网上资料不是太全,就算有1,2篇也只是单讲服务端的搭建也 ...
- Redis之(四)事务
5.1开始事务 MULTI 命令的执行标记着事务的开始: 当客户端处于非事务状态下时, 所有发送给服务器端的命令都会立即被服务器执行. Redis 的事务不可嵌套, 当客户端已经处于事务状态, 而客户 ...
- Programming In Scala笔记-第二、三章
本系列博客以<Programming in Scala 2nd Edition>为主,围绕其中的代码片段进行学习和分析. 本文主要梳理Chapter2和Chapter3中涉及到的主要概念. ...
- iOS中监控软键盘显示或隐藏的可靠方法
大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请多提意见,如果觉得不错请多多支持点赞.谢谢! hopy ;) 如果你试图在软键盘的显示或隐藏时去改变的UI界面结构,仅有的方 ...
- 1gitolite构建git服务器
软件环境:在有网络条件下(主要是为了安装软件),UbuntuKylin 14.04 1 安装openssh-serveropenssh-client,如果用的是VPS之类的一般都默认安装好了,不 ...
- sharepoint adfs Adding Claims to an Existing Token Issuer in SharePoint 2010
转载链接 http://www.theidentityguy.com/articles/2010/10/19/adding-claims-to-an-existing-token-issuer-i ...
- 1060. Are They Equal (25)
题目如下: If a machine can save only 3 significant digits, the float numbers 12300 and 12358.9 are consi ...
- 深入分析Spring混合事务
在ORM框架的事务管理器的事务内,使用JdbcTemplate执行SQL是不会纳入事务管理的. 下面进行源码分析,看为什么必须要在DataSourceTransactionManager的事务内使用J ...
- MTK机器原始OTA更新方法
在源码中编译完成后会生成各类.img的文件,这时候make otapackage生成ota包 一般ota包在源码工程的out/target/...目录下 一.通过线刷模式 将生成OTA包拷贝到Wind ...
- SIM900A设备在保加利亚无法正常使用GPRS问题
1. SIM900A设备在保加利亚GPRS功能无法正常使用 我们一款手持设备采用SIM900A模块,在发货之前测试正常,但到了保加利亚,客户发现无法正常上网,我们技术支持反馈的邮件反馈的现象 ...