batch gradient descent（批量梯度下降）和 stochastic gradient descent（随机梯度下降）

批量梯度下降是一种对参数的update进行累积，然后批量更新的一种方式。用于在已知整个训练集时的一种训练方式，但对于大规模数据并不合适。

随机梯度下降是一种对参数随着样本训练，一个一个的及时update的方式。常用于大规模训练集，当往往容易收敛到局部最优解。

详细参见：Andrew Ng 的Machine Learning的课件（见参考1）

可能存在的改进

1）样本可靠度，特征完备性的验证

例如可能存在一些outlier，这种outlier可能是测量误差，也有可能是未考虑样本特征，例如有一件衣服色彩评分1分，料子1分，确可以卖到10000万元，原来是上面有一个姚明的签名，这个特征没有考虑，所以出现了训练的误差，识别样本中outlier产生的原因。

2）批量梯度下降方法的改进

并行执行批量梯度下降

3）随机梯度下降方法的改进

找到一个合适的训练路径（学习顺序），去最大可能的找到全局最优解

4）假设合理性的检验

H（X)是否合理的检验

5）维度放大

维度放大和过拟合问题，维度过大对训练集拟合会改善，对测试集的适用性会变差，如果找到合理的方法？

下面是我做的一个实验

假定有这样一个对衣服估价的训练样本，代码中matrix表示，第一列表示色彩的评分，第二列表示对料子质地的评分，例如第一个样本1,4表示这件衣服色彩打1分，料子打4分。我们需要训练的是theta，其表示在衣服的估价中，色彩和料子的权重，这个权重是未知量，是需要训练的，训练的依据是这四个样本的真实价格已知，分别为19元，...20元。

通过批量梯度下降和随机梯度下降的方法均可得到theta_C={3,4}T

/*

Matrix_A

1 4

2 5

5 1

4 2

theta_C

?

Matrix_A*theta_C

19

26

19

20

*/

批量梯度下降法：

#include "stdio.h"
int main(void)
{
float matrix[4][2]={{1,4},{2,5},{5,1},{4,2}};
float result[4]={19,26,19,20};
float theta[2]={2,5}; //initialized theta {2,5}, we use the algorithm to get {3,4} to fit the model
float learning_rate = 0.01;
float loss = 1000.0; //set a loss big enough
for(int i = 0;i<100&&loss>0.0001;++i)
{
float error_sum = 0.0;
for(int j = 0;j<4;++j)
{
float h = 0.0;
for(int k=0;k<2;++k)
{
h += matrix[j][k]*theta[k];
}
error_sum = result[j]-h;
for(int k=0;k<2;++k)
{
theta[k] += learning_rate*(error_sum)*matrix[j][k];
}
}
printf("*************************************\n");
printf("theta now: %f,%f\n",theta[0],theta[1]);
loss = 0.0;
for(int j = 0;j<4;++j)
{
float sum=0.0;
for(int k = 0;k<2;++k)
{
sum += matrix[j][k]*theta[k];
}
loss += (sum-result[j])*(sum-result[j]);
}
printf("loss now: %f\n",loss);
}
return 0;
}

随机梯度下降法

int main(void)
{
float matrix[4][2]={{1,4},{2,5},{5,1},{4,2}};
float result[4]={19,26,19,20};
float theta[2]={2,5};
float loss = 10.0;
for(int i =0 ;i<100&&loss>0.001;++i)
{
float error_sum=0.0;
int j=i%4;
{
float h = 0.0;
for(int k=0;k<2;++k)
{
h += matrix[j][k]*theta[k];
}
error_sum = result[j]-h;
for(int k=0;k<2;++k)
{
theta[k] = theta[k]+0.01*(error_sum)*matrix[j][k];
}
}
printf("%f,%f\n",theta[0],theta[1]);
float loss = 0.0;
for(int j = 0;j<4;++j)
{
float sum=0.0;
for(int k = 0;k<2;++k)
{
sum += matrix[j][k]*theta[k];
}
loss += (sum-result[j])*(sum-result[j]);
}
printf("%f\n",loss);
}
return 0;
}

参考：

【1】http://www.stanford.edu/class/cs229/notes/cs229-notes1.pdf

【2】http://www.cnblogs.com/rocketfan/archive/2011/02/27/1966325.html

【3】http://www.dsplog.com/2011/10/29/batch-gradient-descent/

【4】http://ygc.name/2011/03/22/machine-learning-ex2-linear-regression/

batch gradient descent（批量梯度下降）和 stochastic gradient descent（随机梯度下降）的更多相关文章

[Machine Learning] 梯度下降（BGD）、随机梯度下降（SGD）、Mini-batch Gradient Descent、带Mini-batch的SGD
一.回归函数及目标函数以均方误差作为目标函数(损失函数),目的是使其值最小化,用于优化上式. 二.优化方式(Gradient Descent) 1.最速梯度下降法也叫批量梯度下降法Batch Gr ...
随机梯度下降法（Stochastic gradient descent, SGD）
BGD(Batch gradient descent)批量梯度下降法:每次迭代使用所有的样本(样本量小) Mold 一直在更新 SGD(Stochastic gradientdescent)随机 ...
随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比[转]
梯度下降(GD)是最小化风险函数.损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正. 下面的h(x)是要拟 ...
【转】随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比
梯度下降(GD)是最小化风险函数.损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正. 下面的h(x)是要拟 ...
机器学习-随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）
梯度下降(GD)是最小化风险函数.损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正. 下面的h(x)是要拟 ...
机器学习-随机梯度下降（Stochastic gradient descent）
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
online learning，batch learning&批量梯度下降，随机梯度下降
以上几个概念之前没有完全弄清其含义及区别,容易混淆概念,在本文浅析一下: 一.online learning vs batch learning online learning强调的是学习是实时的,流 ...
批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent).随机梯度下降(Stochastic Gradient Descent ...
梯度下降算法实现原理(Gradient Descent)
概述梯度下降法(Gradient Descent)是一个算法,但不是像多元线性回归那样是一个具体做回归任务的算法,而是一个非常通用的优化算法来帮助一些机器学习算法求解出最优解的,所谓的通用就是很 ...
1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD
排版也是醉了见原文:http://www.cnblogs.com/maybe2030/p/5089753.html 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度 ...

随机推荐

RxJava操作符(03-变换操作)
转载请标明出处: http://blog.csdn.net/xmxkf/article/details/51649975 本文出自:[openXu的博客] 目录: Buffer FlatMap fla ...
XMPP(一)-openfire服务端的安装和搭建
XMPP全称:可扩展通讯和表示协议简介:可扩展通讯和表示协议 (XMPP) 可用于服务类实时通讯.表示和需求响应服务中的XML数据元流式传输.XMPP以Jabber协议为基础,而Jabber是即时通 ...
JAVA面向对象-----接口与类、接口之间的关系
接口与类.接口之间的关系大家之前都知道类与类之间的关系继承,那么接口与类之间又是怎样子的关系呢? 接口与类之间是实现关系.非抽象类实现接口时,必须把接口里面的所有方法实现.类实现接口用关键字impl ...
java学习路线图-----java基础学习路线图（J2SE学习路线图）
安装JDK和开发软件跳过,网上太多了,不做总结,以下是我总结的学习路线图,欢迎补充. JAVA基础语法注释,标识符命名规则及Java中的关键字 Java基本数据类型 Java运算符与表达式 Java ...
Ubuntu下安装Texmaker的问题与解决方案
在Ubuntu下安装好了texlive后,为了开发方便,希望再继续安装一个编辑器,用于方便的编辑latex文档. 而texmaker就是一个很好的工具. 问题1, 被安装了早期版本的latex 不管你 ...
剑指offer面试题4 替换空格（java）
注:利用java中stringBuilder,append,length方法很方便的解决字符串问题 /* * 剑指offer 替换空格 * xsf * */ /*开始替换空格的函数,length为原数 ...
mysql-workbench工具update（更新）失败的解决办法
是因为安全模式的保护,所以我们需要设置一下: 如下:windows下是edit–>preferences–>SQL Editor 把右边的最后一行,"safe update&qu ...
17 一个ContentProvider的例子
服务端(ContentProvider) 目录结构图: MainActivity.java: package com.qf.day17_contentprovider_words_demo2; imp ...
Android计时器Chronometer-android学习之旅（二十一）
Chronometer简介 Chronometer和DigitalColok都继承与TextView,但是Chronometer不是显示的当前时间,而是从某个时间开始又过去了多少时间,是一个时间差. ...
控制成本,控制成本知识点,挣值和实际成本、EAC,ETC.TCPI解析表

batch gradient descent（批量梯度下降） 和 stochastic gradient descent（随机梯度下降）

batch gradient descent（批量梯度下降） 和 stochastic gradient descent（随机梯度下降）的更多相关文章

随机推荐

热门专题

batch gradient descent（批量梯度下降）和 stochastic gradient descent（随机梯度下降）

batch gradient descent（批量梯度下降）和 stochastic gradient descent（随机梯度下降）的更多相关文章