matlib实现梯度下降法

样本文件下载：ex2Data.zip

ex2x.dat文件中是一些2-8岁孩子的年龄。

ex2y.dat文件中是这些孩子相对应的体重。

我们尝试用批量梯度下降法，随机梯度下降法和小批量梯度下降法来对这些数据进行线性回归，线性回归原理在：http://www.cnblogs.com/mikewolf2002/p/7560748.html

1.批量梯度下降法（BGD)

BGD.m代码：

clear all; close all; clc;

x = load('ex2x.dat'); %装入样本输入特征数据到x，年龄

y = load('ex2y.dat'); %装入样本输出结果数据到y，身高

figure('name','线性回归-批量梯度下降法');

plot(x,y,'o') %把样本在二维坐标上画出来

xlabel('年龄') %x轴说明

ylabel('身高')  %y轴说明

m = length(y); % 样本数目

x = [ones(m, 1), x]; % 输入特征增加一列，x0=1

theta = zeros(size(x(1,:)))'; % 初始化theta

MAX_ITR = 1500;%最大迭代数目

alpha = 0.07; %学习率

i = 0;

while(i<MAX_ITR)

   grad = (1/m).* x' * ((x * theta) - y);%求出梯度

   theta = theta - alpha .* grad;%更新theta

   if(i>2)

       delta = old_theta-theta;

       delta_v = delta.*delta;

       if(delta_v<0.000000000000001)%如果两次theta的内积变化很小，退出迭代

           break;

       end

   end

   old_theta = theta;

   i=i+1;

end

i

theta

predict1 = [1, 3.5] *theta

predict2 = [1, 7] *theta

hold on

plot(x(:,2), x*theta, '-') % x现在是一个2列的矩阵

legend('训练数据', '线性回归')%标记每个数据设置

程序输结果如下：迭代次数达到了上限1500次，最后梯度下降法求解的theta值为\([0.7502,0.0639]^T\)，两个预测值3.5岁，预测身高为0.9737米，7岁预测为1.1973米。

注意学习率的选择很重要，如果选择太大，可能不能得到收敛的\(\theta\)值。

i =

        1500

theta =

    0.7502

    0.0639

predict1 =

    0.9737

predict2 =

    1.1973

2.随机梯度下降法

sgd.m代码如下，注意最大迭代次数增加到了15000，1500次迭代不能得到收敛的点，可见随机梯度下降法，虽然计算梯度时候，工作量减小，但是因为不是最佳的梯度下降方向，可能会使得迭代次数增加：

clear all; close all; clc;

x = load('ex2x.dat');

y = load('ex2y.dat');

figure('name','线性回归-随机梯度下降法');

plot(x,y,'o')

xlabel('年龄') %x轴说明

ylabel('身高')  %y轴说明

m = length(y); % 样本数目

x = [ones(m, 1), x]; % 输入特征增加一列

theta = zeros(size(x(1,:)))';%初始化theta

MAX_ITR = 15000;%最大迭代数目

alpha = 0.01;%学习率

i = 0;

while(i<MAX_ITR)

   %j = unidrnd(m);%产生一个最大值为m的随机正整数j，j为1到m之间

   j = mod(i,m)+1;

   %注意梯度的计算方式，每次只取一个样本数据，通过轮转的方式取到每一个样本。

   grad =  ((x(j,:)* theta) - y(j)).*x(j,:)';

   theta = theta - alpha * grad;

   if(i>2)

      delta = old_theta-theta;

      delta_v = delta.*delta;

      if(delta_v<0.0000000000000000001)

          break;

      end

   end

   old_theta = theta;

   i=i+1;

end

i

theta

predict1 = [1, 3.5] *theta

predict2 = [1, 7] *theta

hold on

plot(x(:,2), x*theta, '-')

legend('训练数据', '线性回归')

程序结果输出如下：

i =

       15000

theta =

    0.7406

    0.0657

predict1 =

    0.9704

predict2 =

    1.2001

3.小批量梯度下降法

mbgd.m代码如下，程序中批量的样本数目，我们选择5：

clear all; close all; clc;

x = load('ex2x.dat');

y = load('ex2y.dat');

figure('name','线性回归-小批量梯度下降法')

plot(x,y,'o')

xlabel('年龄') %x轴说明

ylabel('身高')  %y轴说明

m = length(y); % 样本数目

x = [ones(m, 1), x]; % 输入特征增加一列

theta = zeros(size(x(1,:)))'; %初始化theta

MAX_ITR = 15000;%最大迭代数目

alpha = 0.01;%学习率

i = 0;

b = 5; %小批量的数目

while(i<MAX_ITR)

   j = mod(i,m-b)+1;

   %每次计算梯度时候，只考虑b个样本数据

   grad = (1/b).*x(j:j+b,:)'*((x(j:j+b,:)* theta) - y(j:j+b));

   theta = theta - alpha * grad;

   if(i>2)

      delta = old_theta-theta;

      delta_v = delta.*delta;

      if(delta_v<0.0000000000000000001)

          break;

      end

   end

   old_theta = theta;

   i=i+b;

end

i

theta

predict1 = [1, 3.5] *theta

predict2 = [1, 7] *theta

hold on

plot(x(:,2), x*theta, '-')

legend('训练数据', '线性回归')

程序的输出结果：

i =

       15000

theta =

    0.7418

    0.0637

predict1 =

    0.9647

predict2 =

    1.1875

matlib实现梯度下降法的更多相关文章

matlib实现梯度下降法(序一）
数据来源:http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant 数据描述: 有四个输入特征,这些数据来自电厂,这四个特征和 ...
[Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD
在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点. 下面我们以线性回归算法来对三种梯度下降法进行比较. ...
机器学习基础——梯度下降法（Gradient Descent）
机器学习基础--梯度下降法(Gradient Descent) 看了coursea的机器学习课,知道了梯度下降法.一开始只是对其做了下简单的了解.随着内容的深入,发现梯度下降法在很多算法中都用的到,除 ...
一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法
Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则.但对于这种带 L ...
coursera机器学习笔记-机器学习概论，梯度下降法
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
重新发现梯度下降法--backtracking line search
一直以为梯度下降很简单的,结果最近发现我写的一个梯度下降特别慢,后来终于找到原因:step size的选择很关键,有一种叫backtracking line search的梯度下降法就非常高效,该算法 ...
梯度下降法VS随机梯度下降法 (Python的实现)
# -*- coding: cp936 -*- import numpy as np from scipy import stats import matplotlib.pyplot as plt # ...
Gradient Descent 和 Stochastic Gradient Descent（随机梯度下降法）
Gradient Descent(Batch Gradient)也就是梯度下降法是一种常用的的寻找局域最小值的方法.其主要思想就是计算当前位置的梯度,取梯度反方向并结合合适步长使其向最小值移动.通过柯 ...
理解梯度下降法(Gradient Decent)
1. 什么是梯度下降法? 梯度下降法(Gradient Decent)是一种常用的最优化方法,是求解无约束问题最古老也是最常用的方法之一.也被称之为最速下降法.梯度下降法在机器学习中十分常见,多用 ...

随机推荐

Javascript中DOM详解与学习
DOM(文档对象模型)是针对html和XML文档的一个API(应用程序编程接口).DOM描绘了一个层次化的节点树,允许开发人员添加,移除和修改页面的某一部分.下面将从这几个层次来学习. 一.节点层次 ...
fatal error C1060:compiler is out of heap space
今天svn update了下代码,rebuild工程的时候报错: fatal error C1060:compiler is out of heap space 意思是说编译器堆内存不足百度结果:V ...
java过滤器、监听器、拦截器机制
一.过滤器 Filter也称之为过滤器,它是Servlet技术中最实用的技术,Web开发人员通过Filter技术,对web服务器管理的所有web资源:例如Jsp, Servlet, 静态图片文件或静态 ...
网络数据包信息收集工具ferret-sidejack
网络数据包信息收集工具ferret-sidejack 网络数据包传递用户的各种操作和对应的信息.但是由于各种数据混在一起,不利于渗透测试人员分析.Kali Linux提供了一款信息搜集工具ferr ...
android 多进程
韩梦飞沙韩亚飞 313134555@qq.com yue31313 han_meng_fei_sha android应用中可以通过清单文件的属性配置,创建出一个新进程. 多进程的好处,当 ...
curl dns缓存设置
CURLOPT_DNS_USE_GLOBAL_CACHE 启用时会启用一个全局的DNS缓存,此项为线程安全的,并且默认启用.CURLOPT_DNS_CACHE_TIMEOUT 设置在内存中保存DNS信 ...
Android中，利用Intent传递对象值
在很多情况下,调用startActivity(Intent) 方法,跳转到另外一个Activity或其他component,需要传递一个对象给它. 可以让这个要传递的对象所属类实现Serializab ...
Codeforces Round #375 (Div. 2) F. st-Spanning Tree 生成树
F. st-Spanning Tree 题目连接: http://codeforces.com/contest/723/problem/F Description You are given an u ...
LightOJ 1074 - Extended Traffic （SPFA）
http://lightoj.com/volume_showproblem.php?problem=1074 1074 - Extended Traffic PDF (English) Stati ...
sqlserver 2012 IDE中 Windows身份验证连接服务器报错 ,Login failed for user 'xxx\Administrator'. 原因: 找不到与提供的名称匹配的登录名。
问题描述: 本地装了两个实例,一个是SQLEXPRESS,可以正常操作.但是另一个开发常用的实例MSSQLSERVER却连Windows身份验证都报错,报的错误也是很奇葩,怎么会找不到Administ ...