现在机器学习算法在分类、回归、数据挖掘等问题上运用的十分广泛,对于初学者来说,可能一听到'算法'或其他的专属名词都感觉高深莫测,以致很多人望而却步,这让很多人在处理很多问题上失去了一个很有用的工具。机器学习的算法并没有那么高深,这里我就用最通俗的语言来细致解释算法的表达的意义,,并且很多人对程序的实现这一部分也会望而却步,网上固然有很多现成的程序,但是鉴于大部分没有注释,所以有时候需要花费很大的精力去解读程序,有时候甚至不得其解,这里我也会对每个讲解的算法的程序进行讲解,大部分是逐行讲解,务必做到最精细,把程序的来龙去脉表达清楚,这样对于学习机器学习算法的读者势必会事半功倍!

转载时候最好标注 http://www.cnblogs.com/happylion/ 或 http://blog.sina.com.cn/ahappylion

开始了,学习吧,加油!

......................................................................分割线............................................................................

上一个博客已经说了我们要线性回归的主要内容,通俗的讲就是:你有一个样本X=[x1,x2,…,xn],然后你需要做的就是找到一组参数W=[w1,w2…wn],使

样本各个元素的线性叠加和w1*x1+w2*x2+…+wn*xn尽量等于样本的label。所以我们的cost function就是:

也就是说我们的目的就是惩罚那些线性叠加和不等于label的样本。然后我们最小化这个cost function,当cost function达到收敛的时候,这时候的参数就是我们需要的蚕食。我们有两种方法去优化我们的参数,上一个博客说了,我们线性回归的参数是有显式解的。就是上一节提到的normal equations,w=inv(X’*X)*X’*y。(X的每一行是一个样本),除此之外,我们也可以用梯度下降法来求得我们的参数,梯度下降法的解释将在下面的博客中提到,这里我们用一个例子来说明一下:
题目是:50个数据样本点,其中x为这50个小朋友到的年龄,年龄为2岁到8岁,年龄可有小数形式呈现。Y为这50个小朋友对应的身高,当然也是小数形式表示的。现在的问题是要根据这50个训练样本,估计出3.5岁和7岁时小孩子的身高。(数据下载

采用normal equations方法求解:

 1 %%方法一
2 x = load('ex2x.dat');
3 y = load('ex2y.dat');
4 plot(x,y,'*')
5 xlabel('height')
6 ylabel('age')
7 x = [ones(size(x,2),1),x];%因为size(x)会出来的x这个向量两个维度
 8 %度,我们只需要第一个维度,我们还要再加一列1是因为这里把wx+b变成了w’x这样我们化成齐次的线性方程,所以我们要把x扩成一列1。
9 w=inv(x'*x)*x'*y %这个就是解的公式
10 hold on
12 plot(x(:,2),0.0639*x(:,2)+0.7502)%这里的0.7502就是求得的w向量的第一个值,也就是wx+b的那个b,w第二个值就是wx+b的w
利用梯度下降法进行迭代求解系数
方法二:
 1 clear all; close all; clc
2 x = load('ex2x.dat'); y = load('ex2y.dat');
3 m = length(y); % number of training examples
4 % Plot the training data
5 figure; % open a new figure window 这个figure也可以不写,没什么影响
6 plot(x, y, 'o');%用圆圈表示数据点
7 ylabel('Height in meters')%给y值写上代表什么意思
8 xlabel('Age in years')
10 % Gradient descent
11 x = [ones(m, 1) x]; % Add a column of ones to x x最开始增加一列1,也就是每一个数据点增加一维,并且这一维都是1,
12 %相当于要求得线性方程是齐次的w'x=Y,x是变成的二维的,Y代表根据训练的w'x预测的Y值
13 theta = zeros(size(x(1,:)))'; % initialize fitting parameters w'初始化为[0;0]
14 MAX_ITR = 1500;
15 alpha = 0.07;%学习速率
17 for num_iterations = 1:MAX_ITR
18 grad = (1/m).* x' * ((x * theta) - y);%grd具体是怎么算的可以看下下面的推导,只是这里的1/m不知道是怎么得出来的,
19 %我的是2m,注意grad是一个2*1的向量。并且公式里面的形式
20 %跟这里有点不同,是因为在公式中xi代表一个向量,这里x是一个矩阵,并且每一行代表一个样本,所以这里代码中前面是x'后面是x,
21 %在公式中正好相反 .* 是点乘,不是内积,向量的内积结果是个数,这还是一个向量
22 theta = theta - alpha .* grad; %这里如果令grad=0求极值得到参数的方法就是前面的那个方法,这里不是grad=0,而是一次次 %的迭代,求最值。
23 end
24 hold on; % keep previous plot visible
25 plot(x(:,2), x*theta, '-')%这个就是回归曲线的那个图
26 legend('Training data', 'Linear regression')%标出图像中各曲线标志所代表的意义,就是每个数据点表示成的圆圈或线段所代表 %的意义
27 hold off % don't overlay any more plots on this figure,指关掉前面的那幅图
28 % Closed form solution for reference
29 % You will learn about this method in future videos
30 exact_theta = (x' * x)\x' * y%不知道这是啥意思
31 % Predict values for age 3.5 and 7
32 predict1 = [1, 3.5] *theta
33 predict2 = [1, 7] * theta
34 % Grid over which we will calculate J
35 theta0_vals = linspace(-3, 3, 100);%生成一个从-3到3之间有均匀的100个元素的向量
36 theta1_vals = linspace(-1, 1, 100);
37 % initialize J_vals to a matrix of 0's
38 J_vals = zeros(length(theta0_vals), length(theta1_vals));
39 for i = 1:length(theta0_vals)
40 for j = 1:length(theta1_vals)
41 t = [theta0_vals(i); theta1_vals(j)];
42 J_vals(i,j) = (0.5/m) .* (x * t - y)' * (x * t - y);%当参数的取值是从(-3,1)到(3,1)
43 %的矩形内均匀采样取值时(取了100*100个参数),所有样本xi与每个参数对应
44 %的回归方程的误差就是 J_vals(i,j)的一个值
45 end
46 end
47 J_vals = J_vals';
48 % Surface plot
49 figure;
50 surf(theta0_vals, theta1_vals, J_vals)%画出参数与损失函数的图像。注意用这个surf比较蛋疼,surf(X,Y,Z)是这样的,
51 %X,Y是向量,Z是矩阵,用X,Y铺成的网格(100*100个点)与Z的每个点
52 %形成一个图形,但是是怎么对应的哪,蛋疼之处就是,你的X的第二个元素与Y的第一个元素形成的那一个点不是和Z(2,1)的值对应!!
53 %而是和Z(1,2)对应!!因为前面形成Z(2,1)时,是X的第二个元素与Y的第一个元素
54 %所以J_vals前面才要转置。
55 xlabel('\theta_0'); ylabel('\theta_1');
56 % Contour plot
57 figure;
58 % Plot J_vals as 15 contours spaced logarithmically between 0.01 and 100
59 contour(theta0_vals, theta1_vals, J_vals, logspace(-2, 2, 15))%画出等高线
60 xlabel('\theta_0'); ylabel('\theta_1');%类似于转义字符,但是最多只能是到参数0~9
 
 实验结果:训练样本散点和回归曲线预测图:

损失函数与参数之间的曲面图:

 
参考:http://www.cnblogs.com/tornadomeet/archive/2013/03/15/2961660.html

【machine learning通俗讲解code逐行注释】之线性回归实现的更多相关文章

  1. Coursera《machine learning》--(2)单变量线性回归(Linear Regression with One Variable)

    本笔记为Coursera在线课程<Machine Learning>中的单变量线性回归章节的笔记. 2.1 模型表示 参考视频: 2 - 1 - Model Representation ...

  2. Machine learning第四周code 编程作业

    1.lrCostFunction: 和第三周的那个一样的: function [J, grad] = lrCostFunction(theta, X, y, lambda) %LRCOSTFUNCTI ...

  3. 吴恩达Machine Learning学习笔记(二)--多变量线性回归

    回归任务 多变量线性回归 公式 h为假设,theta为模型参数(代表了特征的权重),x为特征的值 参数更新 梯度下降算法 影响梯度下降算法的因素 (1)加速梯度下降:通过让每一个输入值大致在相同的范围 ...

  4. 【机器学习Machine Learning】资料大全

    昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machi ...

  5. FAQ: Machine Learning: What and How

    What: 就是将统计学算法作为理论,计算机作为工具,解决问题.statistic Algorithm. How: 如何成为菜鸟一枚? http://www.quora.com/How-can-a-b ...

  6. 机器学习(Machine Learning)&深度学习(Deep Learning)资料【转】

    转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一 ...

  7. [ML] I'm back for Machine Learning

    Hi, Long time no see. Briefly, I plan to step into this new area, data analysis. In the past few yea ...

  8. 机器学习(Machine Learning)&深度学习(Deep Learning)资料汇总 (上)

    转载:http://dataunion.org/8463.html?utm_source=tuicool&utm_medium=referral <Brief History of Ma ...

  9. 机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总

    <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.D ...

随机推荐

  1. Android-BoundService

    Android-BoundService 一 binder 内核->字符设备binder(负责进程间通信的驱动)->servicemanager->binder类->binge ...

  2. jvm堆配置参数

    1.-Xms初始堆大小默认物理内存的1/64(<1GB)(官方建议)2.-Xmx最大堆大小默认物理内存的1/4(<1GB)(官方建议),实际中建议不大于4GB3.一般建议设置 -Xms=- ...

  3. unittest 单元测试框架断言方法

    unittest单元测试框架的TestCase类下,测试结果断言方法:Assertion methods 方法 检查 版本 assertEqual(a, b)  a == b assertNotEqu ...

  4. python全栈开发从入门到放弃之元组的内置应用

    1.元组的字符类型tuple t=(1,[1,3],'sss',(1,2)) print(type(t)) <class 'tuple'> 2.按索引号取值 t=(1,[1,3],'sss ...

  5. Django中间件(含Django运行周期流程图)

    Django中的中间件(含Django完整生命周期图) Django中间件简介 django 中的中间件(middleware),在django中,中间件其实就是一个类,在请求到来和结束后,djang ...

  6. 练T25- focus必看!所有成功截图汇总

    http://www.guokr.com/post/565880/ 25914人加入此小组 发新帖 练T25- focus必看!所有成功截图汇总! 读图模式 作家向威 作家 2014-02-22 07 ...

  7. alias指令别名和 sshpass命令简化ssh登陆

     在之前的一篇博文中 ubuntu下关于profile和bashrc中环境变量的理解 提到过可以编辑bashrc文件,vim ~/.bashrc,来编写自己的小指令,就是给长指令取个简单的别名.比如b ...

  8. PHP memcache扩展模块安装

    安装php扩展模块memcache memcache 的工作就是在专门的机器的内存里维护一张巨大的hash表,来存储经常被读写的一些数组与文件,从而极大的提高网站的运行效率,减轻后端数据库的读写压力. ...

  9. article标准用法

    article代表一个在文档.页面或者网站中自成一体的内容 其目的是为了让开或重用 譬如论坛的帖子.博客的文章.一片用户的评论.一个互动的widget小工具 article 会有一个标题(通常在hea ...

  10. error C2665: “std::locale::facet::operator new”: 2 个重载中没有一个可以转换所有参数类型

    qt项目 qt creator项目由插件自动转换成的vs2015项目,为了发布少带些dll ,切换成vs2013项目,在更改了一些vs2013不支持的c++新标准写法之后,release可正常编过,但 ...