正则方程(Normal Equation)

梯度下降是最小化代价函数\(J(\theta)\)的一种方式,这里提出了另一种方式即正则方式不使用迭代方式:\(\theta = (X^TX)^{-1}X^Ty\)。举例如下(m=4)

![normal equation](http://wx3.sinaimg.cn/mw690/7b8d2108gy1fgdv8r4ymyj20gi080jsc.jpg)

在正则方式中不需要对正则方程做尺度缩放。

下表给出了对于正则方程与梯度下降方法中差异:

梯度下降 正则方程
需要选择学习速率alpha 不需选择alpha
需要更多的步骤 不需要更多的迭代
算法复杂度(\(kn^2\)) 算法复杂度(\(n^3\)),且需要计算\(X^TX\)
n值很大时,本方法以上很好运行 n的数值越大,计算越慢

从最后一项可以看出,随n的增大,计算的速度越慢。实际操作中,当n超过10000时,利用梯度下降将是比正则方程更优的选择。

这里补充关于正则方程X不可逆的问题

一般可能是以下两种原因导致\(X^TX\)不可逆的情形出现:

  • 冗余特征出现:即特征集中出现了两个特征非常密切相关的(可以说是线性相关的)
  • 含有太多的特征(如\(m\leq n\))。此时可以对特征做适量的删减或使用正规则化(此部分在后面会接触)

实际的编程工具中,我们一般使用octave或matlab软件,而取逆函数名选取"pinv"而非"inv",此时即使不可逆仍然能够给出一个值。

开始动手写代码:machine learning ex1

单变量下的线性回归

假如你是一家餐饮业老总,你想在不同的城市开设餐馆,从以往的餐馆中,你获取了相应的餐馆在每个城市的利润和人口数据。因此,你需要借助这些数据帮助你来决定下一步在何地开设。

  • 首先根据已有的数据绘出关于人口--利润的图形,代码如下:
figure; % 绘图
plot(x,y,'rx', 'MarkerSize', 10);
xlabel('Polulation of City in 10,000s');
ylabel('Profit in $10,000S');

  • 梯度下降的计算:

目的在于根据以下代价函数公式\(J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2\)使其最小化,

这里假设函数设为一阶线性:\(h_\theta(x)=\theta^Tx=\theta_0+\theta_1x_1\),在批量梯度算法中,每一步都进行更新:

经过梯度下降,参数\(\theta_j\)逐渐接近最适值,此时代价函数\(J(\theta)\)取得最小值。

代价函数计算代码如下:

% Initialize some useful values
m = length(y); % number of training examples
% You need to return the following variables correctly
J = 0;
% ====================== YOUR CODE HERE ======================
% Notice: we must add an additional first column to X and set it to all ones.
for i = 1:m
J = J + ( (theta(1)*X(i,1)+theta(2)*X(i,2))-y(i) )^2;
end
J = J/2/m;
% =============================================================

梯度下降计算代码如下:

在程序中,确保理解需要优化的内容和正在更新的内容。记住J成本函数由向量θ是决定而不是X和y。也就是说,我们最小化J(θ)的价值通过改变向量θ的值,而不是通过改变X或y,验证梯度下降是否正确工作的一个好方法是看J(θ)在每一步的运算中是否减少。

% Initialize some useful values
m = length(y); % number of training examples
J_history = zeros(num_iters, 1);
for iter = 1:num_iters
% ====================== YOUR CODE HERE ======================
% Instructions: Perform a single gradient step on the parameter vector
% theta.
%
% Hint: While debugging, it can be useful to print out the values
% of the cost function (computeCost) and gradient here.
%
v1 = 0;
v2 = 0;
for i = 1:m
v1 = v1 + ((theta(1)*X(i,1)+theta(2)*X(i,2))-y(i))*X(i,1);
v2 = v2 + ((theta(1)*X(i,1)+theta(2)*X(i,2))-y(i))*X(i,2);
end
theta(1) = theta(1) - alpha * v1 / m;
theta(2) = theta(2) - alpha * v2 / m;
% ============================================================
% Save the cost J in every iteration
J_history(iter) = computeCost(X, y, theta);

经过梯度下降后初步的到的参数做回归图线为:

![result of grad](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgdybvtq7aj20f706g760.jpg)

* 利用contour函数描述随参数theta的变化,代价函数的取值:

% initialize J_vals to a matrix of 0's
J_vals = zeros(length(theta0_vals), length(theta1_vals));
% Fill out J_vals
for i = 1:length(theta0_vals)
for j = 1:length(theta1_vals)
t = [theta0_vals(i); theta1_vals(j)];
J_vals(i,j) = computeCost(X, y, t);
end
end % Because of the way meshgrids work in the surf command, we need to
% transpose J_vals before calling surf, or else the axes will be flipped
J_vals = J_vals';
% Surface plot
figure;
surf(theta0_vals, theta1_vals, J_vals)
xlabel('\theta_0'); ylabel('\theta_1'); % Contour plot
figure;
% Plot J_vals as 15 contours spaced logarithmically between 0.01 and 100
contour(theta0_vals, theta1_vals, J_vals, logspace(-2, 3, 20))
xlabel('\theta_0'); ylabel('\theta_1');
hold on;
plot(theta(1), theta(2), 'rx', 'MarkerSize', 10, 'LineWidth', 2);

显示如下:

![surf & contour](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgdybvllhjj20c0089jrm.jpg)

多变量下的线性回归

假设你在出售你的房子和你想知道一个好的市场价格是多少。一种方法是首先收集最近出售的房屋的信息并建立一个住房模型价格。这节我们主要通过引入两个特征元素:房子尺寸和起居室的数量,输出结果或期望得到为房屋的价格。

  • 这里起居室的尺寸是起居室数量的1000倍大概,故首先要对特征集进行标准化处理。

因此应计算所有特征元素的平均值以及它们的标准差。octave有专用的函数"mean"、"std"以计算。

代码如下:

% You need to set these values correctly
X_norm = X;
mu = zeros(1, size(X, 2));%size -->1 disp the row, 2 disp the column , 3 disp the page
sigma = zeros(1, size(X, 2)); mu = mean(X);
sigma = std(X); m = size(X,1);
n = size(X,2); for i = 1:n
for j = 1:m
X_norm(j,i) = (X(j,i) - mu(i))/sigma(i);
end
end
  • 梯度下降

之前,在单变量回归上实现了梯度下降问题。现在唯一的区别是,还有一个特性矩阵x,假设函数和批梯度下降更新规则保持不变。

![grad mul](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgdybwabg0j20bb04uq2y.jpg)

代码如下:

%compute the costmulti
m = length(y);
J = 0;
J=(X*theta-y)'*(X*theta-y)/2/m; % the multi of grad descent
m = length(y); % number of training examples
J_history = zeros(num_iters, 1);
for iter = 1:num_iters
i = size(X,2);
v = 0;
for i = 1:i;
for j = 1:m
v = v + ((theta(1)*X(j,1)+theta(2)*X(j,2)+theta(3)*X(j,3))-y(j))*X(j,i);
end theta(i) = theta(i) - alpha * v / m;
end
% Save the cost J in every iteration
J_history(iter) = computeCostMulti(X, y, theta);
end

之后绘出代价函数的递减曲线:

![decrease of multi](http://wx4.sinaimg.cn/mw690/7b8d2108gy1fgdybwmfgwj20ak083747.jpg)

* 正则方程

\(\theta=(X^TX)^{-1}X^Ty\)

代码如下:

theta = zeros(size(X, 2), 1);%size(X,2)返回列colum的值
theta = pinv(X'*X)*X'*y;

第二章完结,包含exam练习的更多相关文章

  1. ArcGIS API for JavaScript 4.2学习笔记[10] 2D添加指北针widget、视图保存、视图padding(第二章完结)

    这几个例子是第二章除了入门之外比较简单的几个,就做个合集,把最核心的代码(第二参数)和 引用放上来即可,不作多解释. 2D地图添加指北针widget 2D地图一般修正方向为正北方就需要这个widget ...

  2. Python 对象(type/object/class) 作用域 一等函数 (慕课--Python高级,IO并发 第二章)

    在python中一共有两种作用域:全局作用域和函数作用域全局作用域:在全局都有效,全局作用域在程序执行时创建,在程序执行结束时销毁:所有函数以外的区域都是全局作用域:在全局作用域中定义的变量,都属于全 ...

  3. python从入门到实践 第二章

    python变量赋值: python的变量赋值 可以是单引号 也可以是双引号python 变量赋值的时候不能加()的 比如 name = "My Name is GF"变量赋值的时 ...

  4. 第二章:javascript: 数组

    数组是编程世界里最常见的数据结构.任何一种编程语言都包含数组,只是形式稍微有差异.数组是编程语言中的内建类型,通常效率都很高.可以满足不同需求的数据存储,本章将探索javascript中的数组工作原理 ...

  5. 【黑金原创教程】【Modelsim】【第二章】Modelsim就是电视机

    声明:本文为黑金动力社区(http://www.heijin.org)原创教程,如需转载请注明出处,谢谢! 黑金动力社区2013年原创教程连载计划: http://www.cnblogs.com/al ...

  6. ASP.NET MVC with Entity Framework and CSS一书翻译系列文章之第二章:利用模型类创建视图、控制器和数据库

    在这一章中,我们将直接进入项目,并且为产品和分类添加一些基本的模型类.我们将在Entity Framework的代码优先模式下,利用这些模型类创建一个数据库.我们还将学习如何在代码中创建数据库上下文类 ...

  7. 《Django By Example》第二章 中文 翻译 (个人学习,渣翻)

    书籍出处:https://www.packtpub.com/web-development/django-example 原作者:Antonio Melé (译者注:翻译完第一章后,发现翻译第二章的速 ...

  8. Jenkins入门系列之——02第二章 Jenkins安装与配置

    2014-12-08:已不再担任SCM和CI的职位,Jenkins的文章如无必要不会再维护. 写的我想吐血,累死了. 网页看着不爽的,自己去下载PDF.有问题请留言! Jenkins入门系列之——03 ...

  9. Python黑帽编程 2.0 第二章概述

    Python黑帽编程 2.0 第二章概述 于 20世纪80年代末,Guido van Rossum发明了Python,初衷据说是为了打发圣诞节的无趣,1991年首次发布,是ABC语言的继承,同时也是一 ...

随机推荐

  1. Dora.Interception: 一个为.NET Core度身定制的AOP框架

    多年从事框架设计开发使我有了一种强迫症,那就是见不得一个应用里频繁地出现重复的代码.之前经常Review别人的代码,一看到这样的程序,我就会想如何将这些重复的代码写在一个地方,然后采用“注入”的方式将 ...

  2. 运算符重载 与 sort()

    运算符重载与sort() 二话不说上代码: #include <iostream> #include <algorithm> using namespace std; stru ...

  3. 利刃 MVVMLight 8:DispatchHelper在多线程和调度中的使用

    在应用程序中,线程可以被看做是应用程序的一个较小的执行单位.每个应用程序都至少拥有一个线程,我们称为主线程,这是在启动时调用应用程序的主方法时由操作系统分配启动的线程. 当调用和操作主线程的时候,该操 ...

  4. 转:修改Tomcat控制台标题

    转自:http://blog.csdn.net/chanryma/article/details/46930729 背景:用控制台方式启动Tomcat,控制台的标题默认是"Tomcat&qu ...

  5. git学习笔记之一

    Git是比较优秀的分布式版本管理工具,这次学习了git的基本命令,现在作一些归纳总结,已备复习之用. Git 认识 Git 直接用hash值记录提交的修改文件的快照,本地操作无需联网 Git 有三种状 ...

  6. 《大型网站系统与JAVA中间件实践学习笔记》-1

    第一章:分布式系统介绍 定义:分布式系统是一组分布在网络上通过消息传递进行协作的计算机组成系统. 分布式系统的意义 升级单机处理能力的性价比越来越低 单机处理器能力存在瓶颈 处于稳定性和可用性考虑 阿 ...

  7. 2017PHP程序员的进阶之路

    2017PHP程序员的进阶之路 又是一年毕业季,可能会有好多毕业生即将进入开发这个圈子,踏上码农这个不归路.根据这些年在开发圈子总结的LNMP程序猿发展轨迹,结合个人经验体会,总结出很多程序员对未来的 ...

  8. WannaflyUnion每日一题

    ---恢复内容开始--- 1. http://www.spoj.com/problems/KAOS/ 题意:给定n个字符串,统计字符串(s1, s2)的对数,使得s1的字典序比s2的字典序要大,s1反 ...

  9. DIV上下居中

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

  10. wiringPi安装

    wiringPi安装   更新软件,输入以下指令:   sudo apt-get update   sudo apt-get upgrade   通过GIT获得wiringPi的源代码   git c ...