1. 模型表达(Model Representation)

我们的第一个学习算法是线性回归算法,让我们通过一个例子来开始。这个例子用来预测住房价格,我们使用一个数据集,该数据集包含俄勒冈州波特兰市的住房价格。在这里,我要根据不同房屋尺寸所售出的价格,画出我的数据集:

我们来看这个数据集,如果你有一个朋友正想出售自己的房子,如果你朋友的房子是1250平方尺大小,你要告诉他们这房子能卖多少钱。 那么,你可以做的一件事就是构建一个模型,也许是条直线。从这个数据模型上来看,也许你可以告诉你的朋友,他大概能以220000美元左右的价格卖掉这个房子,显然这就是监督学习算法的一个例子。

在上一篇博文Introduction to Machine Learning,我们已经了解到之所以这个例子被称作 Supervised Learning ,是因为对于每个数据来说,我们给出了“正确的答案”。而且,更具体来说,这是一个回归问题。回归一词指的是我们根据之前的数据预测出一个准确的输出值。对于这个例子就是价格。

同时,还有另一种最常见的 Supervised Learning 的方式叫做分类问题。更进一步来说,在 Supervised Learning 中我们有一个数据集,这个数据集被称训练集。因此对于房价的例子,我们有一个包含不同房屋价格的训练集,我们的任务就是从这个训练集中学习并预测房屋价格

现在我们给出经常使用的一些符号定义,如下:

用 m 来表示训练样本的数目,因此,在这个数据集中如果表中有47行,那么我们就有47组训练样本,m就等于47。


用小写字母 x 来表示输入变量,往往也被称为特征量,就是用 x 表示输入的特征,并且我们将用 y 来表示输出变量或者目标变量,也就是我的预测结果,也就是上面表格的第二列。

在这里我们要使用 (x, y) 来表示一个训练样本,因此,在这个表格中的单独的一行对应于一个训​​练样本。

为了表示某个特定的训练样本,我们将使用x上标(i)与y上标(i)来表示,并且用这个来表示第 i 个训练样本,所以上标为 i ,注意这不是求幂运算,这个(x(i), y(i)) 括号里的上标 i 只是一个索引,表示我的训练集里的第 i 行。

我们的房屋价格预测就是一个监督学习算法的工作方式,如下图:

我们可以看到这里有我们的训练集里房屋价格,我们把它喂给我们的学习算法,进而学习得到一个函数,按照惯例,通常表示为小写 h,h 代表 hypothesis(假设), 在此处,h 表示一个函数,其输入是房屋尺寸大小。因此 h 根据输入的 x 值来得出 y 值,y 值对应房子的价格。因此,h 是一个从 x到 y 的函数映射。

大家经常会有这样的疑问:为什么这个函数被称作假设(hypothesis)?你们中有些人可能知道 hypothesis 的意思,从字典或者其它什么方式可以查到。其实在机器学习中,这是一个在早期被用于机器学习的名称,它有点绕口,对某些函数来说这可能不是一个很恰当的名字。例如,对表示从房屋的大小到价格的函数映射,我认为这个词 "hypothesis" 就可能不是最好的名称。但是这是人们在机器学习中使用的标准术语,所以我们不用太纠结人们为什么这么叫它。

小结:当解决房价预测问题时,我们实际上是要将训练集“喂”给我们的学习算法,进而学习得一个假设 h,然后将我们要预测的房屋的尺寸作为输入变量输入给 h,预测出该房屋的交易价格作为输出变量输出为结果。

当我们在设计学习算法的时候,需要去思考的是怎样得到这个假设 h。例如,对于我们的房价预测问题,我们该如何表达 h ? 一种可能的表达方式为:

因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。

那么为什么是一个线性函数呢? 实际上,有时候我们会有更复杂的函数,也许是非线性函数,但是由于线性方程是简单的形式,我们将先从线性方程的例子入手。当然,最终我们将会建立更复杂的模型以及更复杂的学习算法。

2. 代价函数(Cost Function)

接下来我们将定义代价函数的概念,这将有助于我们弄明白怎样将最有可能的直线与我们的数据相拟合。

在线性回归中我们有一个像上图一样的训练集 记住 m 代表了训练样本的数量,例如,此处 m = 47 。

而我们的假设函数(也就是用来进行预测的函数),线性函数形式也已在上图中表示出来了。

接下来我们引入一些术语,诸如 θ0 和 θ1 之类这些 θi 我们通常称其为模型参数。那么我们如何选择这两个参数值 θ0 和 θ1 呢?选择不同的参数   θ0 和 θ1 我们会得到不同的假设函数。例如下图:

在线性回归中,我们有一个训练集,我们要做的就是得出 θ0 和 θ1 这两个参数的值,来让假设函数表示的直线尽量地与这些数据点很好的拟合。那么我们如何得出 θ0 和 θ1 的值,来使它很好地拟合数据的呢?

我们的想法是,我们要选择能使 h(x) 输入 x 时我们预测的值最接近该样本对应的 y 值的参数 θ0 和 θ1 。在我们的训练集中有一定数量的样本,我们知道 x 表示卖出哪所房子,并且知道这所房子的实际价格,所以,我们要选择参数值,尽量使得在训练集中给出的 x 值,能准确地预测 y 的值。

让我们给出标准的定义,在线性回归中,我们要解决的是一个最小化问题

我们选择的参数 θ0 和 θ1 决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modeling error)。

我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。即使得代价函数:

最小。我们绘制一个等高线图,三个坐标分别为 θ0 和 θ1 和J(θ0 1):

可以看出在三维空间中存在一个使得J(θ0,θ1)最小的点。

3. 梯度下降(Gradient Descent)

我们已经定义了代价函数,现在我们来介绍梯度下降算法,该算法可以将代价函数 J 最小化。梯度下降是很常用的算法,它不仅被用在线性回归上,并且被广泛的应用于机器学习的众多领域中,之后为了解决其他线性回归问题,我们也将使用梯度下降法来最小化其他函数。

在这里,我们有一个函数 J(θ0 1) ,也许这是一个线性回归的代价函数,也许是一些其他函数,要使其最小化,我们需要用一个算法来最小化函数    J(θ0 1),事实证明,梯度下降算法可应用于多种多样的函数求解,所以想象一下如果你有一个函数J(θ0, θ1, θ2, ...,θn ),你希望可以通过最小化 θ0 到 θn 来最小化此代价函数J(θ0 到θn),用n个θ是为了证明梯度下降算法可以解决更一般的问题。但为了简洁起见,为了简化符号,在接下来的讨论中,我们只用两个参数。

下面就是关于梯度下降的构想。首先我们要做的是对 θ0  和 θ1 进行初始化。实际上,它们到底是什么其实并不重要,但通常的选择是将 θ0 设为0
,同时也将 θ1 也设为0,即将它们都初始化为0。

我们在梯度下降算法中要做的就是不停地一点点地改变 θ0 和 θ1 ,试图通过这种改变使得 J(θ0 1) 变小,直到我们找到 J(θ0 1) 的最小值。或许是局部最小值。

让我们通过一些图片来看看梯度下降法是如何工作的,我们在试图让 J(θ0 1)  最小,注意坐标轴 θ0 和 θ1 在水平轴上,而函数 J(θ0 1) 在垂直坐标轴上,图形表面高度即是 J(θ0 1) 的值。我们希望最小化这个函数,因此我们从 θ0 和 θ1 的某个值出发。所以想象一下,对 θ0 和 θ1 赋以某个初值,也就是对应于从这个函数表面上的某个起始点出发,因此不管 θ0 和 θ1 的取值是多少,我将它们初始化为0。但有时你也可把它初始化为其他值。

现在我希望大家把这个图像想象为一座山。想像类似这样的景色,公园中有两座山,想象一下你正站立在山的这一点上,站立在你想象的公园这座红色山上。在梯度下降算法中,我们要做的就是旋转360度,看看我们的周围,并问自己,如果我想要下山,如果我想尽快走下山,我们需要朝什么方向?

如果我们站在山坡上的某一点,你看一下周围 ​,你会发现最佳的下山方向大约是那个方向。好的,现在你在山上的新起点上,你再看看周围,然后再一次想想我应该从什么方向迈着小碎步下山? 然后你按照自己的判断又迈出一步,往那个方向走了一步。然后重复上面的步骤,从这个新的点,你环顾四周并决定从什么方向将会最快下山,然后又迈进了一小步,又是一小步…并依此类推,直到你接近局部最低点的位置。

此外这种下降有一个有趣的特点,不同的起始点开始进行梯度下降算法,你会得到一个非常不同的局部最优解,这就是梯度下降算法的一个特点。

下图是梯度下降算法的定义:


注意,在梯度下降算法中,我们需要同时更新 θ0 和 θ1。

如果学习速率太小,只能这样像小宝宝一样一点点地挪动,去努力接近最低点,这样就需要很多步才能到达最低点。

如果学习速率太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛。实际上,会离最低点越来越远,因此,如果α太大,会导致无法收敛,甚至发散。

如果你的参数已经处于局部最低点,那么梯度下降法更新其实什么都没做(求导为0),它不会改变参数的值,这也正是你想要的,因为它使你的解始终保持在局部最优点,这也解释了为什么即使学习速率 α 保持不变时,梯度下降也可以收敛到局部最低点

梯度下降一步后,新的导数会变小一点点。随着梯度下降法的运行,你移动的幅度会自动变得越来越小,直到最终移动幅度非常小,你会发现已经收敛到局部极小值。

在梯度下降法中,当我们接近局部最低点时,梯度下降法会自动采取更小的幅度。这是因为当我们接近局部最低点时(很显然在局部最低时导数等于零 ),导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,这就是梯度下降的做法,所以实际上没有必要再另外减小α。


实际上,用于线性回归的代价函数总是呈现一个弓形的样子,这个函数的专业术语是凸函数。这个函数没有任何局部最优解,只有一个全局最优解。

实际上,我们刚刚介绍的梯度下降,是“批量梯度下降”,指的是,在梯度下降的每一步中我们都用到了所有的训​​练样本。在梯度下降中,在计算微分求导项时,我们需要进行求和运算,所以在每一个单独的梯度下降中,我们最终都要计算这样一项,这项需要对所有m个训练样本求和。

而事实上,也有其他类型的梯度下降法不是这种"批量"型的,不考虑整个的训练集,而是每次只关注训练集中的一些小的子集。

机器学习之单变量线性回归(Linear Regression with One Variable)的更多相关文章

  1. 机器学习 (一) 单变量线性回归 Linear Regression with One Variable

    文章内容均来自斯坦福大学的Andrew Ng教授讲解的Machine Learning课程,本文是针对该课程的个人学习笔记,如有疏漏,请以原课程所讲述内容为准.感谢博主Rachel Zhang的个人笔 ...

  2. 吴恩达机器学习(二) 单变量线性回归(Linear Regression with one variable)

    一.模型表示 1.一些术语 如下图,房价预测.训练集给出了房屋面积和价格,下面介绍一些术语: x:输入变量或输入特征(input variable/features). y:输出变量或目标变量(out ...

  3. Ng第二课:单变量线性回归(Linear Regression with One Variable)

    二.单变量线性回归(Linear Regression with One Variable) 2.1  模型表示 2.2  代价函数 2.3  代价函数的直观理解 2.4  梯度下降 2.5  梯度下 ...

  4. 斯坦福第二课:单变量线性回归(Linear Regression with One Variable)

    二.单变量线性回归(Linear Regression with One Variable) 2.1  模型表示 2.2  代价函数 2.3  代价函数的直观理解 I 2.4  代价函数的直观理解 I ...

  5. [Machine Learning] 单变量线性回归(Linear Regression with One Variable) - 线性回归-代价函数-梯度下降法-学习率

    单变量线性回归(Linear Regression with One Variable) 什么是线性回归?线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方 ...

  6. 机器学习(二)--------单变量线性回归(Linear Regression with One Variable)

    面积与房价 训练集 (Training Set) Size       Price 2104       460 852         178 ...... m代表训练集中实例的数量x代表输入变量 ...

  7. Coursera《machine learning》--(2)单变量线性回归(Linear Regression with One Variable)

    本笔记为Coursera在线课程<Machine Learning>中的单变量线性回归章节的笔记. 2.1 模型表示 参考视频: 2 - 1 - Model Representation ...

  8. 单变量线性回归(Linear Regression with One Variable)与代价函数

    所谓的单变量线性回归问题就是监督学习的一部分. 通过构建数学模型给出一个相对准确的数值,也就是预测模型,通过将数据通过数学模型,衍生至回归问题 通过以下的几个例子,我们来研究单变量线性回归. 1.王阿 ...

  9. 机器学习第2课:单变量线性回归(Linear Regression with One Variable)

    2.1  模型表示 之前的房屋交易问题为例,假使我们回归问题的训练集(Training Set)如下表所示: 我们将要用来描述这个回归问题的标记如下: m                代表训练集中实 ...

  10. 吴恩达机器学习笔记1-单变量线性回归(Linear Regression with One Variable)

    在监督学习中我们有一个数据集,这个数据集被称训练集.

随机推荐

  1. CDN技术原理

    要了解CDN的实现原理,首先让我们来回顾一下网站传统的访问过程,以便理解其与CDN访问方式之间的差别: 由上图可见,传统的网站访问过程为: 1. 用户在浏览器中输入要访问的域名: 2. 浏览器向域名解 ...

  2. wordpress nginx 开启链接为静态

    使用固定连接里的自定义 /%postname%/ 日志标题的缩略版本(日志/页面编辑界面上的日志别名).因此“This Is A Great Post!”在URI中会变成this-is-a-great ...

  3. [转]gdb结合coredump定位崩溃进程

    [转]gdb结合coredump定位崩溃进程 http://blog.sina.com.cn/s/blog_54f82cc201013tk4.html Linux环境下经常遇到某个进程挂掉而找不到原因 ...

  4. 14.quartus联合modelsim仿真

    在quartus调用modelsim仿真过程中,出现了一个错误,如下所示: Check the NativeLink log file I:/Quartus11.0/Myproject/testi_n ...

  5. h264码流分析

    ---------------------------------------------------------------------------------------------------- ...

  6. QTP与Selenium的比较

    1.用户仿真:Selenium在浏览器后台执行,它通过修改HTML的DOM(文档对象模型)来执行操作,实际上是通过javascript来控制的.执行时窗口可以最小化,可以在同一机器执行多个测试.QTP ...

  7. Android -- View

    setContentView                                                                        只要你使用过Activity ...

  8. Daily Scrum3

    今天我们小组开会内容分为以下部分: part 1: 汇报之前分配的任务进度: part 2:分配明天的任务. ◆Part 1 组员进度报告 彭佟小组完成的优化目标:     关于软件防滥用及垃圾信息拦 ...

  9. Careercup - Google面试题 - 5898529851572224

    2014-05-06 07:56 题目链接 原题: Flatten an iterator of iterators ,], [,[,]], ], it should ,,,,,]. Implemen ...

  10. 2014ACM/ICPC亚洲区鞍山站 清华命题

    A http://acm.hdu.edu.cn/showproblem.php?pid=5070 先跳过. B http://acm.hdu.edu.cn/showproblem.php?pid=50 ...