什么是机器学习

关于机器学习，有以下两种不同的定义。

机器学习是研究如何使电脑具备学习能力，而不用显式编程告诉它该怎么做。

the field of study that gives computers the ability to learn without being explicitly programmed.

机器学习能够使电脑程序从以往的经验（E）中学习并改善自己，从而在处理新的任务（T）时提升它的性能（P）。

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

这里针对第二种定义举个例子：下围棋

E：程序模拟人类下很多盘棋所积累的经验

T：下围棋这个任务

P：程序赢得下次比赛的几率

模型表示

假定我们现有一大批数据，包含房屋的面积和对应面积的房价信息，如果我们能得到房屋面积与房屋价格间的关系，那么，给定一个房屋时，我们只要知道其面积，就能大致推测出其价格了。

以这个问题为例，可以建立一个回归模型，首先明确几个常用的数学符号：

输入变量：\(x^{(i)}\)，也叫做输入特征，如这个例子中的面积
输出变量：\(y^{(i)}\)，也叫做目标变量，如例子中的我们需要预测的房价
训练样本：\((x^{(i)},y^{(i)})\)是输入变量和输出变量称为一组训练样本
训练集（Training set）：\(i=1,...,m\)，这么多组训练样本构成训练集
假设（hypothesis）：也称预测函数，比如例子中可以建立这样一个线性函数：
\[
h_θ(x)=θ_0+θ_1x_1
\]

我们的目标是找到满足这样一个线性函数来拟合训练集中的数据，那么，给定一个房屋时，我们只要知道其面积，就能大致推测出其价格了。这个过程可以用下图来表示：

代价函数

有了模型，我们还需要评估模型的准确性。于是代价函数就被引进，它也叫做平方误差函数。
\[
J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2
\]
可以看出，代价函数是采取预测值和真实值差值的平方和取均值的方式来评估数据的拟合程度的，代价函数的值越小，表示模型对于数据的拟合程度越高。

梯度下降

有了模型和评价模型的方式，现在我们要确定模型中的参数\(\theta_0\)和\(\theta_1\)，以找到最好的模型。

以\(\theta_0\)为\(x\)轴，\(\theta_1\)为\(y\)轴，代价函数\(J(\theta)\)为\(z\)轴，建立三维坐标系，可以得到如下图所示的图像：

如果把这个图像看作是一座山的话，我们有一个起点\((\theta_0,\theta_1,J(\theta_0,\theta_1))\)，现在要从这个点找到一条最快的路径到达山脚下，数学上来说，梯度是最陡峭的方向，所以我们要始终沿着梯度的方向走。

学习率

方向已经确定，但是往这个方向前进的距离是多少呢？这个距离由学习率\(\alpha\)来确定。有了方向和步距，那么\(\theta_0、\theta_1\)的变化规律如下：

那么怎么样确定学习率\(\alpha\)（步距）呢？

如果步距过大，可能接近收敛的时候会越过收敛点，甚至最终无法收敛。

如果步距过小，收敛所花的时间会很久。

所以我们要调节\(\alpha\)的大小，使收敛时间在一个合理的范围里。

在每一次迭代过程中，需要改变\(\alpha\)的大小吗？如果不需要的话，接近收敛时，会不会因为步距偏大而越过收敛点？

在迭代过程中不需要改变\(\alpha\)的大小，因为接近收敛点时，梯度(斜率)会变小，等价于步距在自动变小，所以没有必要减小\(\alpha\)。

最后，为什么代价函数的表达式中为什么取均值的除数是\(2m\)而不是\(m\)？

我们来看一看参数每一次的迭代过程都发生了什么？
\[
\begin{equation}
θ_0:=θ_0-a\frac{∂}{∂θ_0}J(θ_0,θ_1)
\end{equation}
\]
对上式化简，

因此，

所以取2m的原因其实是为了求导数时化简方便，可以和平方项的2约掉。

【Coursera-ML-Notes】线性回归（上）的更多相关文章

Coursera ML笔记 - 神经网络（Representation）
前言机器学习栏目记录我在学习Machine Learning过程的一些心得笔记,涵盖线性回归.逻辑回归.Softmax回归.神经网络和SVM等等,主要学习资料来自Standford Andrew N ...
（转载）[机器学习] Coursera ML笔记 - 监督学习（Supervised Learning） - Representation
[机器学习] Coursera ML笔记 - 监督学习(Supervised Learning) - Representation http://blog.csdn.net/walilk/articl ...
[机器学习] Coursera ML笔记 - 逻辑回归（Logistic Regression）
引言机器学习栏目记录我在学习Machine Learning过程的一些心得笔记,涵盖线性回归.逻辑回归.Softmax回归.神经网络和SVM等等.主要学习资料来自Standford Andrew N ...
如何应用ML的建议-上
本博资料来自andrew ng的13年的ML视频中10_X._Advice_for_Applying_Machine_Learning. 遇到问题-部分(一) 错误统计-部分(二) 正确的选取数据集- ...
批量下载Coursera及其他场景上的文件
以下方法同样适用于其他场景的批量下载. 最近在学习Coursera退出的深度学习课程,我希望把课程提供的作业下载下来以备以后复习,但是课程有很多文件,比如说脸部识别一课中的参数就多达226个csv文件 ...
ml的线性回归应用（python语言）
线性回归的模型是:y＝theta0*x+theta1 其中theta0,theta1是我们希望得到的系数和截距. 下面是代码实例: 1. 用自定义数据来看看格式: # -*- coding:utf ...
ML:多变量线性回归（Linear Regression with Multiple Variables）
引入额外标记 xj(i) 第i个训练样本的第j个特征 x(i) 第i个训练样本对应的列向量(column vector) m 训练样本的数量 n 样本特征的数量假设函数(hypothesis fun ...
Coursera连接不上（视频无法播放），修改hosts文件
视频问题如果Coursera网站连接不上,或者视频加载不出来.可以通过如下方式进行配置: 一.找到hosts文件 Windows 系统, hosts文件位于: [C:\Windows\Syste ...
贝叶斯线性回归（Bayesian Linear Regression）
贝叶斯线性回归(Bayesian Linear Regression) 2016年06月21日 09:50:40 Duanxx 阅读数 54254更多分类专栏: 监督学习版权声明:本文为博主原 ...
机器学习之单变量线性回归（Linear Regression with One Variable）
1. 模型表达(Model Representation) 我们的第一个学习算法是线性回归算法,让我们通过一个例子来开始.这个例子用来预测住房价格,我们使用一个数据集,该数据集包含俄勒冈州波特兰市的住 ...

随机推荐

Win10右键添加获取管理员权限
在win10中,还是和WIN7/8一样很多文件被设置权限我们打不开,但很多时候我们还是要打开这些文件夹的,尤其是数据恢复和电脑维护优化时.于是乎我们就有必要获取管理员权限.本人隆重退出完美解决方法. ...
Ubuntu14.04更换阿里云源
步骤很简单一共三步,如下所示: 第一.备份源文件(防止万一) sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak 第二.修改源文件(这里的源 ...
[转]打造自己的LINQ Provider（上）：Expression Tree揭秘
概述在.NET Framework 3.5中提供了LINQ 支持后,LINQ就以其强大而优雅的编程方式赢得了开发人员的喜爱,而各种LINQ Provider更是满天飞,如LINQ to NHiber ...
1363: Count 101 （经典数位dp）
1363: Count 101 Submit Page Summary Time Limit: 1 Sec Memory Limit: 128 Mb Submitted: ...
maven中的groupId和artifactId到底指的是什么
groupid和artifactId被统称为“坐标”是为了保证项目唯一性而提出的,如果你要把你项目弄到maven本地仓库去,你想要找到你的项目就必须根据这两个id去查找. groupId一般分为多个段 ...
Kafka系列文章
Kafka系列文章 Kafka设计解析(一)- Kafka背景及架构介绍 Kafka设计解析(二)- Kafka High Availability (上) Kafka设计解析(三)- Kafka H ...
大数据入门第三天——基础补充与ActiveMQ
一.多线程基础回顾先导知识在基础随笔篇:http://www.cnblogs.com/jiangbei/p/6664555.html 以下此部分以补充为主 1.概念进程:进行中的程序,内存中有独立 ...
JavaEE笔记（四）
sql的完整顺序完整的sql语句,由6个子句组成1. from2. where3. group by4. select5. having6. order by # having 和 where的区别w ...
ISP与IAP
ISP:in system program 顾名思义,在系统编程,单片机不用从电路上拆下,直接用下载器或者串口即可完成程序的烧写.这个是用于工程师调试程序,或者出厂时烧写程序.本质上是芯片出厂时烧录到 ...
P4198 楼房重建
P4198 楼房重建集中写博客= = 首先把高度变成斜率然后就比较玄学了,首先用线段树维护一个区间的斜率最大值,和只看这个区间时能看见的楼房个数ans 然后更新时先更新max,再处理神奇的ans ...

【Coursera-ML-Notes】线性回归（上）