吴恩达机器学习CS229课程笔记学习

监督学习（supervised learning）

假设我们有一个数据集（dataset），给出居住面积和房价的关系如下：

我们以居住面积为横坐标，房价为纵坐标，组成数据点，如（2104, 400），并把这些数据点描到坐标系中，如下：

由这些数据，我们怎么才能预测（predict）其他房价呢？其中房价作为居住面积的函数。

为了方便描述，我们用x⁽ⁱ⁾表示输入变量（即居住面积），也叫做输入特征（features）；同时，用y⁽ⁱ⁾表示输出（即房价），也叫做目标（target）变量。有序对 (x⁽ⁱ⁾, y⁽ⁱ⁾)叫做一个训练样本点（training example）；我们用来学习（learn）的数据集，包含m个样本点，也叫做训练集（training set），表示为{(x⁽ⁱ⁾, y⁽ⁱ⁾); i=1,...,m}。其中上标(i)表示样本点在训练集中的索引，跟指数没关系。另外，我们用X表示输入变量的取值空间，Y表示输出的取值空间，在本文中，X=Y=R。

我们的目的就是学习出一个函数h: X->Y，使得h(x)能够很好的预测y，即|h(x)-y|越小越好。由于历史原因，函数h也叫做假设（hypothesis）。整个流程形象化描述下：

当我们想要预测的目标变量是连续的（continuous），这种学习问题被称之为回归（regression）；而离散（discrete）时，则叫做分类（classification）。

线性回归（linear regression）

为了让上面的问题更加一般化，假设我们除了居住面积和房价，还知道房间个数，如下：

这样，x就是2维空间R²中的向量。x₁⁽ⁱ⁾表示训练集中第i个房子的居住面积，而x₂⁽ⁱ⁾就是它的房间个数。

学习之前，我们需要先决定函数h的表达式。最原始的想法就是，用x的线性函数来拟合（approximate）y。如下：

其中，θ_i是参数，也叫权值（weight）。在不会引起误解的情况下，我们通常把h_θ(x)中的下标θ去掉，简单表示为h(x)。进一步地，我们令x₀=1（即截距），使得：

上式中，我们把θ和x都看做向量，这里其实是行向量，θ^T是θ的转置（即对应的列向量）。这里之所以要转成列向量，是因为要把两个向量的数量积看做是两个矩阵相乘。

有了函数表达式，接下来就是要利用训练集把参数θ学习出来。为此，我们定义代价函数（cost function）如下：

为什么这样定义代价函数呢？如果以前看过最小二乘法（least-squres），就会很熟悉上式。

LMS（Least Mean Square，最小均方）算法

我们需要找出使得代价J(θ)最小的θ。为此，我们估算一个θ的初始值，并不断改变它使得J(θ)更小，直到J(θ)不能再小。具体做法是利用梯度下降（gradient descent）算法，给θ赋一个初始值，然后按照如下表达式不断更新：

上式更新对θ向量的每个分量θ_j(j=0,...,n)是同时进行的，其中α叫做学习率（learning rate）。接下来，我们需要解出右边的偏导（partial derivative），不失一般性地，先假设训练集中只有一个样本（x, y），这样，我们就可以忽略J(θ)中的累加运算，得到如下计算过程，这里需要熟悉导数运算法则，另外，求导的关键在于，对谁求导，谁就是变量，其他都是常量：

把计算后的偏导代回原式，就可以得到如下更新规则（即LMS更新规则），也叫Widrow-Hoff学习规则：

从上式更新规则可以看出，θ_j的更新增量α(y⁽ⁱ⁾-h_θ(x⁽ⁱ⁾))x_j⁽ⁱ⁾跟y⁽ⁱ⁾-h_θ(x⁽ⁱ⁾)成正比。通俗来讲就是，当预测值h_θ(x⁽ⁱ⁾)接近真实值y⁽ⁱ⁾，即误差（error）越小时，参数θ_j需要做出的更新越小，反之同理。上述更新规则是通过一个样本计算出来的，推广到m个样本呢？有两种方法，第一种就是把之前的累加运算补回来（因为和的导数等于导数的和），如下：

批量梯度下降（batch gradient descent）。

标准方程（normal equations）

矩阵微分（matrix derivatives）

分类和逻辑回归

接下来，我们看看二元分类（binary classification）问题，即预测值y=0或1。0也叫负类（negative class），1则叫正类（positive class）。二元分类中用到的原理同样适用于多元分类。另外，样本(x⁽ⁱ⁾, y⁽ⁱ⁾)中的y⁽ⁱ⁾也叫做类标（label）。

sigmoid函数

广义线性模型（generalized linear models）

softmax回归

参数拟合（parameter fitting），对数似然（log-likelihood）

原文链接：

http://cs229.stanford.edu/notes/cs229-notes1.pdf

吴恩达机器学习CS229课程笔记学习的更多相关文章

ML:吴恩达机器学习课程笔记(Week1~2)
吴恩达(Andrew Ng)机器学习课程:课程主页由于博客编辑器有些不顺手,所有的课程笔记将全部以手写照片形式上传.有机会将在之后上传课程中各个ML算法实现的Octave版本. Linear Reg ...
[吴恩达机器学习笔记]12支持向量机5SVM参数细节
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.5 SVM参数细节标记点选取标记点(landma ...
[吴恩达机器学习笔记]12支持向量机3SVM大间距分类的数学解释
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.3 大间距分类背后的数学原理- Mathematic ...
[吴恩达机器学习笔记]12支持向量机2 SVM的正则化参数和决策间距
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.2 大间距的直观理解- Large Margin I ...
[吴恩达机器学习笔记]12支持向量机1从逻辑回归到SVM/SVM的损失函数
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.1 SVM损失函数从逻辑回归到支持向量机为了描述 ...
[吴恩达机器学习笔记]11机器学习系统设计3-4/查全率/查准率/F1分数
11. 机器学习系统的设计觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 11.3 偏斜类的误差度量 Error Metr ...
吴恩达机器学习笔记22-正则化逻辑回归模型(Regularized Logistic Regression)
针对逻辑回归问题,我们在之前的课程已经学习过两种优化算法:我们首先学习了使用梯度下降法来优化代价函数
Coursera 吴恩达机器学习学习笔记
Week 1 机器学习笔记(一)基本概念与单变量线性回归 Week 2 机器学习笔记(二)多元线性回归机器学习作业(一)线性回归——Matlab实现机器学习作业(一)线性回归——Python( ...
ML:吴恩达机器学习课程笔记(Week7~8)
Support Vector Machines Unsupervised Learning Dimensionality Reduction

随机推荐

通过写一个Demo展示C#中多种常用的集合排序方法
不多说,程序很简单,就是将集合中的数据进行排序,但使用到的知识点还是比较多的,大牛勿喷,谨献给初学者!直接上程序吧! namespace Demo { /// <summary> /// ...
Ashampoo Driver Updater - 阿香婆驱动安装
Ashampoo Driver Updater 让系统更完美 – 永远有最新的驱动,出错或旧的驱动是每个电脑系统的恶梦.时不时,驱动会丢失或不可避免的过时.Ashampoo Driver Update ...
自定义jq插件，鼠标悬浮展示图片或者视频放大图，可自定义展示内容
网站项目经常会遇到一些视频或者图片素材的展示功能,那么就需要自己写一个功能,就是在一些列表页面你想要是这个数据的详细内容,弹框在页面某个位置例如这是视频悬浮展示效果,可自定义自动播放等属性标签又例 ...
npm 全局执行 update 、 outdated 出现 npm-debug.log 404 错误的问题
想要执行一次全局更新,发现屡次报错: # npm update -g 提示的错误信息包含如下内容: npm ERR! code E404 npm ERR! 404 Registry returned ...
js 乘除法小数问题
因为经常需要js来处理显示,就做下笔记除法: function accDiv(arg1, arg2) { var t1 = 0, t2 = 0, r1, r2; try { t1 = arg1.to ...
CSS--居中方式总结
一.水平居中方法 1.行内元素.字体的水平居中 1.对于行内元素(display值为inline或inline-block都可以)或者字体:父元素添加css规则:text-align:center; ...
Python Python中的反射机制
Python中的反射机制 by:授客 QQ:1033553122 概念借用java中的定义:在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法:对于任意一个对象,都能够调用它的任意一个方 ...
Android基础之内容提供者的实现
内容提供者可以实现应用间查询数据库的需求一.在提供数据库访问的应用设置内容提供者 public class AccountProvider extends ContentProvider { sta ...
Kotlin入门(5)字符串及其格式化
上一篇文章介绍了数组的声明和操作,包括字符串数组的用法.注意到Kotlin的字符串类也叫String,那么String在Java和Kotlin中的用法有哪些差异呢?这便是本文所要阐述的内容了. 首先要 ...
C#委托之我见
委托的使用方式很简单,了解一下基本语法就可以开撸了.但是使用委托的真正难题是不知道应用场景,就像习得了一门新功夫,但是却找不到任何施展拳脚的地方.这个难题一直困然着我,直到最近仿佛有所领悟,所以赶紧记 ...

吴恩达机器学习CS229课程笔记学习

吴恩达机器学习CS229课程笔记学习的更多相关文章

随机推荐

热门专题