Andrew Ng Machine Learning 专题【Linear Regression】

此文是斯坦福大学，机器学习界 superstar — Andrew Ng 所开设的 Coursera 课程：Machine Learning 的课程笔记。

力求简洁，仅代表本人观点，不足之处希望大家探讨。

课程网址：https://www.coursera.org/learn/machine-learning/home/welcome

Week 3: Logistic Regression & Regularization 笔记：http://blog.csdn.net/ironyoung/article/details/47398843

Week 2：Linear Regression with Multiple Variables

Multivariate Linear Regression
1. Week 1 讨论仅一个特征，即仅有一个未知量x 影响了目标y 的取值。
  
  假设如今有非常多特征？如今我们有x 1 ,x 2 ...x n 影响了目标y 的取值。
2. 此时须要区分的是变量标记规则：
  - x i 表示的是第i 个特征
  - x (i) 表示的是第i 个样本，一个样本是由多个特征组成的列向量
  - 比如：x (2) =[x (2) 1 ,x (2) 2 ,x (2) 3 ,...,x (2) n ] T
  - 综上，我们有h θ (x)=θ 0 +θ 1 ∗x 1 +θ 2 ∗x 2 +...+θ n ∗x n 。能够视为。每一个样本都多出一个特征：x 0 =1 ，这样表示有利于之后的矩阵表示
多变量梯度下降法：

样本一共同拥有m个

cost function：J(θ 0 ,θ 1 )=12m ∑ i=1 m (h θ (x (i) )−y (i) ) 2

update：θ j :=θ j −α1m ∑ i=1 m ((h θ (x (i) )−y (i) )∗x (i) j )
Feature Scaling（特征缩放）
- 非常easy。就是将每种特征的数据范围限定在同一个数量级。比如x 1 ∈[0,2000],x 2 ∈[1,5] ，这样会导致迭代次数过多。这时候，假设我们找到一种mapping方式，使得两者属于同一个数量级的范围内，能够有效减少迭代次数
- 注意：无法减少单次的迭代时间。可是却能有效地减少迭代次数
- 事实上方法非常多，这有一种：x=x−mean(x)max(x)−min(x) 。当中，mean(x) 表示向量每一个元素的平均值。max(x) 表示向量中最大元素，min(x) 表示向量中最小元素
Learning Rate
- learning rate 是机器学习中的一个不稳定因素，怎样推断选取的 learning rate 是合适的？我们能够看看下面这幅图：
- 假设以迭代次数为横坐标，cost function 结果为纵坐标。绘制的图像是递减的，说明 learning rate 选择的是恰当的。假设碰到下图所显示的三种情况。那就仅仅有一条路：减小 learning rate
- 可是 learning rate 太小相同会导致一个问题：学习过慢。所以，仅仅能靠试：0.001。0.003，0.01，0.03，0.1，0.3……
Polynomial Regression（多项式回归。不同于多变量线性回归）
- 有时候。我们须要自己创造一些“特征”，来拟合一些非线性分布情况
- 比如：h θ (x)=θ 0 +θ 1 ∗x 2 +θ 2 ∗x √ ，看上去仅仅有一个特征x ，但我们全然能够理解为x 2 和x √ 都是单独的新特征
- 以后的课程会详细讲述怎样选择这些特征
Normal Equation
- 梯度下降法能够用于寻找函数（cost function）的最小值。想一想，初高中的时候我们使用的是什么方法？最小值点的导数为零，然后解方程
- 将导数置为零这样的方法即 Normal Equation。if θ∈R n+1 ，∂∂θ i J(θ)= set 0 for every i .
- 上文提过，添加一个全1分量x 0 后得到x=[x 0 ,x 1 ,x 2 ,x 3 ,...,x n ] T
- 能够得到：xθ=y⇛x T xθ=x T y⇛θ=(x T x) −1 x T y
- matlab编程十分简单：theta=pinv(X ′ ∗X)∗X ′ ∗y;
- Normal Equation 有下面优缺点：
  1. 不须要 learning rate，也就不须要选择。
  2. 不须要迭代，不须要考虑收敛的问题；
  3. 当特征非常多的时候。由于涉及求逆操作，会非常慢（注：方阵才有逆矩阵）
Octave Tutorial

这一部分十分简单。事实上就是MATLAB的用法。建议不论是否刚開始学习的人都去看看，会有收获。

谈到一个问题：假设现有的样本数，小于每一个样本全部的特征数怎么办？去除多余的特征（PCA？）。特征过多，也可能会导致矩阵不可逆的情况（不甚理解）。

下面记录一些认为挺有趣的命令：
1. ~=：不等于号
2. xor(0, 1)：异或操作
3. rand(m, n)：0~1之间的大小为m*n的随机数矩阵；randn：产生均值为0，方差为1的符合正态分布的随机数（有负数）
4. length(A)：返回A中行、列中更大值
5. A(:)：将矩阵A变为列向量形式。不论A是向量还是矩阵
6. sum(A,1)：每列求和得到一个行向量；sum(A,2)：每行求和得到一个列向量
7. pinv：伪求逆；inv：求逆
8. imagesc(A)：帅爆！依据矩阵中每一个值绘制各种颜色的方块
9. A.^2 ~= A^2，后者是两个矩阵相乘
Submitting Programming Assignments

事实上看看视频即可了。主要要注意，submit() 时输入的Token，不是Coursera 的password，而是作业的password，在这里：

编程作业答案：https://github.com/cnauroth/machine-learning-class

Andrew Ng Machine Learning 专题【Linear Regression】的更多相关文章

Andrew Ng Machine Learning 专题【Logistic Regression & Regularization】
此文是斯坦福大学,机器学习界 superstar - Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记. 力求简洁,仅代表本人观点,不足之处希望大家探 ...
[C2P2] Andrew Ng - Machine Learning
##Linear Regression with One Variable Linear regression predicts a real-valued output based on an in ...
Machine Learning #Lab1# Linear Regression
Machine Learning Lab1 打算把Andrew Ng教授的#Machine Learning#相关的6个实验一一实现了贴出来- 预计时间长度战线会拉的比較长(毕竟JOS的7级浮屠还没搞 ...
[C2P3] Andrew Ng - Machine Learning
##Advice for Applying Machine Learning Applying machine learning in practice is not always straightf ...
CheeseZH: Stanford University: Machine Learning Ex1:Linear Regression
(1) How to comput the Cost function in Univirate/Multivariate Linear Regression; (2) How to comput t ...
[C2P1] Andrew Ng - Machine Learning
About this Course Machine learning is the science of getting computers to act without being explicit ...
Andrew Ng机器学习一： Linear Regression
一:单变量线性回归(Linear regression with one variable) 背景:在某城市开办饭馆,我们有这样的数据集ex1data1.txt,第一列代表某个城市的人口,第二列代表在 ...
machine learning (2)-linear regression with one variable
machine learning- linear regression with one variable(2) Linear regression with one variable = univa ...
Andrew Ng Machine learning Introduction
1. 机器学习的定义:Machine learning is programming computers to optimize a performance criterion(优化性能标准) usi ...

随机推荐

ubuntu python opencv3 cv2.cv2 has no attribute 'face' 'cv2.face' has no attribute 'createEigenFaceRecognizer'
学习opencv过程中遇到错误: 1 cv2.cv2 has no attribute 'face' 经过一顿查,,,各种走弯路最后一下子就解决了: pip install opencv-pyth ...
Go Web编程第四章--处理请求
请求和响应 Request结构 URL字段 Header字段 Body字段 Form, PostForm, MultipartForm字段在处理器函数中,我们可以通过Request获取各个字段的详细 ...
最小生成树 Prim（普里姆）算法和Kruskal（克鲁斯特尔）算法
Prim算法 1.概览普里姆算法(Prim算法),图论中的一种算法,可在加权连通图里搜索最小生成树.意即由此算法搜索到的边子集所构成的树中,不但包括了连通图里的所有顶点(英语:Vertex (gra ...
4、Redis中对List类型的操作命令
写在前面的话:读书破万卷,编码如有神 -------------------------------------------------------------------- ------------ ...
HDU 5698 瞬间移动数学
瞬间移动题目连接: http://acm.hdu.edu.cn/showproblem.php?pid=5698 Description 有一个无限大的矩形,初始时你在左上角(即第一行第一列),每次 ...
bio、nio、aio及select、poll、epoll
BIO与NIO.AIO的区别http://blog.csdn.net/skiof007/article/details/52873421 select.poll.epoll之间的区别总结http:// ...
javascript小记-javascript运行机制
任何语言的运行过程中,都会有编译和执行: 对于传统编译型语言来说,编译步骤分为:词法分析.语法分析.语义检查.代码优化和字节生成.但对于解释型语言来说,通过词法分析和语法分析得到语法树后,就可以开始解 ...
Java学习笔记_22_Set接口的实现类
22.Set接口的实现类: Set接口存放的元素是无序的且不包括反复元素. 1>实现类HashSet: HashSet类依据元素的哈希码进行存放,取出时也能够依据哈希码高速找到.HashSet不 ...
通过adb把apk安装到系统分区
通过adb把apk安装到系统分区以谷歌拼音为例:GooglePinyin1.4.2.apk提取出so文件libjni_googlepinyinime_4.solibjni_googlepinyini ...
java基础学习总结——开篇
java是我学习的第一门编程语言,当初学习java基础的时候下了不少功夫,趁着这段时间找工作之际,好好整理一下以前学习java基础时记录的笔记,当作是对java基础学习的一个总结吧,将每一个java的 ...

Andrew Ng Machine Learning 专题【Linear Regression】

Week 2：Linear Regression with Multiple Variables

Andrew Ng Machine Learning 专题【Linear Regression】的更多相关文章

随机推荐

热门专题