ML week 1 2


一、关于machine learning的名词

学习

从无数数据提供的E:experience中找到一个函数使得得到T:task后能够得到P:prediction

监督学习

experience中的数据都是有t和p的,计算机通过t和p得到函数

1.分类

p是明确的类 如:书有小说,教科书,故事书

2.回归

p是线性的,如:书的价格

非监督学习

experience中的数据只有t没有p,计算机仅通过t得到可以分成不同类的p函数

1.聚类

将产生的结果分成不同的集合,每个集合中的对象相似

二、单元线性回归方程与cost fnction

单元线性回归方程

单元 J() (cost function)

cost function的结果(训练拟合度),越小拟合度越好

梯度下降算法与单元cost function

梯度下降算法

  • alpha为学习速率
  • 求J的偏导可以看出当前距离局部最低点远近程度
  • thetaj为单元cost function中的参数,通过梯度下降法迭代调整参数,达到局部最低点

1.使用梯度下降法迭代

因为需要让J逐渐减小,所以要使用梯度下降

结合cost function和梯度下降算法(下图)

  • iteration J中的所有参数应同时更新(下图)

  • 我们常称x为feature(关联特征方程中的特征),h(x)为hypothesis

2.

alpha*J 得到的值并不是一个固定的值,随着迭代,J会越来越小接近0(拟合程度越来越好,下降的越少,逐渐接近局部最优解)

3.alpha也在不断变化

如果alpha无限大,虽然刚开始下降很快,但可能会遇到下图overshoot minimum现象这个问题,所以alpha在算法中应自适应调整

4. alpha 应如何调整

  • 1.自动收敛法为根据J(theta)下降小于10-3,则缩小alpha
  • 2.调试收敛法,根据迭代次数,或者J(theta)上升了则需要下降alpha(如下图几种需要降低alpha)(推荐)

三、根据数据建立多元线性高次回归方程

1.样本表中得到信息

从图中可以得到信息:

  • Y1~Xn指输出变量
  • X1~Xn指样本变量,在h(theta)中为特征变量
  • M:样本个数
  • N:特征变量个数

2.多元一次线性回归方程

  • theta指的是参数
  • X0默认0
  • X1~Xn指的是一组数据的n个特征变量
  • 若有X(2),(2)指的是第二个样本

3.特征缩放 feature scaling(重要)

当不同的特征值之间数据差距过大的时候,可能造成梯度下降很难到达最低点(这里不做介绍)

所以在使用h(theta)时,应先进行feature scaling

  • 数据之间越接近下降越容易
  • 数据应尽量缩小到-1和1左右(不要求很准确,(-3,3 )(-1/3,1/3)都可以,但不能 太小如-0.001 或 太大如100)
  • 常用方法:
   x'=\frac{x-a}{b}

a:{x}特征平均值


b:max(x)-min(x)或者方差

4.

当特征值有多个的时候,可以将特征值合并

例: 由房子的长宽特征预计价格,可以变为用房子的面积预计价格

5.

当样本数据如上图所示明显不符合线性,则使用高次的特征方程,如下图

6.疑问

  1. 两个特征值的合并是否一定要符合现实逻辑,比如长宽合成面积?
  2. 如果结果就是需要长宽分别和价格之间的关系怎么办?
  3. 上图中绿线是因为蓝线会在后方下降才改的,但没有数据的情况下谁都不能确定会是怎么样的,所以我觉得这样改没有意义,结果需要确定一个可预测价格范围(和给的数据样本差不多的范围)?
  4. 是否只有在单一变量的时候才能将它化成有高次的特征方程?

四、 多元线性回归与梯度下降

1. 多元cost function

  • 可以看下图,这两个式子等价于上式

2.结合特征方程和cost function

  • 将多元特征方程带入cost function可得到拟合程度J(theta)

3.多元情况下 梯度下降方程

4.

  • 和单元一样,多元也要同时更新
  • 可以观察一下theta0可以发现由于X0=1,所以theta0式子和单元情况下一样

五、正规方程(normal equation)

除了梯度下降法的另一种方法,也可以找到局部最优解

正规方程

\theta = (X^T X)^{-1}X^T Y

计算步骤

  • 从表格中提取信息
Size(feet2) Number of
bedrooms
Number of
floors
Age of
house(years)
Price(*1000)
x0 x1 x2 x3 x4 y
1 2104 5 1 45 460
1 1416 3 2 40 232
1 1534 3 2 30 315
1 852 2 1 36 178
  • 化成矩阵形式

  • 代入正规方程

比较梯度下降和正规方程优劣势

梯度下降 正规方程
需要选择α 不需要选择α
需要许多迭代 不需要迭代
O(KN2) O(N3),需要计算逆矩阵XTX
当N较大时工作正常 如果N非常大会很慢

当n<10,000时,适合用正规方程
矩阵不可逆没关系,octave会算出伪逆,结果是一样的

Machine Learning 第一二周的更多相关文章

  1. Machine Learning - 第6周(Advice for Applying Machine Learning、Machine Learning System Design)

    In Week 6, you will be learning about systematically improving your learning algorithm. The videos f ...

  2. Machine Learning - 第3周(Logistic Regression、Regularization)

    Logistic regression is a method for classifying data into discrete outcomes. For example, we might u ...

  3. Machine Learning第十一周笔记:photo OCR

    博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) 刚刚完毕了Cousera上Machine Learning的最后一周课程.这周介绍了 ...

  4. Machine Learning第十周笔记:大规模机器学习

    博客已经迁移到Marcovaldo's blog (http://marcovaldong.github.io/) 刚刚完毕了Andrew Ng在Cousera上的Machine Learning的第 ...

  5. Machine Learning – 第2周(Linear Regression with Multiple Variables、Octave/Matlab Tutorial)

    Machine Learning – Coursera Octave for Microsoft Windows GNU Octave官网 GNU Octave帮助文档 (有900页的pdf版本) O ...

  6. Machine Learning - 第7周(Support Vector Machines)

    SVMs are considered by many to be the most powerful 'black box' learning algorithm, and by posing构建 ...

  7. Machine Learning - 第5周(Neural Networks: Learning)

    The Neural Network is one of the most powerful learning algorithms (when a linear classifier doesn't ...

  8. Machine learning 第7周编程作业 SVM

    1.Gaussian Kernel function sim = gaussianKernel(x1, x2, sigma) %RBFKERNEL returns a radial basis fun ...

  9. Machine learning第6周编程作业

    1.linearRegCostFunction: function [J, grad] = linearRegCostFunction(X, y, theta, lambda) %LINEARREGC ...

随机推荐

  1. [jzoj]3875.【NOIP2014八校联考第4场第2试10.20】星球联盟(alliance)

    Link https://jzoj.net/senior/#main/show/3875 Problem 在遥远的S星系中一共有N个星球,编号为1…N.其中的一些星球决定组成联盟,以方便相互间的交流. ...

  2. 读取gzmt.csv文件,计算均值及概率

    问题: 读取gzmt.csv文件所有数据,选取收盘价格(倒数第二列),计算20天均值,权重取成交量(选做:时间权重为半衰期为15天):将该均值修剪为超过600的都设置为1000,并打印出该均值超过55 ...

  3. 201771010118《面向对象程序设计(java)》第三周学习总结

    第一部分:理论知识复习部分 第一章            回顾了Java的关键术语,再次熟悉了java程序设计的性能介绍.对Java语言的十多种特性又有了更深刻的理解. 第二章 eclipse开发环境 ...

  4. Nestjs 微服务

    文档 工作示例 安装: $ npm i --save @nestjs/microservices main.ts import { NestFactory } from '@nestjs/core'; ...

  5. Gparted Live分区调整

    由于年少无知,在安装ubuntu系统的时候,以为/temp是软件包安装时解压的缓冲,所以给/temp留了10G,而以为/var只是记录一些log而已,因此把仅存的1G分配给了它.随后在安装软件时出现“ ...

  6. 执行发送邮件Send方法时,报错:邮箱不可用。 服务器响应为: 5.7.1 Unable to relay for xxx@xxx.com

    .net代码在执行发送邮件Send方法时,往往出现这个的报错: 邮箱不可用. 服务器响应为: 5.7.1 Unable to relay for xxx@xxx.com 这个问题应该是smtp的设置问 ...

  7. python全栈开发 * css 选择器 浮动 * 180808

    css 选择器 一.基本选择器 1.标签选择器 标签选择器可以选中所有的标签元素,比如div,ul,li ,p等等,不管标签藏的多深,都能选中,选中的是所有的,而不是某一个,所以说 "共性& ...

  8. linux下安装前端程序员必备软件

    startx进入桌面后,ctrl+alt+t调出终端.安装完成以后重启在软件ubuntu软件中找到软件启动或通过终端输入命令找到,锁定到启动器. 1.首先安装chrome(64位) cd    /tm ...

  9. 源码包安装maven

    含有的命令:cd,tar,mv,vim,sourc,mvnpv [root@ycj ~]# cd /usr/local/src/ //切换路径 [root@ycj src]# wget http:// ...

  10. Ehcache 3.7文档—基础篇—JCache aka JSR-107

    一. 概述JCache Java临时缓存API(JSR-107),也被称为JCache,它是一个规范在javax.cache.API中定义的.该规范是在Java Community Process下开 ...