【Linear Regression】林轩田机器学习基石

这一节开始讲基础的Linear Regression算法。

（1）Linear Regression的假设空间变成了实数域

（2）Linear Regression的目标是找到使得残差更小的分割线（超平面）

下面进入核心环节：Linear Regression的优化目标是minimize Ein(W)

为了表达简便，首先需要把这种带Σ符号的转换成matrix form，如下：

1~2：多个项的平方和可以转换成向量的平方

2~3：把每个列向量x都横过来，组成一个新的X矩阵

最后转换成了最终的minimize的表达式：连续可导，凸集，求梯度为0的点。求梯为0的过程如下：

如何求出微分等于0的表达式。

第一张的式子设计到一些矩阵微分的公式，找到了下面这blog（http://blog.sciencenet.cn/blog-849193-653656.html）复习一下。

其中涉及到了二次函数的微分（Quadratic Products）：注意，因为这里A=X'X是对称阵，所以A==A'，因此得到了2Aw

还涉及到了一次函数的微分（Linear Products）

如何求出最终的结果。

这里分两种情况

（1）一种是X'X是invertible的，显然直接求逆矩阵即可

（2）一种X’X是singluar的，这时应该求出广义逆矩阵

啥是广义逆？之前用ELM的时候学过一些。看课件再复习一下：

同时，林也推荐实际中用well-implemented routine 广义逆就好了。

因此，把广义逆矩阵算出来了，也就算OK了。

把求得的w带回去求得的矩阵拟合y^是XX(广义逆)y

这里又提炼出来一个Hat Matrix的概念：

课程中主要从几何意义的角度来阐述了这个hat matrix H是干啥的。

一开始理解这个gemoetric意义一直没有理解好，直到看了这篇blog（http://beader.me/mlnotebook/section3/linear-regression.html）之后，有些明白了。

大概是说，y hat是y到span of X的投影，这样一来，||y-yhat||²最小（垂线距离最短）。

这样看来，I-H这个线性变化就是把y变成了y-yhat。

换一个角度，可以把y看成是一个理想的f(x)+noise构成的；这样，其实也是是吧I-H这个线性变换应用在了nosie上面，变成了y-yhat。

换这个角度看有啥用呢？主要是为了得到Ein跟noise的关系

Linear Regression相当于把noise在原来基础上降低了1-（1+d)/N这么多。

但Eout却是比原来的noise大了。总结来说，见下图：

当N比较大时，Ein和Eout平均误差为2(d+1)/N级别的noise。

VC是Bound住错误的概率，但上面的Learning Curve说的是平均的情况，但是二者想表达的意思是相近的，就是N越大，Ein跟Eout越接近。

最后，又提到了一个问题Linear Classification vs. Linear Regression二者的关系。

我的理解有两点：

（1）直观看来，Regression似乎可以用来替代的Classification（因为毕竟只是少了一个算sign的步骤）；而且classification是NP-hard的（算的慢），但是Linear Regression是analytic solution的（算得快）。

（2）对于classification的问题，y只有1和-1，把这两种情况下的Error曲线画出来，发现其实classification的线是一直在regression的线的下面的。

因此，结论就是，Linear Regression在Binary Classification问题上，是可以作为一个稍微宽松的错误上界的。

这里的trade-off的对象是算法的效率与error bound的紧密程度。

这里，林提出了一个practical的方法：实际中甚至可以先做一个regression来求一个初始化参数值，然后再应用诸如PLA/Pocket这类的算法降低error。

【Linear Regression】林轩田机器学习基石的更多相关文章

（转载）林轩田机器学习基石课程学习笔记1 — The Learning Problem
(转载)林轩田机器学习基石课程学习笔记1 - The Learning Problem When Can Machine Learn? Why Can Machine Learn? How Can M ...
【 Logistic Regression 】林轩田机器学习基石
这里提出Logistic Regression的角度是Soft Binary Classification.输出限定在0~1之间,用于表示可能发生positive的概率. 具体的做法是在Linear ...
【Linear Models for Binary Classification】林轩田机器学习基石
首先回顾了几个Linear Model的共性:都是算出来一个score,然后做某种变化处理. 既然Linear Model有各种好处(训练时间,公式简单),那如何把Linear Regression给 ...
【Regularization】林轩田机器学习基石
正则化的提出,是因为要解决overfitting的问题. 以Linear Regression为例:低次多项式拟合的效果可能会好于高次多项式拟合的效果. 这里回顾上上节nonlinear transf ...
【The VC Dimension】林轩田机器学习基石
首先回顾上节课末尾引出来的VC Bound概念,对于机器学习来说,VC dimension理论到底有啥用. 三点: 1. 如果有Break Point证明是一个好的假设集合 2. 如果N足够大,那么E ...
【Perceptron Learning Algorithm】林轩田机器学习基石
直接跳过第一讲.从第二讲Perceptron开始,记录这一讲中几个印象深的点: 1. 之前自己的直觉一直对这种图理解的不好,老按照x.y去理解. a) 这种图的每个坐标代表的是features:fea ...
林轩田机器学习基石笔记3—Types of Learning
上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA.PLA能够在平面中选择一条直线将样本数据完全正确分类.而对于线性不可分的情况,可以使用Pocket Algorithm来处理.本节课将主要 ...
林轩田机器学习基石笔记2—Learning to Answer Yes/No
机器学习的整个过程:根据模型H,使用演算法A,在训练样本D上进行训练,得到最好的h,其对应的g就是我们最后需要的机器学习的模型函数,一般g接近于目标函数f.本节课将继续深入探讨机器学习问题,介绍感知机 ...
【Theory of Generalization】林轩田机器学习基石
紧接上一讲的Break Point of H.有一个非常intuition的结论,如果break point在k取到了,那么k+1, k+2,... 都是break point. 那么除此之外,我们还 ...

随机推荐

腾讯云“动态加速”与“CDN”的区别——浅谈对“动态加速”的理解（可能有误）
CDN的劣势及“动态加速”产生背景通常CDN对静态内容支持较好,若使用其加速动态内容,可能会导致异常(如导致无法登录).当然,可以将动态内容的在CDN节点上的缓存时间设置为0秒来解决.但这毕竟是用户 ...
MySQL入门很简单: 14MySQL日志
二进制日志: 以二进制文件的形式记录了数据库中的操作,但不记录查询语句错误日志: 记录MySQL服务器的启动,关闭和运行错误等信息通用查询日志: 记录用户登录和记录查询的信息慢查询日志: 记录执 ...
redis网络模型
多路IO复用-非阻塞同步IO模型.见http://www.cnblogs.com/syyong/p/6231326.html 具体结构:http://blog.jobbole.com/100079/ ...
第23章 I2C—读写EEPROM—零死角玩转STM32-F429系列
第23章 I2C—读写EEPROM 全套200集视频教程和1000页PDF教程请到秉火论坛下载:www.firebbs.cn 野火视频教程优酷观看网址:http://i.youku.com/f ...
VisualSVN 4.0.10 破解版附上破解过程
VisualSVN一般情况下使用不需要破解,可以直接使用社区授权.但是社区授权不支持域用户. 如果要再域下面使用就需要破解了. 原版的VisualSVN和破解后的DLL已打包上传(仅供学习使用) 破解 ...
JDBC-Hibernate-Mybatis
JDBC sql语句和Java代码混在了一起 Hibernate 自动生成sql语句 Mybatis 将sql语句写在xml文件中,使用时动态生成
Map详解
https://mp.weixin.qq.com/s/s4KLQyE5bY833kGzWl3vsg
Nodejs 调试方法
nodejs内部提供一个debug机制,可以让程序进入debug模式,供开发者一步一步分析代码发现问题. 共有3中启动参数可以让程序进入debug模式,假设我们要对app.js进行调试. node d ...
React Native ref高级用法&&setNativeProps使用
ref属性不只是string ref属性不仅接受string类型的参数,而且它还接受一个function作为 callback.这一特性让开发者对ref的使用更加灵活. render() { retu ...
在windows7上配置xampp虚拟主机
在设置之前最好关闭xampp1.修改hosts文件进入C:\Windows\System32\drivers\etc目录,找到hosts文件.在# Localhost (DO NOT REMOVE) ...

【Linear Regression】林轩田机器学习基石

【Linear Regression】林轩田机器学习基石的更多相关文章

随机推荐

热门专题