【Linear Models for Binary Classification】林轩田机器学习基石

首先回顾了几个Linear Model的共性：都是算出来一个score，然后做某种变化处理。

既然Linear Model有各种好处（训练时间，公式简单），那如何把Linear Regression给应用到Classification的问题上呢？到底能不能迁移呢？

总结了如下的集中Linear Model的error functions的表达式：

这里都提炼出来了ys这一项，y表示需要更正的方向{+1，-1}，s表示需要更正的幅度（score）

三种error function可以这么理解：

（1）0/1 error : 幅度s固定，y表示方向

（2）square error : y很正或很负，error都非常大(注意这里只需要y很大或很下，error就收不住了)；只有当ys很接近1的时候，error才可能接近0

（3）cross-entropy error : 如果ys很负的话，那么error就无穷大；如果ys很正的话，那么error无限接近0

再画出几种model的error function，可以看到：

（1）square error是不太合适的，ys>>1的时候，error衡量的过了，不合适。

（2）cross-entropy error也不太合适，因为在0到-1之间位于0/1 error下面了

如果想合适的话，可以对cross-entropy进行放缩：把ln换成log2，就OK了。

这里有个Point值得关注，为啥要放缩呢？错误率低不是更好么？

其实这跟目的有关：

（1）首先我们的目的是要用regression来代替classification（为啥要替代？因为PLA/Pocket是NP-hard的问题，不好整；而Linear Model在最优化之后，求解比较容易了），如果regression和classification在性能上差不多，那就可以替代了。

（2）因此，我们把cross-entropy error来scale成0/1 error的upper bound，目的就是让cross-entropy error低的时候，0/1error也低，放缩一下是为了说bound住这个事情。

再简单些就是说，如果实际中linear model用regression给出来的方法分类效果好，那么PLA/Pocket分类效果也好。

接下来对比了PLA、Linear Regression 和 Logistic Regression的方法优缺点：

（1）PLA：线性可分时候很犀利；如果不可分，那就只好Pocket

（2）Linear Regression：最优化可以求出来analytics close solution；但是当|ys|很大的时候，positive direction和negative direction的bound都太松太松了

（3）Logistic Regression：gradient descent可以求解；但是negatvie direction方向bound比较松

总结一些实际经验：linear regression可以作为PLA/Pocket/Logistic Regression的初始值设置。

接下来讲了一种Stochastic Gradient Descent的方法：

（1）原来是所有点在算梯度，然后取平均，再更新w；随机梯度下降，是不用每次算所有点了，每次算一个点，用这个点代替所有点的平均。

（2）敢这么做的原因：是因为 stochastic gradient = true gradient + zero-mean 'noise' directions；因为是zero-mean的noise，所以可以得到average true gradient ≈ average stochastic gradient

（3）SGD方法在logistic regression的应用公式，非常像PLA的公式

（4）从实际情况出发，一般迭代次数达到一定，可以认为SGD已经获得了最佳的结果；ita在实际经验中，一般取值为0.1左右合适。

随后，由binary classification问题延伸到了multiclass的问题，总体来说有两种方法：

1. One-Versus-ALL (OVA) Decomposition

意思就是

（1）每次把一个class和非这个class的当成目标两类，用logistic regression分这两类

（2）分类时输入某个点，然后看这个点上取哪一类的概率最大

这里有一点点儿问题：（2）点中不一定所有类别的概率和是1，虽然实际中影响不大，但是统计学的还是有严谨的方法（multinomial logistic regression）

当类别很多的时候（比如，K=100）那么，每次用logistic regression的时候，正样本和负样本的差别非常大，这样不容易得出正确结果。

为了解决OVA的unbalance问题：每次只取两个类，一共有K类，做C(K,2)次logistic regression就OK了；当给一个输入点的时候，用这C(K，2）个分类器给所有K个类别投票，取票数大的作为输出结果。

这种方法的缺点是：可能效率会低一些（K次变成C(K,2)次）。

但是，如果类别很多，每一类的样本量都差不多的时候，其实OVO的方法不一定比OVA方法效率低。

【Linear Models for Binary Classification】林轩田机器学习基石的更多相关文章

（转载）林轩田机器学习基石课程学习笔记1 — The Learning Problem
(转载)林轩田机器学习基石课程学习笔记1 - The Learning Problem When Can Machine Learn? Why Can Machine Learn? How Can M ...
【Linear Regression】林轩田机器学习基石
这一节开始讲基础的Linear Regression算法. (1)Linear Regression的假设空间变成了实数域 (2)Linear Regression的目标是找到使得残差更小的分割线(超 ...
【 Logistic Regression 】林轩田机器学习基石
这里提出Logistic Regression的角度是Soft Binary Classification.输出限定在0~1之间,用于表示可能发生positive的概率. 具体的做法是在Linear ...
【The VC Dimension】林轩田机器学习基石
首先回顾上节课末尾引出来的VC Bound概念,对于机器学习来说,VC dimension理论到底有啥用. 三点: 1. 如果有Break Point证明是一个好的假设集合 2. 如果N足够大,那么E ...
【Theory of Generalization】林轩田机器学习基石
紧接上一讲的Break Point of H.有一个非常intuition的结论,如果break point在k取到了,那么k+1, k+2,... 都是break point. 那么除此之外,我们还 ...
【Training versus Testing】林轩田机器学习基石
接着上一讲留下的关子,机器学习是否可行与假设集合H的数量M的关系. 机器学习是否可行的两个关键点: 1. Ein(g)是否足够小(在训练集上的表现是否出色) 2. Eout(g)是否与Ein(g)足够 ...
林轩田机器学习基石课程学习笔记5 — Training versus Testing
上节课,我们主要介绍了机器学习的可行性.首先,由NFL定理可知,机器学习貌似是不可行的.但是,随后引入了统计学知识,如果样本数据足够大,且hypothesis个数有限,那么机器学习一般就是可行的.本节 ...
林轩田机器学习基石笔记3—Types of Learning
上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA.PLA能够在平面中选择一条直线将样本数据完全正确分类.而对于线性不可分的情况,可以使用Pocket Algorithm来处理.本节课将主要 ...
【Linear Support Vector Machine】林轩田机器学习技法
首先从介绍了Large_margin Separating Hyperplane的概念. (在linear separable的前提下)找到largest-margin的分界面,即最胖的那条分界线.下 ...

随机推荐

你真的会用ABAP, Java和JavaScript里的constructor么?
如果constructor里调用了一个成员方法,这个方法被子类override了,当初始化一个子类实例时,父类的构造函数被的调用,此时父类构造函数的上下文里调用的成员方法,是父类的实现还是子类的实现? ...
Linux常用命令之文件和目录操作命令
以下是linux操作系统常用的文件和目录操作命令: cd /home 进入 '/ home' 目录' cd .. 返回上一级目录 cd ../.. 返回上两级目录 cd 进入个人的主目录 cd ...
Poj(2488)，按照字典序深搜
题目链接:http://poj.org/problem?id=2488 思路:按照一定的字典序深搜,当时我的想法是把所有的可行的路径都找出来,然后字典序排序. 后来,凡哥说可以在搜索路径的时候就按照字 ...
PHP防止SQL注入文件，引入即可
公司之前做的一个学校网站被黑客攻击并将漏洞公布于网络,其实黑客用的仅仅是一个叫WebCruiserEnt的软件就搞定了,数据库一目了然的呈现在了游客面前,用的就是常用的sql漏洞攻击,这里准备了一个文 ...
2017.11.13 在C语言中是否能用函数实现模块化程序设计
第七章用函数实现模块化程序设计 (1)为什么要用函数? @function既是函数也是功能.函数就是用来完成一定功能的的(函数就是功能),函数名就是给这个功能起一个名字,一个C程序可由一个主函数和若 ...
Advanced Memory Allocation 内存分配进阶［转］
May 01, 2003 By Gianluca Insolvibile in Embedded Software Call some useful fuctions of the GNU C l ...
java重定向与请求转发
重定向是不能直接访问WEB-INF下的资源的,因为重定向是浏览器二次请求,众所周知,客户端是不能直接访问WEB-INF下的资源的. 而请求转发却可以直接访问. 然而重定向却可以间接访问WEN-INF下 ...
【洛谷P1090】合并果子
合并果子题目链接贪心:每次先合并最小的两堆果子用堆实现 #include<iostream> #include<cstdio> using namespace std; ...
vim常用操作整理
一.删除操作 :%s/r//g 删除DOS方式的回车^M :%s= *$== 删除行尾空白 :%s/^(.*)n1/1$/ 删除重复行 :%s/^.pdf/new.pdf/ 只是删除第一个pdf :% ...
五、@property的参数
格式:@property(参数1,参数2)类型名字: 参数可有可无如:@property int age; @property (nonatomic,retain) UIButton* btn; ...

【Linear Models for Binary Classification】林轩田机器学习基石

【Linear Models for Binary Classification】林轩田机器学习基石的更多相关文章

随机推荐

热门专题