【Random Forest】林轩田机器学习技法

总体来说，林对于random forest的讲解主要是算法概况上的；某种程度上说，更注重insights。

林分别列举了Bagging和Decision Tree的各自特点：

Random Forest就是这二者的结合体。

1）便于并行化

2）保留了C&RT的优势

3）通过bagging的方法削弱了fully-grown tree的缺点

这里提到一个insights：如果各个分类器的diversity越大，aggregation之后的效果可能就越好。

因此，Random Forest不仅样本是boostrapping的，而且对于features的处理上也采用了类似的方式。

采用random subspace的好处就是：特征维度降低了，运算效率提高了。

更进一步，RF的作者又提出了一种延伸的思路：

任何一个low-dimension的feature空间都可以看成是由投影矩阵P对原来feature的变换，或者可以说对原features做了线性组合（combination）

一种特例就是：如果投影过后没有任何变化时，这个P就是natural basis。

RF的作者为了引入更多的randomness，建议在做每一次b(x)的时候，都考虑用投影矩阵来对features做变换。这样就真的是randomness everywhere了。

接下来，林介绍了如何针对RF的特点做模型Validation的问题。

首先，林给出了，在RF的每棵树的boostrapping的过程中，没有被用到（out-of-bag）的样本的比例大概是多少。

假设每棵树都boostrappingN次，那么还是会有1/3的样本是没有被这棵树抽中的。

对于每棵树来说，这些没有被boostrapping过程抽中的样本就叫Out-Of-Bag。

利用这种规律，RF模型的validation方式就有些飘逸了。

1）一种直观的验证思路是，用每棵树的OOB数据来验证gt；然并卵，RF模型并不看重每棵树的分类效果

2）第二种思路就来了，有点儿绕，但是也说得清（可以类比validation by one的验证方法）。

　　比如(x1,y1)这个数据，对于g2,g3是out of bag的，那么对于(x1,y1)这个样本的error，就可以用G(g2,g3)的average来验证。（如果只有（x1,y1)这一个点来验证，那就是validation by one的方法了）。

　　对于(x1,y1)~...(xN,yN)大部分都可以找到，以这些样本为OOG的G(gi...)，分别求这些validation的值，再取一个平均就OK了。

第二种验证思路：

　　a. 既保证了测试的数据绝对没有在训练时被偷窥

　　b. 保证了不是验证单棵子树gt，而是着眼于G(gi...)的表现

这种validation的方式在实际中非常好用，不用re-training，省时省力。

接下来进入了feature selection的议题。

这个议题其实也比较自然，既然Random Forest每一步都需要randomness选特征，自然就要问：哪些特征更important?

首先回顾了线性模型：

线性模型学习过程的结果W，本身就是对变量重要性的度量：|wi|越大（不论正负）都对结果影响比较大，因此也更重要。

还有一种统计学方法，就是用permutation test的思路来做。

比如N个样本，每个样本d维度特征，要想衡量其中第i维特征的重要性，可以把这N个样本的第i维特征都洗牌打乱。再评价洗牌前和洗牌后的模型performance。

但是这样就有一个问题，必须不断地洗牌、训练，过程很繁琐。

于是RF的作者想到一种有些偷懒的trick，如下：

训练的时候，不玩儿permutation了；改在validation的时候玩儿permutation了：即把OOB测试样本的xn,i打乱洗牌，再进行评估验证。

这个trcik也算上是一个非常pratical的想法吧，学习了。

最后，林列举了几个RF模型在实际中的例子：

1）对于简单的数据集，RF模型倾向于得到平滑，置信区间大的分类器

2）对于复杂有噪声的数据（决策树表现不好的），RF模型的降噪性很好

3）森林里选多少棵树比较好？

总之是树越多越好，但是由于是随机森林的，random seed也很重要（这个就要看缘分了）。

【Random Forest】林轩田机器学习技法的更多相关文章

【Matrix Factorization】林轩田机器学习技法
在NNet这个系列中讲了Matrix Factorization感觉上怪怪的,但是听完第一小节课程就明白了. 林首先介绍了机器学习里面比较困难的一种问题:categorical features 这种 ...
【Deep Learning】林轩田机器学习技法
这节课的题目是Deep learning,个人以为说的跟Deep learning比较浅,跟autoencoder和PCA这块内容比较紧密. 林介绍了deep learning近年来受到了很大的关注: ...
【Adaptive Boosting】林轩田机器学习技法
首先用一个形象的例子来说明AdaBoost的过程: 1. 每次产生一个弱的分类器,把本轮错的样本增加权重丢入下一轮 2. 下一轮对上一轮分错的样本再加重学习,获得另一个弱分类器经过T轮之后,学得了T ...
【Radial Basis Function Network】林轩田机器学习技法
这节课主要讲述了RBF这类的神经网络+Kmeans聚类算法,以及二者的结合使用. 首先回归的了Gaussian SVM这个模型: 其中的Gaussian kernel又叫做Radial Basis F ...
【Neural Network】林轩田机器学习技法
首先从单层神经网络开始介绍最简单的单层神经网络可以看成是多个Perception的线性组合,这种简单的组合可以达到一些复杂的boundary. 比如,最简单的逻辑运算AND OR NOT都可以由多 ...
【Decision Tree】林轩田机器学习技法
首先沿着上节课的AdaBoost-Stump的思路,介绍了Decision Tree的路数: AdaBoost和Decision Tree都是对弱分类器的组合: 1)AdaBoost是分类的时候,让所 ...
【Linear Support Vector Machine】林轩田机器学习技法
首先从介绍了Large_margin Separating Hyperplane的概念. (在linear separable的前提下)找到largest-margin的分界面,即最胖的那条分界线.下 ...
【Support Vector Regression】林轩田机器学习技法
上节课讲了Kernel的技巧如何应用到Logistic Regression中.核心是L2 regularized的error形式的linear model是可以应用Kernel技巧的. 这一节,继续 ...
【Dual Support Vector Machine】林轩田机器学习技法
这节课内容介绍了SVM的核心. 首先,既然SVM都可以转化为二次规划问题了,为啥还有有Dual啥的呢?原因如下: 如果x进行non-linear transform后,二次规划算法需要面对的是d`+1 ...

随机推荐

"COM Surrogate 已停止工作"解决方案（windows7 64位及32位）
根据图示步骤,将以下文件添加至“数据执行保护”的例外列表中. 64位:C:Windows\SysWOW64\dllhost.exe 32位:C:\Windows\System32\dllhost.ex ...
Sublime Text3 + Markdown + 实时预览
Sublime Text3是一款给力的文本编辑器,通过安装插件可以编辑Markdown文本,在编辑Markdown文本的同时可以实时预览编辑效果. 安装准备: 找到菜单栏:Preferences → ...
利用批处理结合Msbuild实现快速编译
我们经常在用vs2005做项目的时候会把一个项目分成几个模块(不管是对于功能上,还是系统构架上面),为的是以后部署,还有修改维护时候的方便.这样就会带来一个问题,随着模块的增加(这里所说得每个模块就是 ...
MySQL入门很简单: 3 操作数据库
登陆:mysq -u root -p 0409 1). 创建, 删除数据库 SHOW DATABASES; 显示已经存在的数据率 CREATE DATABASES 数据库名: 创建数据库 DROP D ...
tomcat7 的The Apache Tomcat Native library which allows optimal performance 的解决
1. 用Myeclipse启动tomcat7启动时可能会收到下面的信息: 七月 24, 2014 10:13:30 上午 org.apache.catalina.core.AprLife ...
Invalid MyEclipse License - Discontinuing this MyEclipse operation. 出现这个错误怎么改正？
Invalid MyEclipse License - Discontinuing this MyEclipse operation这句话的意思是无效的许可证-停用此MyEclipse操作入门就是你的 ...
基数排序C#界面版
第一步:生成数据第二步:读取数据第三步:创建队列第四步:入队分配第五步:出队收集重复第四步与第五步,直到出队入队各四次,完成基数排序:如下:4次入队结束后如下:最后一次出队:基数排序完成.. ...
打表格，字符串处理，POJ(2136)
题目链接:http://poj.org/problem?id=2136 水题WA了半天,结果是数组开小了. #include <stdio.h> #include <string.h ...
TeamCity实战（2）：NuGet服务器
如果有在内网架设NuGet服务器的需要,比如说公司要求所有开发人员的开发机与外网隔离,但是项目开发又必须要通过NuGet获取开发包的情况. 打开选项其实很简单,但是打开之后怎么样更新开发包要复杂些了. ...
this指针和类的继承
神秘的家伙在对象的世界里,有一个特殊的指针,它叫做this.我们从来没有见过他,但是他却从来都存在.我们通过一个典型的例子来认识它: class Human { char fishc; Human( ...

【Random Forest】林轩田机器学习技法

【Random Forest】林轩田机器学习技法的更多相关文章

随机推荐

热门专题