【Random Forest】林轩田机器学习技法

总体来说，林对于random forest的讲解主要是算法概况上的；某种程度上说，更注重insights。

林分别列举了Bagging和Decision Tree的各自特点：

Random Forest就是这二者的结合体。

1）便于并行化

2）保留了C&RT的优势

3）通过bagging的方法削弱了fully-grown tree的缺点

这里提到一个insights：如果各个分类器的diversity越大，aggregation之后的效果可能就越好。

因此，Random Forest不仅样本是boostrapping的，而且对于features的处理上也采用了类似的方式。

采用random subspace的好处就是：特征维度降低了，运算效率提高了。

更进一步，RF的作者又提出了一种延伸的思路：

任何一个low-dimension的feature空间都可以看成是由投影矩阵P对原来feature的变换，或者可以说对原features做了线性组合（combination）

一种特例就是：如果投影过后没有任何变化时，这个P就是natural basis。

RF的作者为了引入更多的randomness，建议在做每一次b(x)的时候，都考虑用投影矩阵来对features做变换。这样就真的是randomness everywhere了。

接下来，林介绍了如何针对RF的特点做模型Validation的问题。

首先，林给出了，在RF的每棵树的boostrapping的过程中，没有被用到（out-of-bag）的样本的比例大概是多少。

假设每棵树都boostrappingN次，那么还是会有1/3的样本是没有被这棵树抽中的。

对于每棵树来说，这些没有被boostrapping过程抽中的样本就叫Out-Of-Bag。

利用这种规律，RF模型的validation方式就有些飘逸了。

1）一种直观的验证思路是，用每棵树的OOB数据来验证gt；然并卵，RF模型并不看重每棵树的分类效果

2）第二种思路就来了，有点儿绕，但是也说得清（可以类比validation by one的验证方法）。

　　比如(x1,y1)这个数据，对于g2,g3是out of bag的，那么对于(x1,y1)这个样本的error，就可以用G(g2,g3)的average来验证。（如果只有（x1,y1)这一个点来验证，那就是validation by one的方法了）。

　　对于(x1,y1)~...(xN,yN)大部分都可以找到，以这些样本为OOG的G(gi...)，分别求这些validation的值，再取一个平均就OK了。

第二种验证思路：

　　a. 既保证了测试的数据绝对没有在训练时被偷窥

　　b. 保证了不是验证单棵子树gt，而是着眼于G(gi...)的表现

这种validation的方式在实际中非常好用，不用re-training，省时省力。

接下来进入了feature selection的议题。

这个议题其实也比较自然，既然Random Forest每一步都需要randomness选特征，自然就要问：哪些特征更important?

首先回顾了线性模型：

线性模型学习过程的结果W，本身就是对变量重要性的度量：|wi|越大（不论正负）都对结果影响比较大，因此也更重要。

还有一种统计学方法，就是用permutation test的思路来做。

比如N个样本，每个样本d维度特征，要想衡量其中第i维特征的重要性，可以把这N个样本的第i维特征都洗牌打乱。再评价洗牌前和洗牌后的模型performance。

但是这样就有一个问题，必须不断地洗牌、训练，过程很繁琐。

于是RF的作者想到一种有些偷懒的trick，如下：

训练的时候，不玩儿permutation了；改在validation的时候玩儿permutation了：即把OOB测试样本的xn,i打乱洗牌，再进行评估验证。

这个trcik也算上是一个非常pratical的想法吧，学习了。

最后，林列举了几个RF模型在实际中的例子：

1）对于简单的数据集，RF模型倾向于得到平滑，置信区间大的分类器

2）对于复杂有噪声的数据（决策树表现不好的），RF模型的降噪性很好

3）森林里选多少棵树比较好？

总之是树越多越好，但是由于是随机森林的，random seed也很重要（这个就要看缘分了）。

【Random Forest】林轩田机器学习技法的更多相关文章

【Matrix Factorization】林轩田机器学习技法
在NNet这个系列中讲了Matrix Factorization感觉上怪怪的,但是听完第一小节课程就明白了. 林首先介绍了机器学习里面比较困难的一种问题:categorical features 这种 ...
【Deep Learning】林轩田机器学习技法
这节课的题目是Deep learning,个人以为说的跟Deep learning比较浅,跟autoencoder和PCA这块内容比较紧密. 林介绍了deep learning近年来受到了很大的关注: ...
【Adaptive Boosting】林轩田机器学习技法
首先用一个形象的例子来说明AdaBoost的过程: 1. 每次产生一个弱的分类器,把本轮错的样本增加权重丢入下一轮 2. 下一轮对上一轮分错的样本再加重学习,获得另一个弱分类器经过T轮之后,学得了T ...
【Radial Basis Function Network】林轩田机器学习技法
这节课主要讲述了RBF这类的神经网络+Kmeans聚类算法,以及二者的结合使用. 首先回归的了Gaussian SVM这个模型: 其中的Gaussian kernel又叫做Radial Basis F ...
【Neural Network】林轩田机器学习技法
首先从单层神经网络开始介绍最简单的单层神经网络可以看成是多个Perception的线性组合,这种简单的组合可以达到一些复杂的boundary. 比如,最简单的逻辑运算AND OR NOT都可以由多 ...
【Decision Tree】林轩田机器学习技法
首先沿着上节课的AdaBoost-Stump的思路,介绍了Decision Tree的路数: AdaBoost和Decision Tree都是对弱分类器的组合: 1)AdaBoost是分类的时候,让所 ...
【Linear Support Vector Machine】林轩田机器学习技法
首先从介绍了Large_margin Separating Hyperplane的概念. (在linear separable的前提下)找到largest-margin的分界面,即最胖的那条分界线.下 ...
【Support Vector Regression】林轩田机器学习技法
上节课讲了Kernel的技巧如何应用到Logistic Regression中.核心是L2 regularized的error形式的linear model是可以应用Kernel技巧的. 这一节,继续 ...
【Dual Support Vector Machine】林轩田机器学习技法
这节课内容介绍了SVM的核心. 首先,既然SVM都可以转化为二次规划问题了,为啥还有有Dual啥的呢?原因如下: 如果x进行non-linear transform后,二次规划算法需要面对的是d`+1 ...

随机推荐

Java中调用MatLab返回值
当在Java中使用MatLab函数时,由于语言语法的不同,Matlab返回多个数据时,想在Java中获取到并进行使用.查阅了网上资料,翻箱倒柜加上自己实战,得出方法如下: 如MatLab函数返回的是N ...
bzoj1801 [Ahoi2009]中国象棋
Description 在N行M列的棋盘上,放若干个炮可以是0个,使得没有任何一个炮可以攻击另一个炮. 请问有多少种放置方法,中国像棋中炮的行走方式大家应该很清楚吧. Input 一行包含两个整数N, ...
Python-程序模块化
一.程序模块化一个程序可能需要导入自己写的模块,或者需要导入.查找.修改文件等操作.当把程序移植到其他路径执行时,会因为模块或文件路径的变化而报错. 程序模块化,就是将整个程序(包含该程序需要用到的 ...
Git log、diff、config 进阶
前一段时间分享了一篇<更好的 git log>简要介绍怎么美化 git log 命令,其中提到了 alias命令,今天再继续谈谈 git相关, 看看如何通过配置自己的 git config ...
前端面试题（来自前端网http://www.qdfuns.com/notes/23515/c9163ddd620baac5dd23141d41982bb8.html）
HTML&CSS 1. 常用那几种浏览器测试?有哪些内核(Layout Engine)? (Q1)浏览器:IE,Chrome,FireFox,Safari,Opera. (Q2)内核:Trid ...
redis 过期回调通知
redis 过期回调通知背景在使用redis的过程中,有时我们会遇到这种情景,当key过期的时候,我们需要去重新做一些操作,比如重新生成value等.之前,一直用的是添加一个celery定时任务, ...
Oracle 的jdbc方法
package com.swift.jdbc_oracle; import java.sql.CallableStatement; import java.sql.Connection; import ...
TLS握手协议
SSL/TLS基础 SSL(Secure Sockets Layer 安全套接层),及其继任者-传输层安全(Transport Layer Security, TLS)是为网络通信提供安全及数据完整性 ...
>题解< 校门外的树
题目描述某校大门外长度为L的马路上有一排树,每两棵相邻的树之间的间隔都是 11 米.我们可以把马路看成一个数轴,马路的一端在数轴 00 的位置,另一端在 LL 的位置:数轴上的每个整数点,即 0,1 ...
ethereum(以太坊)(一)
从这周开始,开始学习以太坊开发--solidity,开始决定往区块链方向发展,毕竟区块链技术应用广泛.一开始接触solidity开发语言不太习惯,毕竟一直在学习python语法,有很多都不能接受.有难 ...

【Random Forest】林轩田机器学习技法

【Random Forest】林轩田机器学习技法的更多相关文章

随机推荐

热门专题