一、简介

RF = Bagging + Decision Tree

随机:数据采样随机,特征选择随机

森林:多个决策树并行放在一起

几个误区:

  • 不是每棵树随机选择特征,而是每一个结点都随机选择固定数目的特征
  • 采样。样本数量为N,采样数量也为N,但是采取的是有放回的采样(bootstrap)。
  • 组合算法。训练结束之后,对新数据进行预测的时候,会让新数据在所有得到的M个决策树上进行预测,最后对结果进行平均或者进行投票。最早的算法是投票:每个树对每一类投票,sklearn的算法是对各个树进行了平均取结果。
  • 分类和回归。随机森林可以做分类,也可以做回归,但是很显然(实践上也是),做回归有点不靠谱,所以研究随机森林回归意思不大。
  • 假设总共有1-6个特征,如果第一个节点随机选出了1、2、3这三个特征,然后根据信息增益保留了1;然后第二个节点随机选择特征是在2-6选择还是1-6中选择呢?答案还是从1-6中选择增益最大的特征

1.RF的算法的流程?

  首先我们来复习一下之前介绍过的两个机器学习模型:Bagging和Decision Tree。Bagging是通过bootstrap的方式,从原始的数据集D中得到新的D^;然后再使用一些base algorithm对每个D^都得到相应的gt​;最后将所有的gt​通过投票uniform的形式组合成一个G,G即为我们最终得到的模型。Decision Tree是通过递归形式,利用分支条件,将原始数据集D切割成一个个子树结构,长成一棵完整的树形结构。Decision Tree最终得到的G(x)是由相应的分支条件b(x)和分支树Gc​(x)递归组成。

  Bagging和Decison Tree算法各自有一个很重要的特点。Bagging具有减少不同gt​的方差variance的特点。这是因为Bagging采用投票的形式,将所有gt ​uniform结合起来,起到了求平均的作用,从而降低variance。而Decision Tree具有增大不同gt​的方差variance的特点。这是因为Decision Tree每次切割的方式不同,而且分支包含的样本数在逐渐减少,所以它对不同的资料D会比较敏感一些,从而不同的D会得到比较大的variance。
  所以说,Bagging能减小variance,而Decision Tree能增大variance。如果把两者结合起来,能否发挥各自的优势,起到优势互补的作用呢?这就是我们接下来将要讨论的aggregation of aggregation,即使用Bagging的方式把众多的Decision Tree进行uniform结合起来。这种算法就叫做随机森林(Random Forest),它将完全长成的C&RT决策树通过bagging的形式结合起来,最终得到一个庞大的决策模型。
  Random Forest算法流程图如下所示:

(1)随机抽取资料

  以上是基本的Random Forest算法,我们再来看一下如何让Random Forest中决策树的结构更有多样性。Bagging中,通过bootstrap的方法得到不同于D的D’,使用这些随机抽取的资料得到不同的gt。

(2)随机抽取特征

【1】随机抽取特征

  例如,原来有100个特征,现在只从中随机选取30个来构成决策树,那么每一轮得到的树都由不同的30个特征构成,每棵树都不一样。假设原来样本维度是d,则只选择其中的d’(d’小于d)个维度来建立决策树结构。这类似是一种从d维到d’维的特征转换,相当于是从高维到低维的投影,也就是说d’维z空间其实就是d维x空间的一个随机子空间(subspace)。通常情况下,d’远小于d,从而保证算法更有效率。Random Forest算法的作者建议在构建C&RT每个分支b(x)的时候,都可以重新选择子特征来训练,从而得到更具有多样性的决策树。【具体怎么选特征看第三节】
 

  所以说,这种增强的Random Forest算法增加了random-subspace

【2】组合特征  

  上面我们讲的是随机抽取特征,除此之外,还可以将现有的特征x,通过数组p进行线性组合,来保持多样性

   这种方法使每次分支得到的不再是单一的子特征集合,而是子特征的线性组合(权重不为1)。好比在二维平面上不止得到水平线和垂直线,也能得到各种斜线。这种做法使子特征选择更加多样性。值得注意的是,不同分支i下的pi是不同的,而且向量pi中大部分元素为零,因为我们选择的只是一部分特征,这是一种低维映射。

  所以,这里的Random Forest算法又有增强,由原来的random-subspace变成了random-combination。顺便提一下,这里的random-combination类似于perceptron模型。

2.Out-of-Bag Estimate

  上一部分我们已经介绍了Random Forest算法,而Random Forest算法重要的一点就是Bagging。接下来将继续探讨bagging中的bootstrap机制到底蕴含了哪些可以为我们所用的东西。

  通过bootstrap得到新的样本集D',再由D'训练不同的gt。我们知道D'中包含了原样本集D中的一些样本,但也有些样本没有涵盖进去。如下表所示,不同的gt下,红色的*表示在中没有这些样本。例如对g1来说,(x2,y2)和(x3,y4)没有包含进去,对g2来说,(x1,y1)和(x2,y2)没有包含进去,等等。每个gt中,红色*表示的样本被称为out-of-bag(OOB) example。

  首先,我们来计算OOB样本到底有多少。假设bootstrap的数量N'=N,那么某个样本(xn,yn)是OOB的概率是:

  其中,e是自然对数,N是原样本集的数量。由上述推导可得,每个gt中,OOB数目大约是1/e*N ,即大约有三分之一的样本没有在bootstrap中被抽到。

  然后,我们将OOB与之前介绍的Validation进行对比:

   这种做法我们并不陌生,就像是我们之前介绍过的Leave-One-Out Cross Validation,每次只对一个样本进行g-的验证一样,只不过这里选择的是每个样本是哪些gt 的OOB,然后再分别进行G'n(x)的验证。每个样本都当成验证资料一次(与留一法相同),最后计算所有样本的平均表现:

3.RF如何选择特征 ?

  如果样本资料特征过多,假如有10000个特征,而我们只想从中选取300个特征,这时候就需要舍弃部分特征。通常来说,需要移除的特征分为两类:一类是冗余特征,即特征出现重复,例如“年龄”和“生日”;另一类是不相关特征,例如疾病预测的时候引入的“保险状况”。这种从d维特征到d’维特征的subset-transform Φ(x)称为Feature Selection,最终使用这些d’维的特征进行模型训练。

特征选择的优点是:

  • 提高效率,特征越少,模型越简单
  • 正则化,防止特征过多出现过拟合
  • 去除无关特征,保留相关性大的特征,解释性强

同时,特征选择的缺点是:

  • 筛选特征的计算量较大
  • 不同特征组合,也容易发生过拟合
  • 容易选到无关特征,解释性差

(1)线性模型

  值得一提的是,在decision tree中,我们使用的decision stump切割方式也是一种feature selection。那么,如何对许多维特征进行筛选呢?我们可以通过计算出每个特征的重要性(即权重),然后再根据重要性的排序进行选择即可。

  这种方法在线性模型中比较容易计算。因为线性模型的score是由每个特征经过加权求和而得到的,而加权系数的绝对值|wi|正好代表了对应特征xi的重要性为多少。|wi|越大,表示对应特征xi越重要,则该特征应该被选择。w的值可以通过对已有的数据集(xi,yi)建立线性模型而得到。

(2)非线性模型

  然而,对于非线性模型来说,因为不同特征可能是非线性交叉在一起的,所以计算每个特征的重要性就变得比较复杂和困难。例如,Random Forest就是一个非线性模型,接下来,我们将讨论如何在RF下进行特征选择。
  RF中,特征选择的核心思想是random test。random test的做法是对于某个特征,如果用另外一个随机值替代它之后的表现比之前更差,则表明该特征比较重要,所占的权重应该较大,不能用一个随机值替代。相反,如果随机值替代后的表现没有太大差别,则表明该特征不那么重要,可有可无。所以,通过比较某特征被随机值替代前后的表现,就能推断出该特征的权重和重要性。
  那么random test中的随机值如何选择呢?通常有两种方法:一是使用uniform或者gaussian抽取随机值替换原特征;一是通过permutation的方式将原来的所有N个样本的第i个特征值重新打乱分布(相当于重新洗牌)。比较而言,第二种方法更加科学,保证了特征替代值与原特征的分布是近似的(只是重新洗牌而已)。这种方法叫做permutation test(随机排序测试),即在计算第i个特征的重要性的时候,将N个样本的第i个特征重新洗牌,然后比较D和D^(p)表现的差异性。如果差异很大,则表明第i个特征是重要的。

  知道了permutation test的原理后,接下来要考虑的问题是如何衡量上图中的performance,即替换前后的表现。显然,我们前面介绍过performance可以用Eoob(G) 来衡量。但是,对于N个样本的第i个特征值重新洗牌重置的D^(p),要对它进行重新训练,而且每个特征都要重复训练,然后再与原D的表现进行比较,过程非常繁琐。为了简化运算,RF的作者提出了一种方法,就是把permutation的操作从原来的training上移到了OOB validation上去,记为
  也就是说,在训练的时候仍然使用D,但是在OOB验证的时候,将所有的OOB样本的第i个特征重新洗牌,验证G的表现。这种做法大大简化了计算复杂度,在RF的feature selection中应用广泛。

4.RF的参数有哪些,如何调参 ?

  要调整的参数主要是 n_estimatorsmax_features 
(1)n_estimators是森林里树的数量,通常数量越大,效果越好,但是计算时间也会随之增加。 此外要注意,当树的数量超过一个临界值之后,算法的效果并不会很显著地变好。
(2)max_features是分割节点时考虑的特征的随机子集的大小。 这个值越低,方差减小得越多,但是偏差的增大也越多。
  • 回归问题中使用 max_features = n_features
  • 分类问题使用 max_features = sqrt(n_features )(其中 n_features 是特征的个数)是比较好的默认值。 max_depth = None 和 min_samples_split = 2 结合通常会有不错的效果(即生成完全的树)。

(3)warm_start=False:热启动,决定是否使用上次调用该类的结果然后增加新的。

(4)class_weight=None:各个label的权重。
 

进行预测可以有几种形式:

predict_proba(x):给出带有概率值的结果。每个点在所有label的概率和为1.
predict(x):直接给出预测结果。内部还是调用的predict_proba(),根据概率的结果看哪个类型的预测值最高就是哪个类型。
predict_log_proba(x):和predict_proba基本上一样,只是把结果给做了log()处理。
  请记住,这些(默认)值通常不是最佳的,同时还可能消耗大量的内存,最佳参数值应由交叉验证获得。 另外,请注意,在随机森林中,默认使用自助采样法(bootstrap = True), 然而 extra-trees 的默认策略是使用整个数据集(bootstrap = False)。 当使用自助采样法方法抽样时,泛化精度是可以通过剩余的或者袋外的样本来估算的,设置 oob_score = True 即可实现。
 
提示:
默认参数下模型复杂度是:O(M*N*log(N)) , 其中 M 是树的数目, N 是样本数。 可以通过设置以下参数来降低模型复杂度: min_samples_split , min_samples_leaf , max_leaf_nodes`` 和 ``max_depth 。

5.RF的优缺点 ?

优点:

  • 不同决策树可以由不同主机并行训练生成,效率很高;
  • 随机森林算法继承了CART的优点;
  • 将所有的决策树通过bagging的形式结合起来,避免了单个决策树造成过拟合的问题。

缺点:

  • 当我们需要推断超出范围的独立变量或非独立变量,随机森林做得并不好,我们最好使用如 MARS 那样的算法。
  • 随机森林算法在训练和预测时都比较慢。
  • 如果需要区分的类别十分多,随机森林的表现并不会很好。

参考文献:

【1】林轩田机器学习技法课程学习笔记10 — Random Forest

【2】从决策树到随机森林:树型算法的原理与实现

【3】独家 | 一文读懂随机森林的解释和实现

Random Forest总结的更多相关文章

  1. [Machine Learning & Algorithm] 随机森林(Random Forest)

    1 什么是随机森林? 作为新兴起的.高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来 ...

  2. paper 85:机器统计学习方法——CART, Bagging, Random Forest, Boosting

    本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest B ...

  3. paper 56 :机器学习中的算法:决策树模型组合之随机森林(Random Forest)

    周五的组会如约而至,讨论了一个比较感兴趣的话题,就是使用SVM和随机森林来训练图像,这样的目的就是 在图像特征之间建立内在的联系,这个model的训练,着实需要好好的研究一下,下面是我们需要准备的入门 ...

  4. 多分类问题中,实现不同分类区域颜色填充的MATLAB代码(demo:Random Forest)

    之前建立了一个SVM-based Ordinal regression模型,一种特殊的多分类模型,就想通过可视化的方式展示模型分类的效果,对各个分类区域用不同颜色表示.可是,也看了很多代码,但基本都是 ...

  5. Ensemble Learning 之 Bagging 与 Random Forest

    Bagging 全称是 Boostrap Aggregation,是除 Boosting 之外另一种集成学习的方式,之前在已经介绍过关与 Ensemble Learning 的内容与评价标准,其中“多 ...

  6. Aggregation(1):Blending、Bagging、Random Forest

    假设我们有很多机器学习算法(可以是前面学过的任何一个),我们能不能同时使用它们来提高算法的性能?也即:三个臭皮匠赛过诸葛亮. 有这么几种aggregation的方式: 一些性能不太好的机器学习算法(弱 ...

  7. Plotting trees from Random Forest models with ggraph

    Today, I want to show how I use Thomas Lin Pederson's awesome ggraph package to plot decision trees ...

  8. Random Forest Classification of Mushrooms

    There is a plethora of classification algorithms available to people who have a bit of coding experi ...

  9. 统计学习方法——CART, Bagging, Random Forest, Boosting

    本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest B ...

  10. 机器学习 数据挖掘 推荐系统机器学习-Random Forest算法简介

    Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法,可以用来做分类,聚类,回归,和生存分析,这里只简单介绍该 ...

随机推荐

  1. 向量 dot cross product 点积叉积 几何意义

    向量 dot cross product 点积叉积 几何意义 有向量 a b 点积 a * b = |a| * |b| * cosθ 几何意义: 1. a * b == 0,则 a ⊥ b 2. a ...

  2. Linux内核原理与分析-第二周作业

    写之前回看了一遍秒速五厘米:如果

  3. 根Activity启动过程

    --摘自<Android进阶解密> 根Activity启动过程中会涉及4个进程,分别是Zygote进程.Launcher进程.AMS所在进程(SystemServer进程).应用程序进程, ...

  4. python面向对象编程进阶

    python面向对象编程进阶 一.isinstance(obj,cls)和issubclass(sub,super) isinstance(obj,cls)检查是否obj是否是类 cls 的对象 1 ...

  5. C# 堆栈(Stack)和队列(Queue)

    一.什么是堆?(Heap)      堆是无序的,是一片不连续的内存域,由用户自己来控制和释放,如果用户自己不释放的话,当内存达到一定的特定值时,通过垃圾回收器(GC)来回收.      是程序运行期 ...

  6. North American Invitational Programming Contest 2018

    A. Cut it Out! 枚举第一刀,那么之后每切一刀都会将原问题划分成两个子问题. 考虑DP,设$f[l][r]$表示$l$点顺时针一直到$r$点还未切割的最小代价,预处理出每条边的代价转移即可 ...

  7. QT杂记(网上资料整理而成)

    1.新建工程时,Qwidget和Qdialog和Qmianwindow三者的区别? QWidget是所有图形界面的基类QMainWindow是一个提供了菜单.工具条的程序主窗口QDialog是对话框. ...

  8. (68)Wangdao.com第十一天_JavaScript 数组的常用方法

    数组的常用方法: 向数组末尾添加一个或多个元素,返回新长度 var arr = new Array(); arr.push("唐僧"); // 返回 1 删除数组最后一个元素,返回 ...

  9. 2018-2019-1 20189210 《LInux内核原理与分析》第七周作业

    一 .Linux内核创建一个新进程的过程 1.操作系统内核三大功能是进程管理,内存管理,文件系统,最核心的是进程管理. 2.对应的三个抽象的概念是进程,虚拟内存和文件.其中,操作系统最核心的功能是进程 ...

  10. transient关键字的使用

    实例说明 在保存对象时,会将对象的状态也一并保存,然而有些状态是不应该被保存的,如表示密码的属性.此时可以使用transient关键字来修饰不想保存的属性. 关键技术 transient关键字用来防止 ...