RandomForest中的feature

随机森林算法（RandomForest）的输出有一个变量是 feature_importances_ ，翻译过来是特征重要性，具体含义是什么，这里试着解释一下。

参考官网和其他资料可以发现，RF可以输出两种 feature_importance，分别是Variable importance和Gini importance，两者都是feature_importance，只是计算方法不同。

Variable importance

选定一个feature M，在所有OOB样本的feature M上人为添加噪声，再测试模型在OOB上的判断精确率，精确率相比没有噪声时下降了多少，就表示该特征有多重要。

假如一个feature对数据分类很重要，那么一旦这个特征的数据不再准确，对测试结果会造成较大的影响，而那些不重要的feature，即使受到噪声干扰，对测试结果也没什么影响。这就是 Variable importance 方法的朴素思想。

[添加噪声：这里官网给出的说法是 randomly permute the values of variable m in the oob cases，permute的含义我还不是很确定，有的说法是打乱顺序，有的说法是在数据上加入白噪声。]

Gini importance

选定一个feature M，统计RF的每一棵树中，由M形成的分支节点的Gini指数下降程度（或不纯度下降程度）之和，这就是M的importance。

两者对比来看，前者比后者计算量更大，后者只需要一边构建DT，一边做统计就可以。从sklearn的官方文档对feature_importances_参数的描述来看，sklearn应当是使用了Gini importance对feature进行排序，同时sklearn把所有的Gini importance以sum的方式做了归一化，得到了最终的feature_importances_输出参数。

参考文献：

RandomForest 官网 https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

RandomForest中的feature_importance的更多相关文章

Spark中决策树源码分析
1.Example 使用Spark MLlib中决策树分类器API,训练出一个决策树模型,使用Python开发. """ Decision Tree Classifica ...
XGBOOST/GBDT，RandomForest/Bagging的比较
原创文章:http://blog.csdn.net/qccc_dm/article/details/63684453 首先XGBOOST,GBDT,RF都是集成算法,RF是Bagging的变体,与Ba ...
R语言︱情感分析—基于监督算法R语言实现（二）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:本文大多内容来自未出版的<数据 ...
机器学习算法总结(四)——GBDT与XGBOOST
Boosting方法实际上是采用加法模型与前向分布算法.在上一篇提到的Adaboost算法也可以用加法模型和前向分布算法来表示.以决策树为基学习器的提升方法称为提升树(Boosting Tree).对 ...
随机森林算法－Deep Dive
0-写在前面随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器.该分类器最早由Leo Breiman和Adele Cutler提出.简单来说,是一种bagging的思想,采用bootstra ...
GB、GBDT、XGboost理解
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类.回归.排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的.本文尝试一步一步梳理GB.GBDT.xgboost,它们 ...
Python机器学习笔记集成学习总结
集成学习(Ensemble learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器显著优越的泛化性能.它不是一种单独的机器学习算法啊,而更像是一种优 ...
Python开源框架
info:更多Django信息url:https://www.oschina.net/p/djangodetail: Django 是 Python 编程语言驱动的一个开源模型-视图-控制器(MVC) ...
原生xgboost中如何输出feature_importance
网上教程基本都是清一色的使用sklearn版本,此时的XGBClassifier有自带属性feature_importances_,而特征名称可以通过model._Booster.feature_na ...

随机推荐

CSS网页布局垂直居中整理
一.使用CSS3处理垂直居中方式 1.使用Flex布局处理(推荐),简单好用 body,html{ width:100%; height:100%; } .out { width: 20%; heig ...
shell自动补全功能：bash和zsh
首要一点:shell有多种,比如bash.zsh.csh.ksh.sh.tcsh等因此,制作自动补全功能时,要先搞清楚,你使用的是哪种shell,各个shell制作方法是不同的,网上大部分介绍的是关 ...
ThinikPhp 将数据库模型的增、删、改操作写入日志
Thinkphp中的模型可以对数据库字段进行验证规则的设置和设置一些字段的默认值(比如字段为当前时间)以及在操作数据时的的一些回调方法等基本上每一个模型都需要设置一些验证规则和字段默认值的设置, ...
Juno Puppet Opertaors Meetup小结
今年五月刚结束的Juno OpenStack Summit是半年一度的Openstack盛会,抛去那些迷花渐欲乱人眼的商业活动,我们来看一看本届summit puppet-openstack社区有哪些 ...
java 对一个字符串进行加减乘除的运算
记录一个小程序,里面涉及到的JAVA知识点有:字符串扫描,list删除元素的方法,泛型的使用,JAVA中的/要注意的事项.有兴趣的可以看看 package com.demo; import java. ...
基于Ubuntu 搭建 VNC 远程桌面服务
系统要求:Ubuntu 16.04.1 LTS 64 位操作系统安装.启动 VNC VNC 远程桌面原理注:本小节内容旨在帮助您更好地了解 Xorg.X11.VNC 等概念和原理,如果你不想了解原 ...
【SqlServer】SqlServer的常规操作
创建一张新表,不负责任何数据(该表不会有原来表的主键.索引等等) select * into NewTable from OldTable where 1<>1; 创建一张新表,并且复制旧 ...
Swift 柯里化
前言由于柯里化在业务层的应用较少,所以从 Swift 3.0 开始移除了柯里化的用法,但是 Swift 的很多底层特性是使用柯里化来表达的. 1.柯里化 1.1 柯里化简介柯里化(Currying ...
ajax之async属性
Ajax请求中的async:false/true的作用官方的解释是:http://api.jquery.com/jQuery.ajax/ async Boolean Default: true By ...
开发FTP不要使用sun.net.ftp.ftpClient
转自:http://cai21cn.iteye.com/blog/700188 在开发一个web应用过程中,需要开发一个服务使用ftp功能将数据传输一个网外的ftp服务器.最初使用sun.net.ft ...

RandomForest中的feature_importance

Variable importance

Gini importance

RandomForest中的feature_importance的更多相关文章

随机推荐

热门专题