随机森林算法OOB_SCORE最佳特征选择

RandomForest算法（有监督学习），可以根据输入数据，选择最佳特征组合，减少特征冗余；
原理：由于随机决策树生成过程采用的Boostrap，所以在一棵树的生成过程并不会使用所有的样本，未使用的样本就叫（Out_of_bag）袋外样本，通过袋外样本，可以评估这个树的准确度，其他子树叶按这个原理评估，最后可以取平均值，即是随机森林算法的性能；
特征选择原理：因为袋外样本的存在，因此不需要进行十字交叉测试（节省时间），通过依次对每个特征赋予一个随机数，观察算法性能的变化，倘若变化大，则说明该特征重要，sklearn中会对每个特征赋予一个分数，分数越大，特征越重要，因此，可以根据特征重要性排序，然后选择最佳特征组合；
随机森林算法特征维度，不同于PCA，随机森林算法能够考虑到特征对类别的影响，而PCA是单纯的数据方差；但是随机森林的缺点是需要迭代计算，如果在大数据条件下，进行选择，就难免有点捉襟见肘了；与LDA区别在于：LDA根据标签，通过变换将同标签数据距离缩小，将累间距离方法；LDA是一种有监督方法，PCA属于无监督方法；
以上是原理和一些个人见解；现在上代码；已经在工作中跑了，学了Python的应该都能看懂，只要改一下数据路径，初始特征选择数量等就可以使用，不懂的可以问我，博客会常在的, 没全部注释！
还有另外一个特征选择，就是通过利用oob对每个特征，迭代进行，评估分数，然后做一个排序，分数越高，特征越重要，然后利用分数由到到低，进行组合，在看模型是否精度是否发生变化，从而选择最优特征组合，这是另一个方法，也是一下代码的由来；

"""

Created on Mon Mar 19 20:22:09 2018

@author: test

function: iteritor for features combintaion

date:2018/3/19

"""

import copy

import sys

import pandas as pd

import numpy as np

from sklearn.ensemble import RandomForestClassifier

data = pd.read_csv(r"C:\Users\huzhipeng_sx\Desktop\data", header=None, sep='\t')

y_train = data[0].values

X_train = data.drop(0, axis=1).values

X_train = pd.DataFrame(np.delete(X_train, -5, axis=1))

features_name = ['a', 'b', 'c']

rf = RandomForestClassifier(n_estimators=200, oob_score=True)

rf.fit(X_train, y_train)

features_imp = rf.feature_importances_

X_train = X_train.as_matrix()  # 输入要是数组，不然无法切片，报错slice

def select_combine(X_train, y_train, features_name, features_imp, select_num):

oob_result = []

fea_result = []

features_imp = list(features_imp)

iter_count = X_train.shape[1] - select_num  # 迭代次数

if iter_count < 0:

print("select_nume must less or equal X_train columns")

else:

features_test = copy.deepcopy(features_imp)  # 生成一个排序特征，进行筛选

features_test.sort()

features_test.reverse()

while iter_count >= 0:

iter_count -= 1

train_index = [features_imp.index(j) for j in features_test[:select_num]]

train_feature_name = [features_name[k] for k in train_index][0]

train_data = X_train[:, train_index]

rf.fit(train_data, y_train)

acc = rf.oob_score_

print(acc)

oob_result.append(acc)

fea_result.append(train_index)

if select_num < X_train.shape[1]:

select_num += 1

else:

break

return max(oob_result), oob_result, fea_result[oob_result.index(max(oob_result))]

select_num = 20

max_result, oob_result, fea_result = select_combine(X_train, y_train, features_name, features_imp, select_num)

本文链接：https: // blog.csdn.net / zehui6202 / article / details / 79625639

随机森林算法OOB_SCORE最佳特征选择的更多相关文章

Python机器学习笔记——随机森林算法
随机森林算法的理论知识随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,但是它在分类和回归上表现出非常惊人的性能,因此,随机森林被誉为“代 ...
用Python实现随机森林算法，深度学习
用Python实现随机森林算法,深度学习拥有高方差使得决策树(secision tress)在处理特定训练数据集时其结果显得相对脆弱.bagging(bootstrap aggregating 的缩 ...
随机森林算法－Deep Dive
0-写在前面随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器.该分类器最早由Leo Breiman和Adele Cutler提出.简单来说,是一种bagging的思想,采用bootstra ...
机器学习——Bagging与随机森林算法及其变种
Bagging算法: 凡解:给定M个数据集,有放回的随机抽取M个数据,假设如此抽取3组,3组数据一定是有重复的,所以先去重.去重后得到3组数据,每组数据量分别是s1,s2,s3,然后三组分别训练组合 ...
RandomForest 随机森林算法与模型参数的调优
公号:码农充电站pro 主页:https://codeshellme.github.io 本篇文章来介绍随机森林(RandomForest)算法. 1,集成算法之 bagging 算法在前边的文章& ...
Bagging与随机森林算法原理小结
在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合. ...
R语言︱决策树族——随机森林算法
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:有一篇<有监督学习选择深度学习 ...
R语言︱机器学习模型评估方案（以随机森林算法为例）
笔者寄语:本文中大多内容来自<数据挖掘之道>,本文为读书笔记.在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率.需要完整的评 ...
H2O中的随机森林算法介绍及其项目实战（python实现）
H2O中的随机森林算法介绍及其项目实战(python实现) 包的引入:from h2o.estimators.random_forest import H2ORandomForestEstimator ...

随机推荐

Linux之nginx负载均衡
Nginx负载均衡概述 Web服务器,直接面向用户,往往要承载大量并发请求,单台服务器难以负荷,我使用多台WEB服务器组成集群,前端使用Nginx负载均衡,将请求分散的打到我们的后端服务器集群中,实现 ...
flutter入门开发的一些坑
flutter入门开发的一些坑很久没写博客了,最近在准备物联网比赛,顺便抽出时间学习了一下flutter,花了近2周完成了一个查看博客博文的一个小的APPdemo,随便截了两张图,如下: 首页博客 ...
15.centos7基础学习与积累-001
1.从头开始积累centos7系统运用大牛博客:https://blog.51cto.com/yangrong/p5 做到精通这个操作系统, 互联网常用服务器品牌: dell: 4u ...
git rebase 版本。。变基
git rebase,顾名思义,就是重新定义(re)起点(base)的作用,即重新定义分支的版本库状态.要搞清楚这个东西,要先看看版本库状态切换的两种情况: 我们知道,在某个分支上,我们可以通过git ...
vmware联网解决方案：host-only共享上网
一.需求说明 vmware通过桥接的方式可以上外网,但是虚拟机的IP地址必须和物理网卡在同一网段,上网环境不同虚拟机必须跟着换ip地址很麻烦,所以最好是采用host-only方式上网. 特别是做架构实 ...
Docker容器化技术（上）
目录 Docker容器化技术一.介绍二.Docker的发展三.Docker安装四.阿里云Docker镜像加速五.Docker的基本概念六.命令七.Docker宿主机与容器通信八.容器内 ...
二维码内嵌LOGO
package Test; import java.awt.BasicStroke; import java.awt.Graphics; import java.awt.Graphics2D; imp ...
Kotlin构造方法详解与初始化过程分析
在上一次https://www.cnblogs.com/webor2006/p/11192025.html已经初识了Kolin的面向对象,先来回顾一下: 介绍了primary 构造方法,其特点回忆一下 ...
RCNN,Fast RCNN,Faster RCNN 的前生今世：（1） Selective Search
Selective Search for Object Recoginition 这篇论文是J.R.R. Uijlings发表在2012 IJCV上的一篇文章,主要介绍了选择性搜索(Selective ...
P3674 小清新人渣的本愿莫队+bitset
ennmm...bitset能过系列. 莫队+bitset \(\mathcal{O}(m\sqrt n + \frac{nm}{w})\) 维护一个正向的 bitset <N> mem ...

随机森林算法OOB_SCORE最佳特征选择

随机森林算法OOB_SCORE最佳特征选择的更多相关文章

随机推荐

热门专题