pyspark 随机森林特征重要性

# IMPORT

>>> import numpy

>>> from numpy import allclose

>>> from pyspark.ml.linalg import Vectors

>>> from pyspark.ml.feature import StringIndexer

>>> from pyspark.ml.classification import RandomForestClassifier

# PREPARE DATA

>>> df = spark.createDataFrame([

...     (1.0, Vectors.dense(1.0)),

...     (0.0, Vectors.sparse(1, [], []))], ["label", "features"])

>>> stringIndexer = StringIndexer(inputCol="label", outputCol="indexed")

>>> si_model = stringIndexer.fit(df)

>>> td = si_model.transform(df)

# BUILD THE MODEL

>>> rf = RandomForestClassifier(numTrees=3, maxDepth=2, labelCol="indexed", seed=42)

>>> model = rf.fit(td)

# FEATURE IMPORTANCES

>>> model.featureImportances

SparseVector(1, {0: 1.0})

重要性：

model.featureImportances

pyspark 模型简单实例：

https://blog.csdn.net/Katherine_hsr/article/details/80988994

概率：

predictions.select("probability", "label").show(1000)

probability--->即为输出概率

pandas 打乱样本：

import pandas as pd
df = pd.read_excel("window regulator01 _0914新增样本.xlsx")
df = df.sample(frac = 1) #打乱样本

pyspark train、test 随机划分

 train, test = labeled_v.randomSplit([0.75, 0.25])

pyspark 随机森林特征重要性的更多相关文章

kaggle数据挖掘竞赛初步--Titanic<随机森林&特征重要性>
完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Ti ...
机器学习入门-随机森林温度预测的案例 1.datetime.datetime.datetime(将字符串转为为日期格式) 2.pd.get_dummies(将文本标签转换为one-hot编码) 3.rf.feature_importances_(研究样本特征的重要性) 4.fig.autofmt_xdate(rotation=60) 对标签进行翻转
在这个案例中: 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) ...
R语言︱决策树族——随机森林算法
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:有一篇<有监督学习选择深度学习 ...
用随机森林分类器和GBDT进行特征筛选
一.决策树(类型.节点特征选择的算法原理.优缺点.随机森林算法产生的背景) 1.分类树和回归树由目标变量是离散的还是连续的来决定的:目标变量是离散的,选择分类树:反之(目标变量是连续的,但自变量可以 ...
【机器学习】随机森林 Random Forest 得到模型后，评估参数重要性
在得出random forest 模型后,评估参数重要性 importance() 示例如下特征重要性评价标准 %IncMSE 是 increase in MSE.就是对每一个变量比如 X1 随机 ...
kaggle 欺诈信用卡预测——不平衡训练样本的处理方法综合结论就是：随机森林+过采样（直接复制或者smote后，黑白比例1:3 or 1:1）效果比较好！记得在smote前一定要先做标准化！！！其实随机森林对特征是否标准化无感，但是svm和LR就非常非常关键了
先看数据: 特征如下: Time Number of seconds elapsed between each transaction (over two days) numeric V1 No de ...
OpenCV：使用OpenCV3随机森林进行统计特征多类分析
原文链接:在opencv3中的机器学习算法练习:对OCR进行分类本文贴出的代码为自己的训练集所用,作为参考.可运行demo程序请拜访原作者. CNN作为图像识别和检测器,在分析物体结构分布的多类识别 ...
Bagging与随机森林算法原理小结
在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合. ...
[Machine Learning & Algorithm] 随机森林（Random Forest）
1 什么是随机森林? 作为新兴起的.高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来 ...

随机推荐

IPC's epoch 6 is less than the last promised epoch 7
一.错误起因 Active NameNode日志出现异常IPC‘s epoch [X] is less than the last promised epoch [X+1],出现短期的双Active ...
动态加载jar包(一)
一.编写被调用的类 package com.qunar.helloworld; public class HelloWorld { public String sayHello(){ return ( ...
eclipse 运行简单JAVA程序事例
开发JAVA已经有一段时间了,不过要运行JAVA程序,还是在命令行敲命令,很不方便,很麻烦,突然想到eclipse应该也有这个功能,于是百度了一下,将步骤晒出来,供大家参考. 1.创建JAVA工程单 ...
Codeforces Round #310 (Div. 1) B. Case of Fugitive（set二分）
B. Case of Fugitive time limit per test 3 seconds memory limit per test 256 megabytes input standard ...
Python2.7.14安装和pip配置安装及虚拟环境搭建
目录前言 1 Python2.7.14安装 2 pip配置安装 3 虚拟环境安装前言今天在搭建阿里云服务器,需要安装Python相关环境,之前在本机都已经安装过两遍,今天又来安装一遍,安装具 ...
Vim 中如何去掉 ^M 字符
基于 DOS/Windows 的文本文件在每一行末尾有一个 CR(回车)和 LF(换行),而 UNIX 文本只有一个换行,即win每行结尾为\r\n,而linux只有一个\n如果win下的文档上传到l ...
oracle下的数据库实例、表空间、用户及其表的区分
完整的Oracle数据库通常由两部分组成:Oracle数据库和数据库实例. 1) 数据库是一系列物理文件的集合(数据文件,控制文件,联机日志,参数文件等): 2) Oracle数据库实例则是一组Ora ...
Webwork【08】结合实战简析Controller 配置
虽然现在 MVC 框架层出不穷,但做为 Struts 前身的 webwork. 其经典程度不亚于贝利之于足球,双 11 之于淘宝特卖. 本篇将结合 webwork controller 配置文件 xw ...
Java项目持续集成检查项
1) 检查项:使用Super POM. 2) 检查项:GroupID应该以特定名称开头.3) 检查项:版本号符合规范.版本号必须是三段数字,之后加或不加-SNAPSHOT.4) 检查项 ...
Knockoutjs之observable和applyBindings的使用
observable在Knockoutjs中属于一个核心功能,在做监控数据的改变时,必须要用到Knockoutjs的监控属性——observable. ko.observable()的简单使用首先来 ...

pyspark 随机森林特征重要性

pyspark 随机森林特征重要性的更多相关文章

随机推荐

热门专题