Spark mllib 随机森林算法的简单应用（附代码）

此前用自己实现的随机森林算法，应用在titanic生还者预测的数据集上。事实上，有很多开源的算法包供我们使用。无论是本地的机器学习算法包sklearn 还是分布式的spark mllib，都是非常不错的选择。
　　Spark是目前比较流行的分布式计算解决方案，同时支持集群模式和本地单机模式。由于其通过scala语言开发，原生支持scala，同时由于python在科学计算等领域的广泛应用，Spark也提供了python的接口。

Spark的常用操作详见官方文档：
http://spark.apache.org/docs/latest/programming-guide.html

在终端下面键入如下命令，切换到spark的目录，进入相应的环境：
cd $SPARK_HOME

cd ./bin

./pyspark

可以看到，出现了python 的版本号以及spark的logo

此时，仍然是输入一句，运行一句并输出。可以事先编辑好脚本保存为filename然后：

./spark-submit filename

下面给出详细的代码：

import pandas as pd
import numpy as np
from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.tree import RandomForest
#将类别数量大于2的类别型变量进行重新编码，并把数据集变成labeledPoint格式
#df=pd.read_csv('/home/kim/t.txt',index_col=0)
#for col in ['Pclass','embrk']:
# values=df[col].drop_duplicates()
# for v in values:
# col_name=col+str(v)
# df[col_name]=(df[col]==v)
# df[col_name]=df[col_name].apply(lambda x:int(x))
#df=df.drop(['Pclass','embrk'],axis=1)
#df.to_csv('train_data')
#读入数据集变成弹性分布式数据集RDD ，由于是有监督学习，需要转换为模型输入的格式LabeledPoint
rdd=pyspark.SparkContext.textFile('/home/kim/train')
train=rdd.map(lambda x:x.split(',')[1])
train=train.map(lambda line:LabeledPoint(line[1],line[2:]))
#模型训练
model=RandomForest.trainClassifier\
(train, numClasses=2, categoricalFeaturesInfo={},numTrees=1000,\
featureSubsetStrategy="auto",impurity='gini', maxDepth=4, maxBins=32)
#包含LabeledPoint对象的RDD，应用features方法返回其输入变量的值,label方法返回其真实类别
data_p=train.map(lambda lp:lp.features)
v=train.map(lambda lp:lp.label)
prediction=model.predict(data_p)
vp=v.zip(prediction)
#最后输出模型在训练集上的正确率
MSE=vp.map(lambda x:abs(x[0]-x[1]).sum())/vp.count()
print("MEAN SQURE ERROR: "+str(MSE))

import pandas as pd

import numpy as np

from pyspark.mllib.regression import LabeledPoint

from pyspark.mllib.tree import RandomForest

#将类别数量大于2的类别型变量进行重新编码，并把数据集变成labeledPoint格式

#df=pd.read_csv('/home/kim/t.txt',index_col=0)

#for col in ['Pclass','embrk']:

#    values=df[col].drop_duplicates()

#    for v in values:

#        col_name=col+str(v)

#        df[col_name]=(df[col]==v)

#        df[col_name]=df[col_name].apply(lambda x:int(x))

#df=df.drop(['Pclass','embrk'],axis=1)

#df.to_csv('train_data')

#读入数据集变成弹性分布式数据集RDD ，由于是有监督学习，需要转换为模型输入的格式LabeledPoint

rdd=pyspark.SparkContext.textFile('/home/kim/train')

train=rdd.map(lambda x:x.split(',')[1])

train=train.map(lambda line:LabeledPoint(line[1],line[2:]))

#模型训练

model=RandomForest.trainClassifier\

(train, numClasses=2, categoricalFeaturesInfo={},numTrees=1000,\

featureSubsetStrategy="auto",impurity='gini', maxDepth=4, maxBins=32)

#包含LabeledPoint对象的RDD，应用features方法返回其输入变量的值,label方法返回其真实类别

data_p=train.map(lambda lp:lp.features)

v=train.map(lambda lp:lp.label)

prediction=model.predict(data_p)

vp=v.zip(prediction)

#最后输出模型在训练集上的正确率

MSE=vp.map(lambda x:abs(x[0]-x[1]).sum())/vp.count()

print("MEAN SQURE ERROR: "+str(MSE))

后面可以多加测试，例如：

使用更大规模的数据集；

将数据集划分为训练集测试集，在训练集上建模在测试集上评估模型性能；

使用mllib里面的其他算法并比较效果，等等

欢迎大家与我交流！

Spark mllib 随机森林算法的简单应用（附代码）的更多相关文章

spark 随机森林算法案例实战
随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数 ...
随机森林算法demo python spark
关键参数最重要的,常常需要调试以提高算法效果的有两个参数:numTrees,maxDepth. numTrees(决策树的个数):增加决策树的个数会降低预测结果的方差,这样在测试时会有更高的accu ...
使用基于Apache Spark的随机森林方法预测贷款风险
使用基于Apache Spark的随机森林方法预测贷款风险原文:Predicting Loan Credit Risk using Apache Spark Machine Learning R ...
Bagging与随机森林算法原理小结
在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合. ...
R语言︱决策树族——随机森林算法
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:有一篇<有监督学习选择深度学习 ...
R语言︱机器学习模型评估方案（以随机森林算法为例）
笔者寄语:本文中大多内容来自<数据挖掘之道>,本文为读书笔记.在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率.需要完整的评 ...
Python机器学习笔记——随机森林算法
随机森林算法的理论知识随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,但是它在分类和回归上表现出非常惊人的性能,因此,随机森林被誉为“代 ...
随机森林算法－Deep Dive
0-写在前面随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器.该分类器最早由Leo Breiman和Adele Cutler提出.简单来说,是一种bagging的思想,采用bootstra ...
随机森林算法原理及OpenCV应用
随机森林算法是机器学习.计算机视觉等领域内应用较为广泛的一个算法.它不仅可以用来做分类(包括二分类和多分类),也可用来做回归预测,也可以作为一种数据降维的手段. 在随机森林中,将生成很多的决策树,并不 ...

随机推荐

C#中HttpWebRequest、WebClient、HttpClient的使用
HttpWebRequest: 命名空间: System.Net,这是.NET创建者最初开发用于使用HTTP请求的标准类.使用HttpWebRequest可以让开发者控制请求/响应流程的各个方面,如 ...
二十一、RTC驱动
一.RTC设备驱动分析内核的rtc驱动位于内核drivers/rtc目录下,里面包含各个平台的RTC驱动.读者可在此目录下任意选择一个单板驱动文件进行分析,我选择的是rtc-davinci.c文件. ...
go语言的安装及环境配置
Go语言开发环境搭建(ubuntu) 1.清理.卸载之前的 go 语言环境: 删除go目录:sudo rm -rf /usr/local/go 删除软链接(如果建立了软链接):sudo rm -rf ...
mysql优化limit
limit 1.当只需要一条数据的时候,用limit1: 2.当需要提高分页效率的时候: 如果用上面的语句分页少量数据还是可以用的,但是随着数据量越来越大,直接用limit语句查询速度就会越来越慢,降 ...
PowerShell自动部署ASP.NET Core程序到 IIS
Windows PowerShell 是一种命令行外壳程序和脚本环境,使命令行用户和脚本编写者可以利用 .NET Framework的强大功能.有关于更多PowerShell的信息,可参阅百度词条接 ...
typescript 入门教程四
ts中的function和接口 interface PrintCallback{ // 匿名函數,返回类型为空 (success:boolean):void } interface Person{ / ...
Spring Cloud Alibaba学习笔记（2） - Nacos服务发现
1.什么是Nacos Nacos的官网对这一问题进行了详细的介绍,通俗的来说: Nacos是一个服务发现组件,同时也是一个配置服务器,它解决了两个问题: 1.服务A如何发现服务B 2.管理微服务的配置 ...
SVN_03绿色版
1.首先备份当前安装visualSVN文件的bin目录,万一出错还能反个水.一般默认安装路径是C:\Program Files(x86)VisualSVN\bin 2.然后运行ildasm,Windo ...
Java中的反射机制和动态代理
一.反射概述反射机制指的是Java在运行时候有一种自观的能力,能够了解自身的情况为下一步做准备,其想表达的意思就是:在运行状态中,对于任意一个类,都能够获取到这个类的所有属性和方法:对于任意一个对象 ...
在vue项目中使用live2d
成品如图: 那么几步简单说明怎么用吧: 第一,先去github上下载相应的静态资源: https://github.com/xiazeyu/live2d-widget-models 第二,将packg ...

Spark mllib 随机森林算法的简单应用（附代码）

Spark mllib 随机森林算法的简单应用（附代码）的更多相关文章

随机推荐

热门专题