Spark 实践——用决策树算法预测森林植被

本文基于《Spark 高级数据分析》第4章用决策树算法预测森林植被集。

完整代码见 https://github.com/libaoquan95/aasPractice/tree/master/c4/rdf

1.获取数据集

本章用到的数据集是著名的 Covtype 数据集，该数据集可以在线下载（http://t.cn/R2wmIsI），包含一个 CSV 格式的压缩数据文件 covtype.data.gz，附带一个描述数据文件的信息文件 covtype.info。

该数据集记录了美国科罗拉多州不同地块的森林植被类型（也就是现实中的森林，这仅仅是巧合！）每个样本包含了描述每块土地的若干特征，包括海拔、坡度、到水源的距离、遮阳情况和土壤类型，并且随同给出了地块的已知森林植被类型。我们需要总共 54 个特征中的其余各项来预测森林植被类型。

人们已经用该数据集进行了研究，甚至在 Kaggle 大赛（https://www.kaggle.com/c/forestcover-type-prediction）中也用过它。本章之所以研究这个数据集，原因在于它不但包含了数值型特征而且包含了类别型特征。该数据集有 581 012 个样本，虽然还称不上大数据，但作为一个范例来已经足够大，而且也能够反映出大数据上的一些问题。

下载地址：

http://t.cn/R2wmIsIl （原书地址）
https://github.com/libaoquan95/aasPractice/tree/master/c4/covtype

2.数据处理

加载数据

val dataDir = "covtype.data"

val dataWithoutHeader = sc.read. option("inferSchema", true).option("header", false). csv(dataDir)

dataWithoutHeader.printSchema

结构化数据

val colNames = Seq(

    "Elevation", "Aspect", "Slope",

    "Horizontal_Distance_To_Hydrology", "Vertical_Distance_To_Hydrology",

    "Horizontal_Distance_To_Roadways",

    "Hillshade_9am", "Hillshade_Noon", "Hillshade_3pm",

    "Horizontal_Distance_To_Fire_Points"

) ++ (

    (0 until 4).map(i => s"Wilderness_Area_$i")

    ) ++ (

    (0 until 40).map(i => s"Soil_Type_$i")

    ) ++ Seq("Cover_Type")

val data = dataWithoutHeader.toDF(colNames:_*).

    withColumn("Cover_Type", $"Cover_Type".cast("double"))

val Array(trainData, testData) = data.randomSplit(Array(0.9, 0.1))

trainData.cache()

testData.cache()

data.printSchema

3.构造决策树

构造特征向量

val inputCols = trainData.columns.filter(_ != "Cover_Type")

val assembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("featureVector")

val assembledTrainData = assembler.transform(trainData)

val classifier = new DecisionTreeClassifier().

    setSeed(Random.nextLong()).

    setLabelCol("Cover_Type").

    setFeaturesCol("featureVector").

    setPredictionCol("prediction")

训练模型

val model = classifier.fit(assembledTrainData)

println(model.toDebugString)

model.featureImportances.toArray.zip(inputCols).sorted.reverse.foreach(println)

val predictions = model.transform(assembledTrainData)

predictions.select("Cover_Type", "prediction", "probability").  show(truncate = false)

评估模型

val evaluator = new MulticlassClassificationEvaluator(). setLabelCol("Cover_Type"). setPredictionCol("prediction")

val accuracy = evaluator.setMetricName("accuracy").evaluate(predictions)

val f1 = evaluator.setMetricName("f1").evaluate(predictions)

println(accuracy)

println(f1)

val predictionRDD = predictions.

    select("prediction", "Cover_Type").

    as[(Double,Double)].rdd

val multiclassMetrics = new MulticlassMetrics(predictionRDD)

println(multiclassMetrics.confusionMatrix)

val confusionMatrix = predictions.

    groupBy("Cover_Type").

    pivot("prediction", (1 to 7)).

    count().

    na.fill(0.0).

    orderBy("Cover_Type")

confusionMatrix.show()

Spark 实践——用决策树算法预测森林植被的更多相关文章

4-Spark高级数据分析-第四章用决策树算法预测森林植被
预测是非常困难的,更别提预测未来. 4.1 回归简介随着现代机器学习和数据科学的出现,我们依旧把从“某些值”预测“另外某个值”的思想称为回归.回归是预测一个数值型数量,比如大小.收入和温度,而分类则 ...
Spark机器学习(6)：决策树算法
1. 决策树基本知识决策树就是通过一系列规则对数据进行分类的一种算法,可以分为分类树和回归树两类,分类树处理离散变量的,回归树是处理连续变量. 样本一般都有很多个特征,有的特征对分类起很大的作用,有 ...
scikit-learn决策树算法类库使用小结
之前对决策树的算法原理做了总结,包括决策树算法原理(上)和决策树算法原理(下).今天就从实践的角度来介绍决策树算法,主要是讲解使用scikit-learn来跑决策树算法,结果的可视化以及一些参数调参的 ...
决策树算法原理(CART分类树)
决策树算法原理(ID3,C4.5) CART回归树决策树的剪枝在决策树算法原理(ID3,C4.5)中,提到C4.5的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不 ...
python机器学习笔记 ID3决策树算法实战
前面学习了决策树的算法原理,这里继续对代码进行深入学习,并掌握ID3的算法实践过程. ID3算法是一种贪心算法,用来构造决策树,ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性 ...
决策树算法原理－－good blog
转载于:http://www.cnblogs.com/pinard/p/6050306.html (楼主总结的很好,就拿来主义了,不顾以后还是多像楼主学习) 决策树算法在机器学习中算是很经典的一个算法 ...
决策树算法的Python实现—基于金融场景实操
决策树是最经常使用的数据挖掘算法,本次分享jacky带你深入浅出,走进决策树的世界基本概念决策树(Decision Tree) 它通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数 ...
R_Studio(决策树算法)鸢尾花卉数据集Iris是一类多重变量分析的数据集【精】
鸢尾花卉数据集Iris是一类多重变量分析的数据集通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类针对 ...

随机推荐

libco协程库上下文切换原理详解
缘起 libco 协程库在单个线程中实现了多个协程的创建和切换.按照我们通常的编程思路,单个线程中的程序执行流程通常是顺序的,调用函数同样也是 “调用——返回”,每次都是从函数的入口处开始执行.而li ...
[Luogu 3707] SDOI2017 相关分析
[Luogu 3707] SDOI2017 相关分析前言 Capella 和 Frank 一样爱好天文学. 她常在冬季的夜晚,若有所思地望着东北方上空的五边形中,最为耀眼的一个顶点. 那一抹金黄曾带 ...
不要以为字段以transient修饰的话就一定不会被序列化
1: 先阅读这边文章:http://www.importnew.com/21517.html 2:被transient修饰真的会被序列化吗? 反例:java.util.ArrayList中底层存储数组 ...
2.3.3 Button(按钮)与ImageButton(图像按钮)
本节引言: 今天给大家介绍的Android基本控件中的两个按钮控件, Button普通按钮 ImageButton图像按钮: 其实ImageButton和Button的用法基本类似,至于与图片相关的则 ...
kali 2016.2安装及配置
之前安装过kali,现在换了台电脑重新安装一遍,顺便记录下来,因为面向新手所以会很详(luo)细(suo) 安装: 首先到官网去下载镜像文件:https://www.kali.org/download ...
vagrant特性——基于docker开发环境（docker和vagrant的结合）-4-简单例子-有问题
运行一个十分简单的例子: Vagrant.configure() do |config| config.vm.provider "docker" do |d| d.image = ...
Oracle 11g常用管理命令（用户、表空间、权限）
PS:下面是Oracle 11g最常用的基本管理命令,包括创建用户.表空间,权限分配等.以下命令本人都验证操作过,并加上了本人的小结与说明. 1.启动oracle数据库: 从root切换到oracle ...
gdb中信号
信号(Signals) 信号是一种软中断,是一种处理异步事件的方法.一般来说,操作系统都支持许多信号.尤其是UNIX,比较重要应用程序一般都会处理信号.UNIX定义了许多信号,比如SIGINT表示中 ...
使用Highcharts生成折线图_at last
//数据库数据的读取,读取数据后数据格式的转换,还有highchart数据源的配置,伤透了脑筋. anyway,最终开张了.哈哈! 数据库连接:conn_orcale.php <?php $db ...
大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令
一.kafka常用命令 1.创建topic bin/kafka-topics. --replication-factor --zookeeper mini1: // 如果配置了PATH可以省略相关命令 ...

Spark 实践——用决策树算法预测森林植被

1.获取数据集

2.数据处理

3.构造决策树

Spark 实践——用决策树算法预测森林植被的更多相关文章

随机推荐

热门专题