掌握Spark机器学习库-08.7-决策树算法实现分类

数据集

iris.data

数据集概览

代码

package org.apache.spark.examples.examplesforml

import org.apache.spark.SparkConf

import org.apache.spark.ml.classification.{DecisionTreeClassifier, NaiveBayes}

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

import org.apache.spark.ml.feature.VectorAssembler

import org.apache.spark.sql.SparkSession

import scala.util.Random

object DeTree {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("iris")

    val spark = SparkSession.builder().config(conf).getOrCreate()

    spark.sparkContext.setLogLevel("WARN") ///日志级别

    val file = spark.read.format("csv").load("D:\\8-6决策树\\iris.data")

    //file.show()

    import spark.implicits._

    val random = new Random()

    val data = file.map(row =>{

      val label =  row.getString(4) match {

        case "Iris-setosa" => 0

        case "Iris-versicolor" => 1

        case "Iris-virginica" => 2

      }

      (row.getString(0).toDouble,

        row.getString(1).toDouble,

        row.getString(2).toDouble,

        row.getString(3).toDouble,

        label,

        random.nextDouble())

    }).toDF("_c0","_c1","_c2","_c3","label","rand").sort("rand")//.where("label = 1 or label = 0")

    val assembler = new VectorAssembler().setInputCols(Array("_c0","_c1","_c2","_c3")).setOutputCol("features")

    val dataset = assembler.transform(data)

    val Array(train,test) = dataset.randomSplit(Array(0.8,0.2))

    val dt = new DecisionTreeClassifier().setFeaturesCol("features").setLabelCol("label")

    val model = dt.fit(train)

    val result = model.transform(test)

    result.show()

    val evaluator = new MulticlassClassificationEvaluator()

      .setLabelCol("label")

      .setPredictionCol("prediction")

      .setMetricName("accuracy")

    val accuracy = evaluator.evaluate(result)

    println(s"""accuracy is $accuracy""")

  }

}

输出结果：

掌握Spark机器学习库-08.7-决策树算法实现分类的更多相关文章

掌握Spark机器学习库-08.2-朴素贝叶斯算法
数据集 iris.data 数据集概览代码 import org.apache.spark.SparkConf import org.apache.spark.ml.classification.{ ...
掌握Spark机器学习库（课程目录）
第1章初识机器学习在本章中将带领大家概要了解什么是机器学习.机器学习在当前有哪些典型应用.机器学习的核心思想.常用的框架有哪些,该如何进行选型等相关问题. 1-1 导学 1-2 机器学习概述 1- ...
day-8 python自带库实现ID3决策树算法
前一天,我们基于sklearn科学库实现了ID3的决策树程序,本文将基于python自带库实现ID3决策树算法. 一.代码涉及基本知识 1. 为了绘图方便,引入了一个第三方treePlotter模块进 ...
Spark机器学习库（MLlib）官方指南手册中文版
中文https://blog.csdn.net/liulingyuan6/article/details/53582300 https://yq.aliyun.com/articles/608083 ...
掌握Spark机器学习库-07.6-线性回归实现房价预测
数据集 house.csv 数据概览代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.fea ...
掌握Spark机器学习库-09.6-LDA算法
数据集 iris.data 数据集概览代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.cl ...
掌握Spark机器学习库-09.3-kmeans算法实现分类
数据集 iris.data 数据集概览代码 package org.apache.spark.examples.hust.hml.examplesforml import org.apache.s ...
掌握Spark机器学习库-07.14-保序回归算法实现房价预测
数据集 house.csv 数据集概览代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.cl ...
掌握Spark机器学习库-07-回归算法原理
1)机器学习模型理解统计学习,神经网络 2)预测结果的衡量代价函数(cost function).损失函数(loss function) 3)线性回归是监督学习

随机推荐

iOS7获取UUID以及转换MD5
近期项目开发,运用到要获取UUID转MD5,可是iOS7不能使用获取的UDID的接口(涉及到隐私),获取MAC地址的方式的接口在iOS7下也废弃了.眼下可能的就是获取UUID了,可是在iOS7下,UU ...
Eclipse 变量点击高亮显示以及自己定义高亮显示颜色
1.方法一:alt+shift+o 打开/关闭,该功能 2.方法二:windows-> preferences->java->Editor->Mark Occurences ( ...
ExtJs布局中，控件如何水平居中？
如此即可,有图有代码有j8: var formGridHead = Ext.create('Ext.form.Panel', { id: 'MyGridHead', region: 'north', ...
SRM691 Sunnygraphs2
Problem Statement Hero has just constructed a very specific graph. He started with n isolated vertic ...
HTTP传输二进制初探
[转]HTTP传输二进制初探 http://www.51testing.com/?uid-390472-action-viewspace-itemid-233993 [转]HTTP传输二进制初探上一 ...
数据库sqlite3的使用-ios中引用方法
一.简单说明在iOS中使用SQLite3,首先要添加库文件libsqlite3.dylib和导入主头文件. 导入头文件,可以使用库中的函数(是纯C语言的) 二.具体说明新建一个项目,在项目的主界面 ...
【基于libRTMP的流媒体直播之 AAC、H264 解析】
前文我们说到如何在基于 libRTMP 库的流媒体直播过程中推送 AAC .H264 音视频流.本文以上文为基础,阐释如何对 RTMP 包进行解析.重组得到原始的 AAC 音频帧以及 H264 码流. ...
小程序-demo：小程序示例-page/api
ylbtech-小程序-demo:小程序示例-page/api 以下将演示小程序接口能力,具体属性参数详见小程序开发文档. 1. page/component返回顶部 1. a) .js Page({ ...
SDK介绍
软件开发工具包(外语首字母缩写:SDK.外语全称:Software Development Kit)一般都是一些软件工程师为特定的软件包.软件框架.硬件平台.操作系统等建立应用软件时的开发工具的集合. ...
从事UNIX/LInux服务器编程最方便的代码编译工具------(eclipse for c/c++)、(FileZilla)、(Secure CRT) 这三种一定要一起使用之1
今天主要是将前几天搞的Linux学习的心得写出来,希望帮助更多的人进行,方便从事Unix和Linux编程的同行和刚入门者.主要介绍三种工具并给出安装过程,请大家不必怀疑这个博文,此博文是我自己原创.请 ...

掌握Spark机器学习库-08.7-决策树算法实现分类

掌握Spark机器学习库-08.7-决策树算法实现分类的更多相关文章

随机推荐

热门专题