1. 决策树基本知识

决策树就是通过一系列规则对数据进行分类的一种算法，可以分为分类树和回归树两类，分类树处理离散变量的，回归树是处理连续变量。

样本一般都有很多个特征，有的特征对分类起很大的作用，有的特征对分类作用很小，甚至没有作用。如决定是否对一个人贷款是，这个人的信用记录、收入等就是主要的判断依据，而性别、婚姻状况等等就是次要的判断依据。决策树构建的过程，就是根据特征的决定性程度，先使用决定性程度高的特征分类，再使用决定性程度低的特征分类，这样构建出一棵倒立的树，就是我们需要的决策树模型，可以用来对数据进行分类。

决策树学习的过程可以分为三个步骤：1）特征选择，即从众多特征中选择出一个作为当前节点的分类标准；2）决策树生成，从上到下构建节点；3）剪枝，为了预防和消除过拟合，需要对决策树剪枝。

2. 决策树算法

主要的决策树算法包括ID3、C4.5和CART。

ID3把信息增益作为选择特征的标准。由于取值较多的特征（如学号）的信息增益比较大，这种算法会偏向于取值较多的特征。而且该算法只能用于离散型的数据，优点是不需要剪枝。

C4.5和ID3比较类似，区别在于使用信息增益比替代信息增益作为选择特征的标准，因此比ID3更加科学，并且可以用于连续型的数据，但是需要剪枝。

CART(Classification And Regression Tree)采用的是Gini作为选择的标准。Gini越大，说明不纯度越大，这个特征就越不好。

3. MLlib的决策树算法

MLlib的决策树算法使用的随机森林RandomForest的方法，不过并不是真正的随机森林，因为实际上只有一棵决策树。

直接上代码：

import org.apache.log4j.{ Level, Logger }

import org.apache.spark.{ SparkConf, SparkContext }

import org.apache.spark.mllib.tree.DecisionTree

import org.apache.spark.mllib.tree.model.DecisionTreeModel

import org.apache.spark.mllib.util.MLUtils

/**

  * Created by Administrator on 2017/7/6.

  */

object DecisionTreeTest {

  def main(args: Array[String]): Unit = {

    // 设置运行环境

    val conf = new SparkConf().setAppName("Decision Tree")

      .setMaster("spark://master:7077").setJars(Seq("E:\\Intellij\\Projects\\MachineLearning\\MachineLearning.jar"))

    val sc = new SparkContext(conf)

    Logger.getRootLogger.setLevel(Level.WARN)

    // 读取样本数据并解析

    val dataRDD = MLUtils.loadLibSVMFile(sc, "hdfs://master:9000/ml/data/sample_dt_data.txt")

    // 样本数据划分,训练样本占0.8,测试样本占0.2

    val dataParts = dataRDD.randomSplit(Array(0.8, 0.2))

    val trainRDD = dataParts(0)

    val testRDD = dataParts(1)

    // 决策树参数

    val numClasses = 5

    val categoricalFeaturesInfo = Map[Int, Int]()

    val impurity = "gini"

    val maxDepth = 5

    val maxBins = 32

    // 建立决策树模型并训练

    val model = DecisionTree.trainClassifier(trainRDD, numClasses, categoricalFeaturesInfo,

      impurity, maxDepth, maxBins)

    // 对测试样本进行测试

    val predictionAndLabel = testRDD.map { point =>

      val score = model.predict(point.features)

      (score, point.label, point.features)

    }

    val showPredict = predictionAndLabel.take(50)

    println("Prediction" + "\t" + "Label" + "\t" + "Data")

    for (i <- 0 to showPredict.length - 1) {

      println(showPredict(i)._1 + "\t" + showPredict(i)._2 + "\t" + showPredict(i)._3)

    }

    // 误差计算

    val accuracy = 1.0 * predictionAndLabel.filter(x => x._1 == x._2).count() / testRDD.count()

    println("Accuracy = " + accuracy)

    // 保存模型

    val ModelPath = "hdfs://master:9000/ml/model/Decision_Tree_Model"

    model.save(sc, ModelPath)

    val sameModel = DecisionTreeModel.load(sc, ModelPath)

  }

运行结果：

Spark机器学习(6)：决策树算法的更多相关文章

就是要你明白机器学习系列--决策树算法之悲观剪枝算法(PEP)
前言在机器学习经典算法中,决策树算法的重要性想必大家都是知道的.不管是ID3算法还是比如C4.5算法等等,都面临一个问题,就是通过直接生成的完全决策树对于训练样本来说是“过度拟合”的,说白了是太精确 ...
Spark 实践——用决策树算法预测森林植被
本文基于<Spark 高级数据分析>第4章用决策树算法预测森林植被集. 完整代码见 https://github.com/libaoquan95/aasPractice/tree/mas ...
吴裕雄--天生自然python机器学习：决策树算法
我们经常使用决策树处理分类问题’近来的调查表明决策树也是最经常使用的数据挖掘算法. 它之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的. K-近邻算法可 ...
机器学习-ID3决策树算法（附matlab/octave代码）
ID3决策树算法是基于信息增益来构建的,信息增益可以由训练集的信息熵算得,这里举一个简单的例子 data=[心情好天气好出门心情好天气不好出门心情不好天气好出门心情不好天气不好 ...
[转]机器学习——C4.5 决策树算法学习
1. 算法背景介绍分类树(决策树)是一种十分常用的分类方法.它是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分 ...
python机器学习笔记 ID3决策树算法实战
前面学习了决策树的算法原理,这里继续对代码进行深入学习,并掌握ID3的算法实践过程. ID3算法是一种贪心算法,用来构造决策树,ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性 ...
机器学习回顾篇（7）：决策树算法（ID3、C4.5）
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
机器学习回顾篇（8）：CART决策树算法
1 引言上一篇博客中介绍了ID3和C4.5两种决策树算法,这两种决策树都只能用于分类问题,而本文要说的CART(classification and regression tree)决策树不仅能用于 ...
4-Spark高级数据分析-第四章用决策树算法预测森林植被
预测是非常困难的,更别提预测未来. 4.1 回归简介随着现代机器学习和数据科学的出现,我们依旧把从“某些值”预测“另外某个值”的思想称为回归.回归是预测一个数值型数量,比如大小.收入和温度,而分类则 ...

随机推荐

python接口自动化测试二十五：执行所有用例，并生成HTML测试报告
import requestsimport unittest class TestQQ(unittest.TestCase): '''测试QQ号接口''' # 此注释将展示到测 ...
hdu 1027 输出第m个全排列（next_permutation）
Sample Input6 4 //输出第4个全排列11 8 Sample Output1 2 3 5 6 41 2 3 4 5 6 7 9 8 11 10 # include <cstdio& ...
Collections.sort 给集合排序
List<MenuVo> child_menus = new ArrayList<MenuVo>(); for (MenuVo menuVo : child_menus) { ...
JDK的get请求方式
package com.example.wang.testapp3; import android.app.ProgressDialog; import android.os.Bundle; impo ...
Journal of BitcoinJ 从clone开始
启动Powershell cd D:\workspace mkdir BitcoinJ git init
IIS 之通过 Web.config 修改文件上传大小限制设置方法
在IIS 6.0中,不设置默认大小为4M,设置文件上传大小的方法,maxRequestLength(KB),executionTimeout(毫秒),配置如下节点: <system.web> ...
linux SSH免密码登录远程服务器
背景:无密码登录,所谓的无密码登录其实是指通过证书认证的方式登录,使用一种‘公私钥’认证的方式来进行ssh登录在linux系统中,ssh是远程登录的默认工具,因为该工具的协议使用了RSA/DSA的加 ...
《Android进阶之光》--注解与依赖注入框架
No1: 标准注解: 1)@Override:覆写 2)@Deprecated:过时 3)@SuppressWarnings:取消警告 4)@SafeVarargs:申明使用了可变长度参数的方法 No ...
移动端Tap与滑屏实战技巧总结以及Vue混合开发自定义指令
最近在忙混合开发,因交互相对复杂,所以也踩了很多坑.在此做一下总结. 1.tap事件的实际应用在使用tap事件时,老生常谈的肯定是点透问题,大多情况下,在有滑屏交互的页面时,我们会在根节点阻止默认行 ...
[Web安全] XXE漏洞攻防学习（上）
0x00.XXE漏洞 XXE漏洞全称XML External Entity Injection 即xml外部实体注入漏洞,XXE漏洞发生在应用程序解析XML输入时,没有禁止外部实体的加载,导致可加载恶 ...

Spark机器学习(6)：决策树算法

1. 决策树基本知识

2. 决策树算法

3. MLlib的决策树算法

Spark机器学习(6)：决策树算法的更多相关文章

随机推荐

热门专题