Sklearn库例子——决策树分类

Sklearn上关于决策树算法使用的介绍：http://scikit-learn.org/stable/modules/tree.html

1、关于决策树：决策树是一个非参数的监督式学习方法，主要用于分类和回归。算法的目标是通过推断数据特征，学习决策规则从而创建一个预测目标变量的模型。如下如所示，决策树通过一系列if-then-else 决策规则近似估计一个正弦曲线。

决策树优势：

简单易懂，原理清晰，决策树可以实现可视化
数据准备简单。其他的方法需要实现数据归一化，创建虚拟变量，删除空白变量。(注意：这个模块不支持缺失值)
使用决策树的代价是数据点的对数级别。
能够处理数值和分类数据
能够处理多路输出问题
使用白盒子模型(内部结构可以直接观测的模型)。一个给定的情况是可以观测的，那么就可以用布尔逻辑解释这个结果。相反，如果在一个黑盒模型(ANN)，结果可能很难解释
可以通过统计学检验验证模型。这也使得模型的可靠性计算变得可能
即使模型假设违反产生数据的真实模型，表现性能依旧很好。

决策树劣势：

可能会建立过于复杂的规则，即过拟合。为避免这个问题，剪枝、设置叶节点的最小样本数量、设置决策树的最大深度有时候是必要的。
决策树有时候是不稳定的，因为数据微小的变动，可能生成完全不同的决策树。可以通过总体平均(ensemble)减缓这个问题。应该指的是多次实验。
学习最优决策树是一个NP完全问题。所以，实际决策树学习算法是基于试探性算法，例如在每个节点实现局部最优值的贪心算法。这样的算法是无法保证返回一个全局最优的决策树。可以通过随机选择特征和样本训练多个决策树来缓解这个问题。
有些问题学习起来非常难，因为决策树很难表达。如：异或问题、奇偶校验或多路复用器问题
如果有些因素占据支配地位，决策树是有偏的。因此建议在拟合决策树之前先平衡数据的影响因子。

2、分类

DecisionTreeClassifier 能够实现多类别的分类。输入两个向量：向量X，大小为[n_samples,n_features]，用于记录训练样本；向量Y，大小为[n_samples]，用于存储训练样本的类标签。

from sklearn import tree

X = [[0, 0], [1, 1]]

Y = [0, 1]

clf = tree.DecisionTreeClassifier()

clf = clf.fit(X, Y)

clf.predict([[2., 2.]])

clf.predict_proba([[2., 2.]])

下面我们使用iris数据集：

from sklearn.datasets import load_iris

from sklearn import tree

iris = load_iris()

clf = tree.DecisionTreeClassifier()

clf = clf.fit(iris.data, iris.target)

# export the tree in Graphviz format using the export_graphviz exporter

with open("iris.dot", 'w') as f:

    f = tree.export_graphviz(clf, out_file=f)

# predict the class of samples

clf.predict(iris.data[:1, :])

# the probability of each class

clf.predict_proba(iris.data[:1, :])

　安装Graphviz将其添加到环境变量，使用dot创建一个PDF文件。dot -Tpdf iris.dot -o iris.pdf　

　关于安装Graphviz方法请参照：http://blog.csdn.net/lanchunhui/article/details/49472949

运行结果在文件夹下会有：

这两个文件。我们打开iris.pdf

你也可以通过安装pydotplus包。安装方式：pip install pydotplus.在Python 中直接生成：

import pydotplus

dot_data = tree.export_graphviz(clf, out_file=None)

graph = pydotplus.graph_from_dot_data(dot_data)

graph.write_pdf("iris.pdf")

　注意：运行这段代码是会出错。我解决了很久没有解决掉。可以参考：http://stackoverflow.com/questions/31209016/python-pydot-and-decisiontree/36456995#36456995

下面代码是Sklearn官网上的演示代码：

import numpy as np

import matplotlib.pyplot as plt

from sklearn.datasets import load_iris

from sklearn.tree import DecisionTreeClassifier

# Parameters

n_classes = 3

plot_colors = "bry"

plot_step = 0.02

# Load data

iris = load_iris()

for pairidx, pair in enumerate([[0, 1], [0, 2], [0, 3],

                                [1, 2], [1, 3], [2, 3]]):

    # We only take the two corresponding features

    X = iris.data[:, pair]

    y = iris.target

    # Train

    clf = DecisionTreeClassifier().fit(X, y)

    # Plot the decision boundary

    plt.subplot(2, 3, pairidx + 1)

    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1

    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1

    xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),

                         np.arange(y_min, y_max, plot_step))

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

    Z = Z.reshape(xx.shape)

    cs = plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)

    plt.xlabel(iris.feature_names[pair[0]])

    plt.ylabel(iris.feature_names[pair[1]])

    plt.axis("tight")

    # Plot the training points

    for i, color in zip(range(n_classes), plot_colors):

        idx = np.where(y == i)

        plt.scatter(X[idx, 0], X[idx, 1], c=color, label=iris.target_names[i],

                    cmap=plt.cm.Paired)

    plt.axis("tight")

plt.suptitle("Decision surface of a decision tree using paired features")

plt.legend()

plt.show()

　代码运行结果：

Sklearn库例子——决策树分类的更多相关文章

Sklearn库例子3：分类——岭回归分类（Ridge Regression ）例子
为了解决数据的特征比样本点还多的情况,统计学家引入了岭回归. 岭回归通过施加一个惩罚系数的大小解决了一些普通最小二乘的问题.回归系数最大限度地减少了一个惩罚的误差平方和. 这里是一个复杂的参数,用来控 ...
Sklearn库例子2：分类——线性回归分类（Line Regression ）例子
线性回归:通过拟合线性模型的回归系数W =(w_1,…,w_p)来减少数据中观察到的结果和实际结果之间的残差平方和,并通过线性逼近进行预测. 从数学上讲,它解决了下面这个形式的问题: Lin ...
Sklearn库例子4：分类——Lasso分类例子
Lasso回归: #-*- encoding:utf-8 -*- import numpy as np import matplotlib.pyplot as plt from sklearn.met ...
Sklearn库例子1：Sklearn库中AdaBoost和Decision Tree运行结果的比较
DisCrete Versus Real AdaBoost 关于Discrete 和Real AdaBoost 可以参考博客:http://www.cnblogs.com/jcchen1987/p/4 ...
sklearn CART决策树分类
sklearn CART决策树分类决策树是一种常用的机器学习方法,可以用于分类和回归.同时,决策树的训练结果非常容易理解,而且对于数据预处理的要求也不是很高. 理论部分比较经典的决策树是ID3.C ...
Python机器学习笔记：sklearn库的学习
网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一方面,其实最好的教程就是官方文档. 官方文档地址:https://scikit-learn.org/stable/ (可是官方文档非常 ...
用Python开始机器学习（2：决策树分类算法）
http://blog.csdn.net/lsldd/article/details/41223147 从这一章开始进入正式的算法学习. 首先我们学习经典而有效的分类算法:决策树分类算法. 1.决策树 ...
python 之决策树分类算法
发现帮助新手入门机器学习的一篇好文,首先感谢博主!:用Python开始机器学习(2:决策树分类算法) J. Ross Quinlan在1975提出将信息熵的概念引入决策树的构建,这就是鼎鼎大名的ID3 ...
复盘一篇讲sklearn库学习文章(上)
认识 sklearn 官网地址: https://scikit-learn.gor/stable/ 从2007年发布以来, scikit-learn已成为重要的Python机器学习库, 简称sklea ...

随机推荐

Binding ConvererParameter
WPF中ConverterParameter不可以绑定,可以通过如下扩展来实现ConverterParameter的Binding: 1.自定义ConverterBindableBinding和Mul ...
WebDriver 常见Exception处理
1. org.openqa.selenium.WebDriverException: unknown error: unhandled inspector error: {"code&quo ...
379. Design Phone Directory
379. Design Phone Directory Design a Phone Directory which supports the following operations: get: P ...
Linux下PHP的完全卸载
如果想把PHP彻底的卸载干净,直接用yum的remove命令是不行的,而需要查看有多少rpm包,然后按照依赖顺序逐一卸载,在网上查了好多,都是通过 "rpm -qa | grep php& ...
Uncaught ReferenceError: XXX is not defined
Uncaught ReferenceError: XXX is not defined 这个问题困扰我很久,虽然找到了解决方法,但是还不是很明白. 如下所示:是报错的代码. 如果把它改成下面的形式就可 ...
Unity自动场景保存脚本
新建一个名为AutoSave的编辑器脚本,并放于Assets/Editor下. using System; using UnityEditor; using UnityEditor.SceneMana ...
SQLServer数据库转换成MySQL数据库
由于工作需要,系统原先的SQLServer数据库要转换成MYSQL数据库,所以这两天就一直在查阅这方面的资料.最开始,我尝试从SQLServer中导出SQL文件,然后导入到MYSQL数据库中,发现报错 ...
Win10/UWP开发—使用Cortana语音指令与App的前台交互
Win10开发中最具有系统特色的功能点绝对少不了集成Cortana语音指令,其实Cortana语音指令在以前的wp8/8.1时就已经存在了,发展到了Win10,Cortana最明显的进步就是开始支持调 ...
Ubuntu 14.04中安装最新版Eclipse
Ubuntu 14.04中安装最新版Eclipse 来源:Linux社区作者:Linux 1.安装OpenJDK Java 7 如果你的系统中没有安装Java,我们需要按照如下步骤事先安装好 ...
Android studio快捷键大全和 eclipse对照（原）
Ctrl+空格代码提示 (同Eclipse中Alt+/) Ctrl+Shjft+N 项目 ...

Sklearn库例子——决策树分类

Sklearn库例子——决策树分类的更多相关文章

随机推荐

热门专题