更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：https://www.cnblogs.com/nickchen121/p/11686958.html

scikit-learn库之决策树

在scikit-learn库中决策树使用的CART算法，因此该决策树既可以解决回归问题又可以解决分类问题，即下面即将讲的DecisionTreeClassifier和DecisionTreeRegressor两个模型。

接下来将会讨论这两者的区别，由于是从官方文档翻译而来，翻译会略有偏颇，有兴趣的也可以去scikit-learn官方文档查看https://scikit-learn.org/stable/modules/classes.html#module-sklearn.tree

一、DecisionTreeClassifier

1.1 使用场景

DecisionTreeClassifier模型即CART算法实现的决策树，通常用于解决分类问题。

1.2 代码

from sklearn.datasets import load_iris

from sklearn.model_selection import cross_val_score

from sklearn.tree import DecisionTreeClassifier

iris = load_iris()

X = iris.data[:, [2, 3]]

y = iris.target

clf = DecisionTreeClassifier(random_state=0)

clf.fit(X, y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,

            max_features=None, max_leaf_nodes=None,

            min_impurity_decrease=0.0, min_impurity_split=None,

            min_samples_leaf=1, min_samples_split=2,

            min_weight_fraction_leaf=0.0, presort=False, random_state=0,

            splitter='best')

cross_val_score(clf, iris.data, iris.target, cv=10)

array([1.        , 0.93333333, 1.        , 0.93333333, 0.93333333,

       0.86666667, 0.93333333, 1.        , 1.        , 1.        ])

1.3 参数详解

criterion：特征选择，str类型。criterion='gini'表示基尼指数；criterion='entropy'表示信息增益，推荐使用'gini'。默认为'gini'。
splitter：特征划分点选择，str类型。splitter='best'在特征的所有划分点中找出最优的划分点，适合小样本量；splitter='random'随机的在部分划分点中找到局部最优的划分点，适合大样本量。默认为'best'。
max_depth：最大深度，int类型。如果样本特征数较少可以使用默认值，如果样本特征数较多一般用max_depty=10-100限制树的最大深度。默认为None。
min_samples_split：内部节点划分需要最少样本数，float类型。限定子树继续划分的条件，如果某节点的样本数少于min_samples_split，则会停止继续划分子树。如果样本数量过大，建议增大该值，否则建议使用默认值。默认为2。
min_samples_leaf：叶子节点最少样本数float类型。如果在某次划分叶子节点数目小于样本数，则会和兄弟节点一起剪枝。如果样本数量过大，建议增大该值，否则建议使用默认值。默认为1。
min_weight_fraction_leaf：叶子节点最小的样本权重和，float类型。该参数限制了叶子节点所有样本权重和的最小值，如果小于该值，则会和兄弟节点一起剪枝。如果样本有角度的缺失值，或者样本的分布偏差较大，则可以考虑权重问题。默认为0。
max_features：划分的最大特征数，str、int、float类型。max_depth='log2'表示最多考虑\(log_2n\)个特征；max_depth={'sqrt','auto'}表示最多考虑\(\sqrt{n}\)个特征；max_depth=int类型，考虑\(|int类型|\)个特征；max_depth=float类型，如0.3，则考虑\(0.3n\)个特征，其中\(n\)为样本总特征数。默认为None，样本特征数不大于50推荐使用默认值。
random_state：随机数种子，int类型。random_state=None，不同时刻产生的随机数据是不同的；random_state=int类型，相同随机数种子不同时刻产生的随机数是相同的。默认为None。
max_leaf_nodes：最大叶子节点数，int类型。限制最大叶子节点数，可以防止树过深，因此可以防止过拟合。默认为None。
min_impurity_decrease：节点减小不纯度，float类型。如果某节点划分会导致不纯度的减少大于min_impurity_decrease，则停止该节点划分。默认为0。
min_impurity_split：节点划分最小不纯度，float类型。如果某节点的不纯度小于min_impurity_split，则停止该节点划分，即不生成叶子节点。默认为1e-7(0.0000001)。
class_weight：类别权重，dict类型或str类型。对于二元分类问题可以使用class_weight={0:0.9,1:0.1}，表示0类别权重为0.9，1类别权重为0.1，str类型即为'balanced'，模型将根据训练集自动修改不同类别的权重。默认为None。
presort：数据是否排序，bool类型。样本量较小，presort=True，即让样本数据排序，节点划分速度更快；样本量较大，presort=True，让样本排序反而会增加训练模型的时间。通常使用默认值。默认值为False。

1.4 属性

classes_：array类型。样本的类别标签列表。
max_features_：int类型。最大的特征的推断值。
n_classes_：int类型。fit之后训练集的类别数量。
n_features_：int类型。fit之后训练集的特征数。
n_outputs_：int类型。fit之后训练集的输出数量。
tree_：Tree object类型。返回树结构对象地址。

1.5 方法

apply(X[, check_input])：返回每个样本预测的叶子节点索引。
decision_path(X[, check_input])：返回样本X在树中的决策路径。
fit(X,y)：把数据放入模型中训练模型。
get_params([deep])：返回模型的参数，可以用于Pipeline中。
predict(X)：预测样本X的分类类别。
predict_log_proba(X)：返回样本X在各个类别上对应的对数概率。
predict_proba(X)：返回样本X在各个类别上对应的概率。
score(X,y[,sample_weight])：基于报告决定系数\(R^2\)评估模型。
set_prams(**params)：创建模型参数。

二、DecisionTreeRegressor

DecisionTreeRegressor即CART回归树，它与DecisionTreeClassifier模型的区别在于criterion特征选择标准与分类树不同，它可以选择'mse'和'mae'，前者是均方误差，后者是绝对值误差，一般而言'mse'比'mae'更准确。

02-25 scikit-learn库之决策树的更多相关文章

(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
【网络爬虫入门02】HTTP客户端库Requests的基本原理与基础应用
[网络爬虫入门02]HTTP客户端库Requests的基本原理与基础应用广东职业技术学院欧浩源 1.引言实现网络爬虫的第一步就是要建立网络连接并向服务器或网页等网络资源发起请求.urllib是 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
Python第三方库（模块）"scikit learn"以及其他库的安装
scikit-learn是一个用于机器学习的 Python 模块. 其主页:http://scikit-learn.org/stable/. GitHub地址: https://github.com/ ...
Sklearn库例子——决策树分类
Sklearn上关于决策树算法使用的介绍:http://scikit-learn.org/stable/modules/tree.html 1.关于决策树:决策树是一个非参数的监督式学习方法,主要用于 ...
Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的 ...

随机推荐

C、C++格式化字符串
引言在C和C++开发中,我们经常会用到printf来进行字符串的格式化,例如printf("format string %d, %d", 1, 2);,这样的格式化只是用于打印调 ...
Java SSM三端分离开发在线教育平台实战视频教程
目录: 1-01——在线网校实战课程介绍1-02——Eclipse.Maven.JDK介绍1-03——Maven构建Project1-04——新浪SAE介绍2-01——平台业务结构概览2-02——平台 ...
线上LVM磁盘挂载
ESC云服务器磁盘扩容日常运行中,容器服务所在目录由于container-log.image的增加需要占用大量的磁盘空间,所以对/var/lib/docker/目录进行扩容挂载LVM数据盘. 首先查 ...
FreeSql （十八）导航属性
导航属性是 FreeSql 的特色功能之一,可通过约定配置.或自定义配置对象间的关系. 导航属性有 OneToMany, ManyToOne, ManyToMany, OneToOne, Parent ...
VMware Workstation Fixed Unable to connect to the MKS
场景:早上开虚拟机时突然报这个错解决办法如下: 以管理员的身份打开CMD,然后执行如下命令: net start vmx86 net start hcmon net start vmauthdser ...
手把手教程： CentOS 6.5 LVS + KeepAlived 搭建负载均衡高可用集群
为了实现服务的高可用和可扩展,在网上找了几天的资料,现在终于配置完毕,现将心得公布处理,希望对和我一样刚入门的菜鸟能有一些帮助. 一.理论知识(原理) 我们不仅要知其然,而且要知其所以然,所以先给大家 ...
maven的使用解说
maven周期及项目中的应用: 周期如下: 1.default生命周期,部署项目(jar包的依赖管理) 2.clear生命周期,项目清理工作 3.site生命周期,处理项目中产生的文档信息应用: 1 ...
Mysql - 高可用方案之MHA
一.概述本文将介绍mysql的MHA(Master High Availability)方案,官方文档地址:https://github.com/yoshinorim/mha4mysql-manag ...
javaweb应用程序概述
1.HTTP(超文本传输协议),它是一种主流的B/S架构中应用的通信协议.具有以下特点: 1.1.无状态:服务不会记录客户端每次提交的请求,服务器一旦响应客户端之后,就会结束本次的通信过程,客户端下一 ...
新建web工程
1.选择新建Dynamic Web Project 2.选择服务器和版本(2.5) 3.WebContend目录下新建一个html文件 4.运行工程的目录结构: WEB-INF目录时受保护的,不能 ...

02-25 scikit-learn库之决策树