Scikit-Learn与决策树

Scikit-Learn（决策树）可以用于方法分类和回归。

一、分类

sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_split=1e-07, class_weight=None, presort=False)参数探讨

criterion ：（'Gini'、‘entropy’）表示在基于特征划分数据集合时，选择特征的标准。默认是’gini‘，即'Gini impurity'(Gini不纯度)，还可以是criterion='entropy'。Gini不纯度表示该Gini度量是指随机选择集合中的元素，根据集合中label的分布将该元素赋予分类，该元素分类错误的几率；entropy则表示采用信息增益来选择特征。别人看法：criterion=entropy应该理解为决策树采用的是ID3算法，而不是cart树。
splitter ：('best' , 'random')表示在构造树时，选择结点的原则，默认是splitter='best'，即选择最好的特征点分类，比如基于信息增益分类时，则选择信息增益最大的特征点，还可以是'random'
max_depth :int,default=None，表示树的最大深度。默认为"None",表示树的最大深度。如果是"None",则节点会一直扩展直到所有的叶子都是纯的或者所有的叶子节点都包含少于min_samples_split个样本点。忽视max_leaf_nodes是不是为None。
min_samples_split ：int，float，optional(default=2)，区分一个内部节点需要的最少的样本数。1.如果是int，将其最为最小的样本数。2.如果是float，min_samples_split是一个百分率并且ceil(min_samples_split*n_samples)是每个分类需要的样本数。ceil是取大于或等于指定表达式的最小整数。
min_samples_leaf ：int，float，optional(default=1)，一个叶节点所需要的最小样本数。 1.如果是int，则其为最小样本数。 2.如果是float，则它是一个百分率并且ceil(min_samples_leaf*n_samples)是每个节点所需的样本数。
min_weight_fraction_leaf ：float，optional(default=0)，如果设置为0，则表示所有样本的权重是一样的
max_features :这个参数表示在划分数据集时考虑的最多的特征值数量，根据数据类型表示的意义也不同。int值，在每次split时，最大特征数；float，表示百分数，即(max_features * n_features)；'auto'->max_features=sqrt(n_features);'sqrt'->max_features=sqrt(n_features);
max_leaf_nodes ：int，None，optional(default=None)，主要是在最优分类中考虑
class_weight ：dict,list of dicts,"Banlanced" or None,可选（默认为None）如果没有指定，所有类的权值都为1。对于多输出问题，一列字典的顺序可以与一列y的次序相同。 "balanced"模型使用y的值去自动适应权值，并且是以输入数据中类的频率的反比例。如果sample_weight已经指定了，这些权值将于samples以合适的方法相乘。
persort ：bool,可选（默认为False）是否预分类数据以加速训练时最好分类的查找。在有大数据集的决策树中，如果设为true可能会减慢训练的过程。当使用一个小数据集或者一个深度受限的决策树中，可以减速训练的过程。
min_impurity_split ：float, optional (default=1e-7)，树增长停止阈值，仅仅当他的impurity超过阈值时才会继续向下分解，否则会成为叶结点

例子：

from sklearn import tree

X = [[1, 1],[1, 1], [1, 0],[0, 1], [0, 1]]

Y = [1, 1, 0, 0, 0]

clf = tree.DecisionTreeClassifier(criterion='entropy')

clf = clf.fit(X, Y)
#predict_proba(X, check_input=True) 预测x中的分类概率

result = clf.predict([0,0])

print result

训练后，我们可以使用导出器以Graphviz（需要单独安装）格式导出树export_graphviz 。

with open("iris.dot", 'w') as f:

    f = tree.export_graphviz(clf, out_file=f)

然后我们可以使用的Graphviz的dot工具来创建一个PDF文件（或任何其他支持的文件类型）

dot -Tpdf iris.dot -o iris.pdf

二、回归

sklearn.tree.DecisionTreeRegressor(criterion='mse', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_split=1e-07, presort=False)

criteria：string，可选（default =“mse”）。测量分割质量的功能。对于均方误差，支持的标准是“mse”，其等于作为特征选择标准的方差减小，以及平均绝对误差的“mae”。

其他参与与DecisionTreeClassifier类似

from sklearn import tree

X = [[1],[2],[3],[4],[5],[6]]

Y = [1,2,3,4,5,6]

clf = tree.DecisionTreeRegressor(criterion='mae')

clf = clf.fit(X, Y)

result = clf.predict([4])

print result

输出：

[ 4.]

Scikit-Learn与决策树的更多相关文章

scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的 ...
Linear Regression with Scikit Learn
Before you read This is a demo or practice about how to use Simple-Linear-Regression in scikit-lear ...
如何使用scikit—learn处理文本数据
答案在这里:http://www.tuicool.com/articles/U3uiiu http://scikit-learn.org/stable/modules/feature_extracti ...
机器学习框架Scikit Learn的学习
一安装安装pip 代码如下:# wget "https://pypi.python.org/packages/source/p/pip/pip-1.5.4.tar.gz#md5=83 ...
Python第三方库（模块）"scikit learn"以及其他库的安装
scikit-learn是一个用于机器学习的 Python 模块. 其主页:http://scikit-learn.org/stable/. GitHub地址: https://github.com/ ...

随机推荐

OpenGL ES 2.0 渲染管线学习笔记
图中展示整个OpenGL ES 2.0可编程管线图中Vertex Shader和Fragment Shader 是可编程管线: Vertex Array/Buffer objects 顶点数据来源, ...
PHP 获取系统信息，PHP 获取服务器详细信息
获取系统类型及版本号: php_uname() (例:Windows NT COMPUTER 5.1 build 2600)只 ...
ionic3 环境配置＋運行第一個項目
1.首先我們先下載個 nodejs安裝包地址:https://nodejs.org/en/ 安裝檢查是否安裝成功,打開命令提示符輸入 node -v 回車查看版本結果: 2.安裝ionic ...
.NET Framework 各个版本介绍
.NET Framework 1.1 自1.0版本以来的改进:自带了对mobile asp .net控件的支持.这在1.0版本是以附加功能方式实现的,现在已经集成到框架的内部.安全方面的变更 - 使得 ...
flask 扩展之 -- flask-script
一. 使用 Flask-Script 支持命令行选项 1. 安装 $ pip install flask-script 2. 配置 from flask_script import Manager m ...
Discuz添加自定义模板广告
在做Discuz中广告的时候碰到个大问题,现在我需要做一个轮播的通屏广告位,调用广告图片的代码应该是以下代码:<ul> <li style="background: ...
nginx常用配置系列-HTTPS配置
接上篇,nginx配置系列 HTTPS现在已经很流行,特别是AppStore上线的应用要求使用HTTPS进行通信,出于安全考虑也应该使用HTTPS,HTTPS配置需要准备证书文件,现在也有很多免费证书 ...
执行3小时超长SQL的分析优化过程：从索引遇见IS NULL，到最佳实践
月底高峰期,对一个典型项目抽查分析时,发现了一个超级慢.全表扫描的SQL,语句很简单,AWR中赫然在列,在我统计的截止时间内还没有结束... 使用v$active_session_history进一步 ...
在两个ASP.NET页面之间传递变量【转】
ASP.NET提供了事件驱动编程模型,使开发者简化了应用程序的总体设计,但是这个也造成了它固有的一些问题,例如,在传统的ASP里,我们可以通过使用POST方法很容易地实现页面间传递变量,同样的事情,在 ...
最小的 Velocity 教程
工作以后,我越来越能体会到80/20法则的强大. 这是一个不可否认的事实,常用 20% 的技术可以解决工作中 80% 的场景. 所以我希望能介绍给你 Velocity 技术 20%,帮助你胜任 80% ...

Scikit-Learn与决策树

Scikit-Learn与决策树的更多相关文章

随机推荐

热门专题