3. Decision Tree

1. 算法流程

一般的，一颗决策树包含一个根结点、若干内部结点和若干叶结点；叶节点对应于决策结果，其他每个结点则对应于一个属性测试结果；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。从根结点到每个叶子结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的“分而支之”策略：

在决策树算法中，有3种情况会导致递归返回：

当前节点包含的样本属于同一类，无需划分
当前节点属性集为空，或是所有样本在所有属性上取值相同，无法划分
当前节点包含的样本集合为空，不能划分

2. 划分选择

information gain 信息增益 $a_{\star} = \arg\max\limits_{a\in{A}} Gain(D, a)$

information entropy信息熵是度量样本集合纯度最常用的指标。假定当前样本集合$D$中第$k$类样本所占比例为$p_k(k=1,2,...,K)$，则$D$的information entropy是

$Ent(D) = \textbf{-} \sum_{k=1}^{K}p_klog_2^{p_k}$

$Ent(D)$的取值范围为[0, 1]之间，$Ent(D)$的值越小，则$D$的纯度越高。

那么对于$D$的各个结点$D_v$，我们可以算出$D_v$的information entropy，再考虑到不同的分支结点所包含的样本数不均匀，给分支赋予权重$\frac{\lvert{D_v}\rvert}{\lvert{D}\rvert}$，这样得到information gain:

$Gain(D,a_{\star}) = Ent(D) - \sum_{v=1}^{V} \frac{\lvert{D_v}\rvert}{\lvert{D}\rvert}Ent(D_v)$

一般来说 infoermation gain 越大，意味着使用属性$a$ 来进行划分所得“纯度提升”越大。这种分裂方式对于可取值数目较多的属性有所偏好。

gain ratio 增益比 $a_{\star} = \arg\max\limits_{a\in{A}} Gain\_ratio(D, a)$

$Gain\_ratio(D, a) = \frac{ Gain(D, a)}{IV(a)}$

$IV(a) = \textbf{-} \sum_{v=1}^{V} \frac{\lvert{D_v}\rvert}{\lvert{D}\rvert}log_2{\frac{\lvert{D_v}\rvert}{\lvert{D}\rvert}}$

需要注意的是：实际使用gain ratio时：先从候选划分属性中找到信息增益高于平均水平的属性，再从中选择增益比最高的。这种分裂方式对可取值数目较少的属性有所偏好.

CART Gini index基尼指数 $a_{\star} = \arg\min\limits_{a\in{A}} Gini\_index\_ratio(D, a)$

$Gini(D) = \sum_{k=1}^{\lvert{y}\rvert} \sum_{k^{,}\neq{k}}p_kp_{k^{,}} = 1-\sum_{k=1}^{K}p_k^2$

$Gini\_index(D,a) = \sum_{v=1}^{V} \frac{\lvert{D_v}\rvert}{D}Gini(D_v)$

CART与传统DT相比，分裂中只有两个结点。

3. 剪枝处理

剪枝（pruning）是决策树学习算法对付“过拟合”的主要手段。在决策树学习中，为了尽可能正确分类训练样本，结点划分过程不断重复，有时会造成决策树分支过多，这就可能因训练样本学习得“太好”了，以至于把训练样本集自身的一些特点当成所有数据都具有的一般性质而导致过拟合。因此可以主动去掉一些分支来降低过拟合的风险。

决策树剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning)。预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能的提升，则停止划分并将当前结点标记为叶结点；后剪枝则是先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子数替换成叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

3. Decision Tree的更多相关文章

Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
决策树Decision Tree 及实现
Decision Tree 及实现标签: 决策树熵信息增益分类有监督 2014-03-17 12:12 15010人阅读评论(41) 收藏举报分类: Data Mining(25) Pyt ...
Gradient Boosting Decision Tree学习
Gradient Boosting Decision Tree,即梯度提升树,简称GBDT,也叫GBRT(Gradient Boosting Regression Tree),也称为Multiple ...
使用Decision Tree对MNIST数据集进行实验
使用的Decision Tree中,对MNIST中的灰度值进行了0/1处理,方便来进行分类和计算熵. 使用较少的测试数据测试了在对灰度值进行多分类的情况下,分类结果的正确率如何.实验结果如下. #Te ...
Sklearn库例子1：Sklearn库中AdaBoost和Decision Tree运行结果的比较
DisCrete Versus Real AdaBoost 关于Discrete 和Real AdaBoost 可以参考博客:http://www.cnblogs.com/jcchen1987/p/4 ...
用于分类的决策树(Decision Tree)-ID3 C4.5
决策树(Decision Tree)是一种基本的分类与回归方法(ID3.C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归).决策树在分类过程中,表示的是基于特征对实例进行划分, ...
OpenCV码源笔记——Decision Tree决策树
来自OpenCV2.3.1 sample/c/mushroom.cpp 1.首先读入agaricus-lepiota.data的训练样本. 样本中第一项是e或p代表有毒或无毒的标志位:其他是特征,可以 ...
GBDT(Gradient Boosting Decision Tree)算法&协同过滤算法
GBDT(Gradient Boosting Decision Tree)算法参考:http://blog.csdn.net/dark_scope/article/details/24863289 理 ...
Gradient Boost Decision Tree(&Treelink)
http://www.cnblogs.com/joneswood/archive/2012/03/04/2379615.html 1. 什么是Treelink Treelink是阿里集团内部 ...
(转)Decision Tree
Decision Tree:Analysis 大家有没有玩过猜猜看(Twenty Questions)的游戏?我在心里想一件物体,你可以用一些问题来确定我心里想的这个物体:如是不是植物?是否会飞?能游 ...

随机推荐

编写JavaScript 代码的5个小技巧
1.Array.includes 与条件判断一般我们判断或用 || // condition function test(fruit) { if (fruit == "apple" ...
项目 solrcloud / zookeeper 搭建
财经道网站搜索引擎,数据快速检索,数据集群功能描述:使用solr为项目数据库表p2p,银行理财,基金,贷款,信托,保险等建立数据索引,实现数据的导入,增量索引.实现检索建议和数据的快速查找.使用zo ...
导出jar文件
当我们编好一段代码时,就需要将其导出成应用程序,即jar文件(jar文件就是在Java运行环境下运行的应用程序).今天,巩固就教大家用eclipse导出jar文件. 第一步:找到eclipse,双击打 ...
2018.09.21 codeforces1051D. Bicolorings（线性dp）
传送门 sb线性DP. f[i][j][0/1/2/3]f[i][j][0/1/2/3]f[i][j][0/1/2/3]表示前i列j个连通块且第i列状态为00/01/10/11时的方案总数. 这个显然 ...
2018.07.30 cogs2632. [HZOI 2016] 数列操作d（线段树）
传送门线段树基本操作区间加等差数列,维护区间和. 对于每个区间维护等差数列首项和公差,易证这两个东西都是可合并的,然后使用小学奥数的知识就可以切掉这题. 代码: #include<bits/ ...
hdu-2159（完全背包）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2159 思路:完全背包,但有次数的限制,因此,对次数进行dp,判断次数是否超限. #include< ...
初识Java ThreadLocal
转载自:https://www.cnblogs.com/dreamroute/p/5034726.html ThreadLocal翻译成中文比较准确的叫法应该是:线程局部变量. 这个玩意有什么用处,或 ...
Oracle之SQL语句性能优化（34条优化方法）
(1)选择最有效率的表名顺序(只在基于规则的优化器中有效): ORACLE的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表(基础表 driving table)将被最先处 ...
js基础学习笔记（五）
多种选择(Switch语句) 当有很多种选项的时候,switch比if else使用更方便. 语法: switch(表达式) { case值1: 执行代码块 1 break; case值2: 执行代码 ...
C/C++中如何获取数组的长度？
C/C++中如何获取数组的长度? 收藏 C.C++中没有提供直接获取数组长度的函数,对于存放字符串的字符数组提供了一个strlen函数获取长度,那么对于其他类型的数组如何获取他们的长度呢?其中一种方 ...