决策树是一种类似于流程图的树结构，其中，每个内部节点(非树叶节点)表示一个属性上的测试，每个分枝代表该测试的一个输出，而每个树叶节点(或终端节点存放一个类标号)。树的最顶层节点是根节点。下图是一个典型的决策树(来自《数据挖掘：概念与技术》[韩家炜]（中文第三版）第八章)：

　　在构造决策树时，使用属性选择度量来选择将元祖划分成不同类的属性。这里我们介绍三种常用的属性选择度量-----信息增益、信息增益率和基尼指数。这里使用的符号如下。设数据分区\(S\)为标记类元组的训练集。假设类标号属性具有\(m\)个不同的值，定义了\(m\)个不同的类\(C_i (i=1,2,...,m)\)。设\(C_{i,S}\)是\(S\)中\(C_i\)类元祖的集合，\(|S|\)和\(|C_{i,S}|\)分别是\(S\)和\(C_{i,S}\)中元祖的个数。

　　上面决策树的源数据如下表，我们将以此数据说明ID3、C4.5、C5.0、CART这几种算法。

　　我们先解释一下这张表，表中有14条实例数据，就是我们的训练数据，其中 age,income,student,credit_rating称作条件属性，Class:buys_computer 称作是决策属性(标签)。每一个属性都有各自的值记做：Value(age)={youth,middle,senior}，Value(income)={high,medium,low}，Value(student)={no,yes}，Value(credit_rating)={excellent,fair}，Value(Class:buys_computer)={no,yes}。

1.熵(entropy)

　　在说明决策树算法之前，先提出一个重要的概念：熵(entropy)。

　　有时\(Info(S)\)也直接写作\(Entropy(S)\)。以上表中数据说明此概念：我们数一下决策属性Class:buys_computer，一共有两个类别：Yes，No。Yes的实例数是 9，No的实例数是 5。计算决策属性的熵(Entropy):

这里的决策属性S的值只有两个值（Yes,No），当然可以有多个值(s1,s2,s3,...,sk)，这些决策属性的值的概率分别为：p1,p2,p3,...,pk。

2.信息增益

　　ID3使用信息增益作为属性选择度量。设节点\(N\)代表或存放分区\(S\)的元祖。选择具有最高信息增益的属性作为结点\(N\)的分裂属性。

　　我们只拿age条件属性举例，其他的属性一样：

Value(age)={youth,middle,senior}

age是youth的实例数为5（其中Yes的个数为2，No的个数为3），占总的实例数为5/14，那么针对youth的Entropy,

age是middle的实例数为4（其中Yes的个数为4，No的个数为0），占总的实例数为4/14，那么针对middle的Entropy，

age是senior的实例数为5（其中Yes的个数为3,No的个数为2），占总的实例数为5/14，那么针对senior的Entropy，

那么最后针对age条件属性的信息增益(information gain)为：

所以针对某一条件属性的信息增益(information gain)为：

那么其他三个条件属性income,student,credit_rating的信息增益为：

我们看到age的信息增益是最大的，所以作为决策树的一个根节点。我们不断地重复上面的步骤，会得到一个决策树。至此，我们完成了对ID3算法思想的描述。

　　ID3算法有几个缺点：

对于具有很多值的属性它是非常敏感的，例如，如果我们数据集中的某个属性值对不同的样本基本上是不相同的，甚至更极端点，对于每个样本都是唯一的，如果我们用这个属性来划分数据集，它会得到很大的信息增益，但是，这样的结果并不是我们想要的。
ID3算法不能处理具有连续值的属性。
ID3算法不能处理属性具有缺失值的样本。
由于按照上面的算法会生成很深的树，所有容易产生过拟合现象。

　　下面，引入更加强大的C4.5算法，它可以解决上面的问题。

3.C4.5算法

C4.5算法，能够处理属性是连续型的。而且，在C4.5算法中，又提出了两个新的概念：

分离信息（Split Information）和信息增益率（Information gain ratio）

首先，给出分离信息的计算方法,数学符号表达式为：

解释为：数据集通过条件属性A的分离信息。上面一个例子，数据集通过age这个条件属性的分离信息，age有三个属性值分别为：youth,middle,senior，它们各占5,4,5，所以：

再次，给出信息增益率的公式：

上面这个例子如：数据集S针对age的信息增益率，

分子和分母这两个值都已经求出来，选择信息增益率最大的那个属性，作为节点。

4.C5.0和CART算法

C5.0是一个商业软件，对于公众是不可得到的。它是在C4.5算法做了一些改进，具体请参考：C5.0算法改进

C5.0主要增加了对Boosting的支持，它同时也用更少地内存。它与C4.5算法相比，它构建了更小地规则集，因此它更加准确。

CART (Classification and Regression Trees)与C4.5算法是非常相似的，但是CART支持预测连续的值（回归）。CART构建二叉树，而C4.5则不一定。

CART用训练集和交叉验证集不断地评估决策树的性能来修剪决策树，从而使训练误差和测试误差达到一个很好地平衡点。

scikit-learn的实现为CART算法的最优版本，详细文档请参考：scikit-learn实现CART

待续~

决策树之ID3、C4.5的更多相关文章

决策树模型 ID3/C4.5/CART算法比较
决策树模型在监督学习中非常常见,可用于分类(二分类.多分类)和回归.虽然将多棵弱决策树的Bagging.Random Forest.Boosting等tree ensembel 模型更为常见,但是“完 ...
机器学习算法总结(二)——决策树（ID3, C4.5, CART）
决策树是既可以作为分类算法,又可以作为回归算法,而且在经常被用作为集成算法中的基学习器.决策树是一种很古老的算法,也是很好理解的一种算法,构建决策树的过程本质上是一个递归的过程,采用if-then的规 ...
机器学习之决策树（ID3 、C4.5算法）
声明:本篇博文是学习<机器学习实战>一书的方式路程,系原创,若转载请标明来源. 1 决策树的基础概念决策树分为分类树和回归树两种,分类树对离散变量做决策树 ,回归树对连续变量做决策树.决 ...
决策树之ID3、C4.5、C5.0等五大算法
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- C5.0决策树之ID3.C4.5.C5.0算法 ...
决策树(ID3,C4.5,CART)原理以及实现
决策树决策树是一种基本的分类和回归方法.决策树顾名思义,模型可以表示为树型结构,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布. [图片上传失败...(image ...
《机器学习实战》学习笔记第三章 —— 决策树之ID3、C4.5算法
主要内容: 一.决策树模型二.信息与熵三.信息增益与ID3算法四.信息增益比与C4.5算法五.决策树的剪枝一.决策树模型 1.所谓决策树,就是根据实例的特征对实例进行划分的树形结构.其中有两 ...
决策树(上)-ID3、C4.5、CART
参考资料(要是对于本文的理解不够透彻,必须将以下博客认知阅读,方可全面了解决策树): 1.https://zhuanlan.zhihu.com/p/85731206 2.https://zhuanla ...
决策树之ID3算法
一.决策树之ID3算法简述 1976年-1986年,J.R.Quinlan给出ID3算法原型并进行了总结,确定了决策树学习的理论.这可以看做是决策树算法的起点.1993,Quinlan将ID3算法改进 ...
《机器学习_09_01_决策树_ID3与C4.5》
简介先看一个例子,某银行是否给用户放贷的判断规则集如下: if 年龄==青年: if 有工作==是: if 信贷情况==非常好: 放 else: 不放 else: if 有自己的房子==是: if ...
后端程序员之路 16、信息熵、决策树、ID3
信息论的熵 - guisu,程序人生. 逆水行舟,不进则退. - 博客频道 - CSDN.NEThttp://blog.csdn.net/hguisu/article/details/27305435 ...

随机推荐

Java:现有线程T1/T2/T3，如何确保T1执行完成之后执行T2，T3在T2执行完成之后执行。
要实现多个线程执行完成先后,就要知道如何实现线程之间的等待,java线程等待实现是join.java的jdk中join方法实现如下: public final synchronized void jo ...
MyBatis(三)：数据库查询结果不为空，但是使用MyBatis框架查询为空问题
1.这个问题主要和返回字段是否和实体类javabean中的字段是否一致导致的问题. 解决方案: sql语句 : select account_id as "accountId" a ...
Python系列 - 进程和线程
进程和线程可以通过ucos-Ⅱ来学习相关的基础,很好的学习资料进程假如有两个程序A和B,程序A在执行到一半的过程中,需要读取大量的数据输入(I/O操作), 而此时CPU只能静静地等待任务A读取完 ...
SQL 语句 (二) --- SELECT
1 完整句法: SELECT [ ALL | DISTINCT TOP n [] WITH TIES select_list [INTO [new_table_name] ] [FROM {table ...
[LeetCode] Encode and Decode TinyURL 编码和解码精简URL地址
Note: This is a companion problem to the System Design problem: Design TinyURL. TinyURL is a URL sho ...
Discuz利用UC_KEY进行前台getshell
来源:http://wooyun.jozxing.cc/static/bugs/wooyun-2015-0137991.html 先通过uc_key把恶意代码保存在/uc_client/data/ca ...
Java IO（五）==>>重点
打印流:PrintStream与PrintWriter PrintStream 该类的定义如下: public class PrintStream extends FilterOutputStream ...
●POJ 2079 Triangle
题链: http://poj.org/problem?id=2079 题解: 计算几何,凸包,旋转卡壳复杂度O(N^2),(O(N)什么的就不说了,我觉得我看过的O(N)方法正确性都有问题,虽然有些 ...
2015 多校联赛 ——HDU5334（构造）
Virtual Participation Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Ot ...
bzoj 4710: [Jsoi2011]分特产
Description JYY 带队参加了若干场ACM/ICPC 比赛,带回了许多土特产,要分给实验室的同学们. JYY 想知道,把这些特产分给N 个同学,一共有多少种不同的分法?当然,JYY 不希望 ...