决策树C4.5算法——计算步骤示例

使用决策树算法手动计算GOLF数据集

步骤：

1、通过信息增益率筛选分支。

（1）共有4个自变量，分别计算每一个自变量的信息增益率。

首先计算outlook的信息增益。outlook的信息增益Gain(outlook)=

其中，v是可能取值的集合（本例中，outlook可以取3个值），D表示整个数据集，Dv是outlook取值为v的样本集合，而|*|表示数据集的大小（其中的样本数量）。

其中Entropy(PlayGolf? in D)为最终因变量PlayGolf的信息熵值。计算过程为：

PlayGolf共有2种结果：YES（9个观测值）、NO（5个观测值）

YES出现的概率为9/14，NO出现的概率为5/14。

根据熵值计算公式：

其中c=2（PlayGolf有2个取值YES和NO）。

p1=9/14,p2=5/14.

其次计算根据outlook对数据进行分类，加权计算PlayGolf的信息熵

中D表示了1-14全部的PlayGolf数值，但是可以根据outlook的取值不同将1-14行数据，分为3类：Sunny、Overcast、Rainy。

D1表示了为Sunny的PlayGolf的数值。

计算D1的中playgolf的信息熵。同理计算D2,D3数据集的PlayGolf信息熵。

计算属性Outlook的信息增益Gain(Outlook)=0.940-0.694=0.246

信息增益率为：

Outlook的信息增益已经有了，现在计算Outlook的熵。

计算Outlook的信息增益率

同理计算其他属性的信息增益率。

决策树C4.5算法——计算步骤示例的更多相关文章

02-22 决策树C4.5算法
目录决策树C4.5算法一.决策树C4.5算法学习目标二.决策树C4.5算法详解 2.1 连续特征值离散化 2.2 信息增益比 2.3 剪枝 2.4 特征值加权三.决策树C4.5算法流程 3.1 ...
决策树-C4.5算法（三）
在上述两篇的文章中主要讲述了决策树的基础,但是在实际的应用中经常用到C4.5算法,C4.5算法是以ID3算法为基础,他在ID3算法上做了如下的改进: 1) 用信息增益率来选择属性,克服了用信息增益选择 ...
Python实现决策树C4.5算法
为什么要改进成C4.5算法原理 C4.5算法是在ID3算法上的一种改进,它与ID3算法最大的区别就是特征选择上有所不同,一个是基于信息增益比,一个是基于信息增益. 之所以这样做是因为信息增益倾向于选 ...
决策树 -- C4.5算法
C4.5是另一个分类决策树算法,是基于ID3算法的改进,改进点如下: 1.分离信息解释:数据集通过条件属性A的分离信息,其实和ID3中的熵: 2.信息增益率解释:Gain(A)为获的A ...
python实现决策树C4.5算法(在ID3基础上改进)
一.概论 C4.5主要是在ID3的基础上改进,ID3选择(属性)树节点是选择信息增益值最大的属性作为节点.而C4.5引入了新概念"信息增益率",C4.5是选择信息增益率最大的属性作 ...
决策树之C4.5算法
决策树之C4.5算法一.C4.5算法概述 C4.5算法是最常用的决策树算法,因为它继承了ID3算法的所有优点并对ID3算法进行了改进和补充. 改进有如下几个要点: 用信息增益率来选择属性,克服了ID ...
决策树(C4.5)原理
决策树c4.5算法是在决策树ID3上面演变而来. 在ID3中: 信息增益按属性A划分数据集S的信息增益Gain(S,A)为样本集S的熵减去按属性A划分S后的样本子集的熵,即在此基础上,C4.5计算 ...
决策树-预测隐形眼镜类型（ID3算法，C4.5算法，CART算法，GINI指数,剪枝，随机森林）
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
机器学习之决策树（ID3 、C4.5算法）
声明:本篇博文是学习<机器学习实战>一书的方式路程,系原创,若转载请标明来源. 1 决策树的基础概念决策树分为分类树和回归树两种,分类树对离散变量做决策树 ,回归树对连续变量做决策树.决 ...

随机推荐

thinkphp+memcache缓存例子
public function dailyRelays() { $history = I('post.history'); $da = new \Home\Model\DailyrelayModel( ...
Matlab神经网络
1. <MATLAB神经网络原理与实例精解> 2. B站:https://search.bilibili.com/all?keyword=matlab&from_source=na ...
编写高质量代码改善C#程序的157个建议——建议97：优先考虑将基类型或接口作为参数传递
建议97:优先考虑将基类型或接口作为参数传递除了公开及类型或接口外,方法的参数也应该考虑基类型或接口. 以Enumerable类型为例,它的成员方法中只要涉及需要操作集合对象的地方,都要使用IEnu ...
win32 zbar
一.zbar官方介绍 ZBar 是款桌面电脑用条形码/二维码扫描工具,支持摄像头及图片扫描,支持多平台,例如 iPhone,Andriod 手机,同时 ZBar封装了二维码扫描的 API 开发包. Z ...
20169202 2016-2017-2《TCP/IP协议攻击》实验总结--十一周
APR缓存中毒(ARP cache poisoning) 实验原理 ARP缓存是ARP协议的重要组成部分.ARP协议运行的目标就是建立MAC地址和IP地址的映射,然后把这一映射关系保存在ARP缓存中, ...
C# 过滤SQL 字符串中的参数
/// <summary> /// 参数过滤 /// </summary> /// <param name="parameters"></ ...
阿里云云主机添加swap分区与swap性能优化
1.swap的功能与相应内核参数 Linux 将物理内存分为内存段的部分被称作“页面”.交换是指内存页面被复制到预先设定好的硬盘空间(叫做交换空间)的过程,目的是释放用于页面的内存.物理内存和交换空间 ...
（zxing.net）一维码Code 39的简介、实现与解码
一.简介一维码Code 39:由于编制简单.能够对任意长度的数据进行编码.支持设备广泛等特性而被广泛采用. Code 39码特点: 能够对任意长度的数据进行编码,其局限在于印刷品的长度和条码阅读器的 ...
Inno Setup卸载时注销bho
Inno setup是一个制作安装包的免费工具,比如你用Qt开发完成一款软件,拿Inno setup打个安装包甩给客户安装就好了. 但是bho插件在注册后,万一用户卸载软件时,bho插件还是躺在管理加 ...
TestNG+Selenium
是一个开源自动化测试框架.其实类似于JUnit这种单元测试框架,但进行了一些功能扩展属于selenium?还是说TestNG是一个测试框架,它用到了selenium的web自动化测试的功能,比如使用 ...

决策树C4.5算法——计算步骤示例

决策树C4.5算法——计算步骤示例的更多相关文章

随机推荐

热门专题