ID3算法

转自：http://blog.sina.com.cn/s/blog_6e85bf420100ohma.html

信息熵就是一组数据包含的信息，概率的度量。一组数据越有序信息熵也就越低，极端时如果一组数据中只有一个非0，其它都是0，那么熵等于0，因为只有可能是这个非0的情况发生，它给人们的信息已经确定了，或者说不含有任何信息了，因为信息熵含量为0。一组数据越无序信息熵也就越高，极端时如果一组数据均匀分布，那么它的熵最大，因为我们不知道那种情况发生的概率大些。假如一组数据由{d1,d2,...,dn}构成，其和是sum,那么求信息熵的公式是。

分类预测算法属于有指导学习，方法是通过训练数据，按照参考属性对目标属性的依赖程度对参考属性分级别处理，这种分级别处理体现在创建决策树，目的是通过生成的判别树，产生规则，用来判断以后的数据。以如下数据为例：

共14条记录，目标属性是，是否买电脑，共有两个情况，yes或者no。参考属性有4种情况，分别是，age,income,student,credit_rating。属性age有3种取值情况，分别是,youth,middle_aged,senior,属性income有3种取值情况，分别是,high,medium,low,属性student有2种取值情况，分别是，no,yes,属性credit_rating有2种取值情况，分别是fair,excellent。我们先求参考属性的信息熵：

，式中的5表示5个no,9表示9个yes,14是总的记录数。接下来我们求各个参考属性在取各自的值对应目标属性的信息熵，以属性age为例，有3种取值情况，分别是youth,middle_aged,senior，先考虑youth，youth共出现5次，3次no,2次yes,于是信息熵：

类似得到middle_aged和senior的信息熵，分别是：0和0.971。整个属性age的信息熵应该是它们的加权平均值：

。下面引入信息增益（information
gain）这个概念，用Gain(D)表示，该概念是指信息熵的有效减少量，该量越高，表明目标属性在该参考属性那失去的信息熵越多，那么该属性越应该在决策树的上层（如果不好理解，可以用极限的方法，即假如在age属性上，当为youth时全部是on,当为middle时也全部是no,当为senior时全不是yes,那么Hage(D)=0)。,类似可以求出Gain(income)=0.029,Gain(stduent)=0.151,Gain(credit_rating)=0.048。最大值为Gain(age),所以首先按照参考属性age，将数据分为3类，如下：

然后分别按照上面的方法递归的分类。递归终止的条件是，1，当分到某类时，目标属性全是一个值，如这里当年龄取middle_aged时，目标属性全是yes。2，当分到某类时，某个值的比例达到了给定的阈值，如这里当年龄取youth时，有60%的是no,当然实际的阈值远远大于60%。

ID3算法的更多相关文章

决策树ID3算法的java实现(基本试用所有的ID3)
已知:流感训练数据集,预定义两个类别: 求:用ID3算法建立流感的属性描述决策树流感训练数据集 No. 头痛肌肉痛体温患流感 1 是(1) 是(1) 正常(0) 否(0) 2 是(1) 是(1 ...
数据挖掘之决策树ID3算法（C#实现）
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
决策树 -- ID3算法小结
ID3算法(Iterative Dichotomiser 3 迭代二叉树3代),是一个由Ross Quinlan发明的用于决策树的算法:简单理论是越是小型的决策树越优于大的决策树. 算法归 ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
决策树-预测隐形眼镜类型（ID3算法，C4.5算法，CART算法，GINI指数,剪枝，随机森林）
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
决策树笔记：使用ID3算法
决策树笔记:使用ID3算法决策树笔记:使用ID3算法机器学习先说一个偶然的想法:同样的一堆节点构成的二叉树,平衡树和非平衡树的区别,可以认为是"是否按照重要度逐渐降低"的顺序 ...
ID3算法决策树的生成（2）
# coding:utf-8 import matplotlib.pyplot as plt import numpy as np import pylab def createDataSet(): ...
ID3算法决策树的生成（1）
# coding:utf-8 import matplotlib.pyplot as plt import numpy as np import pylab def createDataSet(): ...
决策树的基本ID3算法
一 ID3算法的大致思想基本的ID3算法是通过自顶向下构造决策树来进行学习的.我们首先思考的是树的构造从哪里开始,这就涉及到选择属性进行树的构造了,那么怎样选择属性呢?为了解决这个问题,我们使用统 ...
Python实现ID3算法
自己用Python写的数据挖掘中的ID3算法,现在觉得Python是实现算法的最好工具: 先贴出ID3算法的介绍地址http://wenku.baidu.com/view/cddddaed0975f4 ...

随机推荐

vector 之删除元素
删除指定位置的元素删除vector中第5个位置的元素 vector<int> vec; //执行vector初始化操作 vector<; //获取第五个元素的iterator ve ...
C# 使用 NPOI 库读写 Excel 文件
NPOI 是开源的 POI 项目的.NET版,可以用来读写Excel,Word,PPT文件.在处理Excel文件上,NPOI 可以同时兼容 xls 和 xlsx.官网提供了一份 Examples,给出 ...
64位ubuntu下重新编译hadoop2.2流水账
hadoop官方网站中只提供了32位的hadoop-2.2.0.tar.gz,如果要在64位ubuntu下部署hadoop-2.2.0,就需要重新编译源码包,生成64位的部署包.建议以下操作使用roo ...
linux下java环境配置
非常简单的三行命令就搞定了! $ sudo add-apt-repository ppa:webupd8team/java$ sudo apt-get update$ sudo apt-get ins ...
loj 1379(最短路变形)
题目链接:http://acm.hust.edu.cn/vjudge/problem/viewProblem.action?id=27087 思路:题目的意思是求S->T的所有路径中花费总和小于 ...
JVM性能监控工具-Jvisualvm
用法:Jvisualvm是JDK自带的一款性能分析工具使用方式: 1.配置好JDK环境变量 1.本地JVM监控略 2.远程JVM监控用JMX对Resin内存状态进行监控 ,可以看到本地所有可监控的 ...
blade快速使用指南
一.简介模板引擎模板引擎是将网站的页面设计和PHP应用程序几乎完全分离的一种解决方案,它能让前端工程师专注页面搭建,让后台工程师专注功能实现,以便实现逻辑分离,让每个人发挥所长.模板引擎技术的核心是 ...
PHP 使用 OSS 批量上传图片
<?php set_time_limit(0); // 引入自动加载类// 确保路径是否正确 require_once 'autoload.php'; // 确定参数需要申请 $accessK ...
FastMM 定位内存泄露的代码位置
FastMM 定位内存泄露的代码位置开源的FastMM,使用很简单,在工程的第一行引用FastMM4即可(注意,一定要在第一个Uses的位置),可以在调试程序时提示内存泄露情况,还可以生成报告. 在 ...
WordPress ”无法发送电子邮件,可能原因:您的主机禁用了mail()函数“的解决办法
WordPress网站中出现 "无法发送电子邮件,可能原因:您的主机禁用了mail()函数"的情况一般都是因为所在主机环境不支持在线邮件收发功能导致,如果不支持的话,那么像类似 N ...

ID3算法

ID3算法的更多相关文章

随机推荐

热门专题