ID3算法

转自：http://blog.sina.com.cn/s/blog_6e85bf420100ohma.html

信息熵就是一组数据包含的信息，概率的度量。一组数据越有序信息熵也就越低，极端时如果一组数据中只有一个非0，其它都是0，那么熵等于0，因为只有可能是这个非0的情况发生，它给人们的信息已经确定了，或者说不含有任何信息了，因为信息熵含量为0。一组数据越无序信息熵也就越高，极端时如果一组数据均匀分布，那么它的熵最大，因为我们不知道那种情况发生的概率大些。假如一组数据由{d1,d2,...,dn}构成，其和是sum,那么求信息熵的公式是。

分类预测算法属于有指导学习，方法是通过训练数据，按照参考属性对目标属性的依赖程度对参考属性分级别处理，这种分级别处理体现在创建决策树，目的是通过生成的判别树，产生规则，用来判断以后的数据。以如下数据为例：

共14条记录，目标属性是，是否买电脑，共有两个情况，yes或者no。参考属性有4种情况，分别是，age,income,student,credit_rating。属性age有3种取值情况，分别是,youth,middle_aged,senior,属性income有3种取值情况，分别是,high,medium,low,属性student有2种取值情况，分别是，no,yes,属性credit_rating有2种取值情况，分别是fair,excellent。我们先求参考属性的信息熵：

，式中的5表示5个no,9表示9个yes,14是总的记录数。接下来我们求各个参考属性在取各自的值对应目标属性的信息熵，以属性age为例，有3种取值情况，分别是youth,middle_aged,senior，先考虑youth，youth共出现5次，3次no,2次yes,于是信息熵：

类似得到middle_aged和senior的信息熵，分别是：0和0.971。整个属性age的信息熵应该是它们的加权平均值：

。下面引入信息增益（information
gain）这个概念，用Gain(D)表示，该概念是指信息熵的有效减少量，该量越高，表明目标属性在该参考属性那失去的信息熵越多，那么该属性越应该在决策树的上层（如果不好理解，可以用极限的方法，即假如在age属性上，当为youth时全部是on,当为middle时也全部是no,当为senior时全不是yes,那么Hage(D)=0)。,类似可以求出Gain(income)=0.029,Gain(stduent)=0.151,Gain(credit_rating)=0.048。最大值为Gain(age),所以首先按照参考属性age，将数据分为3类，如下：

然后分别按照上面的方法递归的分类。递归终止的条件是，1，当分到某类时，目标属性全是一个值，如这里当年龄取middle_aged时，目标属性全是yes。2，当分到某类时，某个值的比例达到了给定的阈值，如这里当年龄取youth时，有60%的是no,当然实际的阈值远远大于60%。

ID3算法的更多相关文章

决策树ID3算法的java实现(基本试用所有的ID3)
已知:流感训练数据集,预定义两个类别: 求:用ID3算法建立流感的属性描述决策树流感训练数据集 No. 头痛肌肉痛体温患流感 1 是(1) 是(1) 正常(0) 否(0) 2 是(1) 是(1 ...
数据挖掘之决策树ID3算法（C#实现）
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
决策树 -- ID3算法小结
ID3算法(Iterative Dichotomiser 3 迭代二叉树3代),是一个由Ross Quinlan发明的用于决策树的算法:简单理论是越是小型的决策树越优于大的决策树. 算法归 ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
决策树-预测隐形眼镜类型（ID3算法，C4.5算法，CART算法，GINI指数,剪枝，随机森林）
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
决策树笔记：使用ID3算法
决策树笔记:使用ID3算法决策树笔记:使用ID3算法机器学习先说一个偶然的想法:同样的一堆节点构成的二叉树,平衡树和非平衡树的区别,可以认为是"是否按照重要度逐渐降低"的顺序 ...
ID3算法决策树的生成（2）
# coding:utf-8 import matplotlib.pyplot as plt import numpy as np import pylab def createDataSet(): ...
ID3算法决策树的生成（1）
# coding:utf-8 import matplotlib.pyplot as plt import numpy as np import pylab def createDataSet(): ...
决策树的基本ID3算法
一 ID3算法的大致思想基本的ID3算法是通过自顶向下构造决策树来进行学习的.我们首先思考的是树的构造从哪里开始,这就涉及到选择属性进行树的构造了,那么怎样选择属性呢?为了解决这个问题,我们使用统 ...
Python实现ID3算法
自己用Python写的数据挖掘中的ID3算法,现在觉得Python是实现算法的最好工具: 先贴出ID3算法的介绍地址http://wenku.baidu.com/view/cddddaed0975f4 ...

随机推荐

Ubuntu 上安装 MongoDB
官方安装文档:https://docs.mongodb.com/manual/installation/ 安装环境: mongodb-linux-x86_64-ubuntu1404-3.2.6.tgz ...
Mesa 3D
Mesa 3D是一个在MIT许可证下开放源代码的三维计算机图形库,以开源形式实现了OpenGL的应用程序接口. OpenGL的高效实现一般依赖于显示设备厂商提供的硬件,而Mesa 3D是一个纯基于软件 ...
DWZ分页、排序失效小结
1. 在视图文件中与分页相关的代码段 <form id="pagerForm" method="post" action="w_list.htm ...
WINDOWS系统Eclipse+NDK+Android + OpenCv
WINDOWS系统Eclipse+NDK+Android + OpenCv 参考文档博客 1 NDK环境搭建 http://jingyan.baidu.com/article/5d6edee22d90 ...
ios本地推送
#import "AppDelegate.h" @interface AppDelegate () @end @implementation AppDelegate //无论程序在 ...
如何安装Ecshop for linux
下载 http://update.shopex.com.cn/version/program/ECShop/download_ecshop_utf8.php 解压缩之后把upload文件夹中的内容放到 ...
mob免费短信验证码安卓SDK调用方法
很不错的一款免费验证码平台,支持IOS.安卓,比那些收费的稳定.开发容易.分享给大家,希望大家不要滥用官网: http://mob.com/ 官方有开发文档,但是有几点要注意的官方没有提到,导致初始 ...
loadrunner生成随机身份证和银行卡号
生成银行卡号码: Action() { char card[19] = {'6','2','2','7','0','0','0','0','0','0','0','0','0','0','0','0' ...
前端学PHP之文件操作(认真读读)
前面的话在程序运行时,程序本身和数据一般都存在内存中,当程序运行结束后,存放在内存中的数据被释放.如果需要长期保存程序运行所需的原始数据,或程序运行产生的结果,就需要把数据存储在文件或数据库.一般地 ...
js总结1

ID3算法

ID3算法的更多相关文章

随机推荐

热门专题