数据挖掘 ID3

本文讲的是数据挖掘中的ID3，这个有很多人做了，我也没有说什么改善，只是要考试，用我考试记录的来写，具有很大主观性，如果看到有觉得不对或感觉不好，请关掉浏览器或和我说，请不要生气或发不良的言论。

决策树使用属性划分

那么简单的，我有一只猫，不是吃的东西他就回去吃，吃的东西中，不给猫吃的，他就会吃。那么我们拿出一个东西，他就会根据构建的判断

ID3算法是由Quinlan首先提出的，该算法是以信息论为基础，以信息熵和信息增益为衡量标准，从而实现对数据的归纳分类。

ID3就是判断那个属性作为节点，例如上面说的，我们有属性吃的、给猫吃的，两个属性，ID3判断那个属性作为第一个节点，选取完了第一个节点吃的，就从剩下的属性选取。

信息熵

ID3判断是用信息熵，信息熵就是主要是指信息的混乱程度，变量的不确定性越大，熵的值也就越大，这是香农提出，熵的公式可以表示为：

其中，是类别在S出现概率。

信息不确定大，熵越大，所以把它分离作为节点得到信息多，如果一个熵为0，那么就不用分裂，表示确定，例如看到水100度，得到结果他沸在常温下

信息增益

信息增益(Information gain) 指的是划分前后熵的变化，可以用下面的公式表示：

其中，A表示样本的属性，是属性A所有的取值集合。V是A其中一个属性值，是S中A的值为V样例的集合。

那么看到这觉得不知道我在说什么，简答例子

我们先用别的大神例子，假如还是我们那个用某人是否网球天气

Day	Outlook	Temperature	Humidity	Wind	PlayTennis
D1	Sunny	Hot	High	Weak	No
D2	Sunny	Hot	High	Strong	No
D3	Overcast	Hot	High	Weak	Yes
D4	Rain	Mild	High	Weak	Yes
D5	Rain	Cool	Normal	Weak	Yes
D6	Rain	Cool	Normal	Strong	No
D7	Overcast	Cool	Normal	Strong	Yes
D8	Sunny	Mild	High	Weak	No
D9	Sunny	Cool	Normal	Weak	Yes
D10	Rain	Mild	Normal	Weak	Yes
D11	Sunny	Mild	Normal	Strong	Yes
D12	Overcast	Mild	High	Strong	Yes
D13	Overcast	Hot	Normal	Weak	Yes
D14	Rain	Mild	High	Strong	No

未知 Outlook=sunny, Temperature=cool,Humidity=high,Wind=strong

那么我们根据现在数据

计算信息熵

我们yes存在9，no存在4，根据

对每个属性计算，OUTLOOK属性中，有3个取值：Sunny、Overcast和Rainy，样本分布情况如下：

类别为Yes时，Sunny有2个样本；类别为No时，Sunny有3个样本。

类别为Yes时，Overcast有4个样本；类别为No时，Overcast有0个样本。

类别为Yes时，Rainy有3个样本；类别为No时，Rainy有2个样本。

接着对所有属性计算

信息增益

选出最大OutLook，然后把OutLook做节点，依靠不用属性分为多个集合，再对每个集合计算信息增益得到节点，直到不能再分。

我们得到决策树就可以把我们要分的属性依靠决策树来分，这个方法已经很老，现在比较少用

参考：http://shiyanjun.cn/archives/417.html

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。欢迎转载、使用、重新发布，但务必保留文章署名林德熙(包含链接:http://blog.csdn.net/lindexi_gd )，不得用于商业目的，基于本文修改后的作品务必以相同的许可发布。如有任何疑问，请与我联系。

数据挖掘 ID3的更多相关文章

ID3和C4.5分类决策树算法 - 数据挖掘算法（7）
(2017-05-18 银河统计) 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.由于这种决策分支画 ...
数据挖掘之决策树ID3算法（C#实现）
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
数据挖掘决策树算法 ID3 通俗演绎
决策树是对数据进行分类,以此达到预測的目的.该决策树方法先依据训练集数据形成决策树,假设该树不能对全部对象给出正确的分类,那么选择一些例外添�到训练集数据中,反复该过程一直到形成正确的决策集.决策树代 ...
数据挖掘中ID3算法实现zz
id3 function D = ID3(train_features, train_targets, params, region) % Classify using Quinlan's ID3 a ...
跟我一起数据挖掘（23）——C4.5
C4.5简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法.它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类.C4.5的目 ...
【十大经典数据挖掘算法】C4.5
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 决策树模型与学习决策树(de ...
《BI那点儿事》数据挖掘的主要方法
一.回归分析目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来.所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式).回 ...
决策树-预测隐形眼镜类型（ID3算法，C4.5算法，CART算法，GINI指数,剪枝，随机森林）
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
机器学习&&数据挖掘之一：决策树基础认识
决策树入门篇前言:分类是数据挖掘中的主要分析手段,其任务就是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,把类标号未知的样本按照某一规则映射到预先给定的类标号中. 分类 ...

随机推荐

201521123028 《Java程序设计》第5周学习总结
1. 本周学习总结 2. 书面作业 Q1.代码阅读:Child压缩包内源代码 1.1 com.parent包中Child.java文件能否编译通过?哪句会出现错误?试改正该错误.并分析输出结果. Ch ...
201521145048《Java程序设计》第5周学习总结
1. 本章学习总结 2. 书面作业 Q1.代码阅读:Child压缩包内源代码 1.1 com.parent包中Child.java文件能否编译通过?哪句会出现错误?试改正该错误.并分析输出结果. 错误 ...
201521123005 《Java程序设计》第十一周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 2. 书面作业本次PTA作业题集多线程 Q1.互斥访问与同步访问完成题集4-4(互斥访问)与4-5(同步访问) ...
201521123050 《Java程序设计》第11周学习总结
1. 本周学习总结 2. 书面作业本次PTA作业题集多线程 1.互斥访问与同步访问完成题集4-4(互斥访问)与4-5(同步访问) 1.1 除了使用synchronized修饰方法实现互斥同步访问,还 ...
201521123078 《java程序设计》第十周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常与多线程相关内容. 创建线程:定义Thread的子类可以实现Runable接口线程的控制:线程暂停Thread.sleep() ...
java课程设计团队博客
java课程设计本组主题:Calculator(简易计算器) 功能要求:基本实现计算器的功能,可运行加.减.乘.除.求倒数.求平方根.求百分号运算.正负数运算等一.团队介绍团队名称:熬夜做不出随 ...
python 浅析模块
今天买了一本关于模块的书,说实话,模块真的太多了,小编许多也不知道,要是把模块全讲完,可能得出本书了,所以小编在自己有限的能力范围内在这里浅析一下自己的见解,同时讲讲几个常用的模块. 首先说一下对模块 ...
MySQL的数据备份以及pymysql的使用
一.MySQL的数据备份语法: # mysqldump -h 服务器 -u用户名 -p密码数据库名 > 备份文件.sql #示例: #单库备份 mysqldump -uroot -p123 ...
Oracle SQL*Plus 数据备份为 sql 文件
在某些比较严格的环境中,不提供像PL/SQL Developer 这样的工具供我们备份表数据时,使用SQL*Plus运行如下脚本内容导出数据. 1, 执行时登录SQL*Plus, 命令 @D: ...
Eclipse读取含有extjs的项目文件时卡死或者编写ExtJS时卡
新建一个Eclipse或MyEclipse项目时,关掉验证. 项目右键-->Properties-->Builders--> 不勾选(JavaScript Validator.Val ...

数据挖掘 ID3

信息熵

信息增益

数据挖掘 ID3的更多相关文章

随机推荐

热门专题