ID3
# -*- coding: utf-8 -*-
import copy
from numpy import *
import math
class ID3DTree(object):
def __init__(self):
self.tree = {}
self.dataSet = []
self.labels = [] def loadDataSet(self, path, labels):
recordlist = []
fp = open(path, "rb") # 读取文件内容
content = fp.read()
fp.close()
rowlist = content.splitlines() # 按行转换为一维表
recordlist = [row.split() for row in rowlist if row.strip()]
#print(recordlist)
self.dataSet = recordlist
self.labels = labels def train(self):
#labels = copy.deepcopy(self.labels)
labels=self.labels
self.tree = self.buildTree(self.dataSet, labels) # 创建决策树主程序 def buildTree(self, dataSet, labels):
#print('zhesh1',dataSet,'\n')
cateList = [data[-1] for data in dataSet] # 抽取源数据集的决策标签列
#print(cateList)
# 程序终止条件1 : 如果classList只有一种决策标签,停止划分,返回这个决策标签
if cateList.count(cateList[0]) == len(cateList):
return cateList[0]
# 程序终止条件2: 如果数据集的第一个决策标签只有一个 返回这个决策标签
#print(len(dataSet[0]))
if len(dataSet[0]) == 1:
return self.maxCate(cateList)
# 算法核心:
bestFeat = self.getBestFeat(dataSet) # 返回数据集的最优特征轴:
bestFeatLabel = labels[bestFeat]
tree = {bestFeatLabel: {}}
del (labels[bestFeat])#删除当前最优的特征轴,然后继续进行
# 抽取最优特征轴的列向量
uniqueVals = set([data[bestFeat] for data in dataSet]) # 去重
for value in uniqueVals:
subLabels = labels[:] # 将删除后的特征类别集建立子类别集
splitDataset = self.splitDataSet(dataSet, bestFeat, value) # 按最优特征列和值分割数据集
subTree = self.buildTree(splitDataset, subLabels) # 构建子树
tree[bestFeatLabel][value] = subTree
return tree def maxCate(self, catelist): # 计算出现最多的类别标签
items = dict([(catelist.count(i), i) for i in catelist])
return items[max(items.keys())]
#计算最优特征子函数,就是根据求出来的信息增益去比较,谁的大,谁的就最优,然后就可以作为根节点,不断的循环下去
def getBestFeat(self, dataSet):
# 计算特征向量维,其中最后一列用于类别标签,因此要减去
numFeatures = len(dataSet[0]) - 1 # 特征向量维数= 行向量维度-1
baseEntropy = self.computeEntropy(dataSet) # 基础熵:源数据的香农熵,这是总的信息熵
bestInfoGain = 0.0; # 初始化最优的信息增益
bestFeature = -1 # 初始化最优的特征轴
# 外循环:遍历数据集各列,计算最优特征轴
# i 为数据集列索引:取值范围 0~(numFeatures-1)
for i in range(numFeatures): # 抽取第i列的列向量
uniqueVals = set([data[i] for data in dataSet]) # 去重:该列的唯一值集
newEntropy = 0.0 # 初始化该列的香农熵
for value in uniqueVals: # 内循环:按列和唯一值计算香农熵
subDataSet = self.splitDataSet(dataSet, i, value) # 按选定列i和唯一值分隔数据集,这是除了类别标签外的类别。
#print('长度',len(subDataSet))
#print(subDataSet)
prob = len(subDataSet) / float(len(dataSet))
newEntropy += prob * self.computeEntropy(subDataSet)
infoGain = baseEntropy - newEntropy # 计算最大增益
if (infoGain > bestInfoGain): # 如果信息增益>0;
bestInfoGain = infoGain # 用当前信息增益值替代之前的最优增益值
bestFeature = i # 重置最优特征为当前列
return bestFeature #计算总的信息熵
def computeEntropy(self, dataSet): # 计算香农熵
datalen = float(len(dataSet))
cateList = [data[-1] for data in dataSet] # 从数据集中得到类别标签
items = dict([(i, cateList.count(i)) for i in cateList]) # 得到类别为key,出现次数value的字典
infoEntropy = 0.0 # 初始化香农熵
for key in items: # 计算香农熵
prob = float(items[key]) / datalen
infoEntropy -= prob * math.log(prob, 2) # 香农熵:= - p*log2(p) --infoEntropy = -prob * log(prob,2)
return infoEntropy # 分隔数据集:删除特征轴所在的数据列,返回剩余的数据集
# dataSet:数据集; axis:特征轴; value:特征轴的取值
def splitDataSet(self, dataSet, axis, value):
rtnList = []
for featVec in dataSet:
#print('what',featVec)
if featVec[axis] == value:
rFeatVec = featVec[:axis] # list操作 提取0~(axis-1)的元素
rFeatVec.extend(featVec[axis + 1:]) # list操作 将特征轴(列)之后的元素加回
rtnList.append(rFeatVec)
return rtnList def predict(self, inputTree, featLabels, testVec): # 分类器
root = inputTree.keys()[0] # 树根节点
secondDict = inputTree[root] # value-子树结构或分类标签
featIndex = featLabels.index(root) # 根节点在分类标签集中的位置
key = testVec[featIndex] # 测试集数组取值
valueOfFeat = secondDict[key] #
if isinstance(valueOfFeat, dict):
classLabel = self.predict(valueOfFeat, featLabels, testVec) # 递归分类
else:
classLabel = valueOfFeat
return classLabel # 存储树到文件
def storeTree(self, inputTree, filename):
fw = open(filename, 'w')
pickle.dump(inputTree, fw)
fw.close() # 从文件抓取树
def grabTree(self, filename):
fr = open(filename)
return pickle.load(fr)
dtree=ID3DTree()
dtree.loadDataSet("F:\python数据挖掘\Desktop\MLBook\chapter03\dataset.dat",['age','revenue','student','credit'])
dtree.train()
print(dtree.tree)
结果输出为:
{'age': {b'': b'yes', b'': {'student': {b'': b'yes', b'': b'no'}}, b'': {'credit': {b'': b'no', b'': b'yes'}}}}
ID3的更多相关文章
- 决策树ID3算法的java实现(基本试用所有的ID3)
已知:流感训练数据集,预定义两个类别: 求:用ID3算法建立流感的属性描述决策树 流感训练数据集 No. 头痛 肌肉痛 体温 患流感 1 是(1) 是(1) 正常(0) 否(0) 2 是(1) 是(1 ...
- MP3文件ID3信息编辑器代码开源 - 开源研究系列文章
上次把磁性窗体的源码开源了,这次就开源另一个程序源码:MP3文件ID3信息编辑器.这个源码也比较简单,关键在于获取和写入MP3文件的这个ID3的信息即可. 这个操作信息编辑的就封装在MP3ID3.ba ...
- 决策树-ID3
id3:无法直接处理数值型数据,可以通过量化方法将数值型数据处理成标称型数据,但涉及太多特征划分,不建议 决策树:的最大优点在于可以给出数据的内在含义,数据形式非常容易理解: 决策树介绍:决策树分类器 ...
- ID3、C4.5、CART、RandomForest的原理
决策树意义: 分类决策树模型是表示基于特征对实例进行分类的树形结构.决策树可以转换为一个if_then规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布. 它着眼于从一组无次序.无规则的样 ...
- 数据挖掘之决策树ID3算法(C#实现)
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
- 决策树 -- ID3算法小结
ID3算法(Iterative Dichotomiser 3 迭代二叉树3代),是一个由Ross Quinlan发明的用于决策树的算法:简单理论是越是小型的决策树越优于大的决策树. 算法归 ...
- 机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
- 决策树-预测隐形眼镜类型 (ID3算法,C4.5算法,CART算法,GINI指数,剪枝,随机森林)
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
- ID3决策树的Java实现
package DecisionTree; import java.io.*; import java.util.*; public class ID3 { //节点类 public class DT ...
- 决策树笔记:使用ID3算法
决策树笔记:使用ID3算法 决策树笔记:使用ID3算法 机器学习 先说一个偶然的想法:同样的一堆节点构成的二叉树,平衡树和非平衡树的区别,可以认为是"是否按照重要度逐渐降低"的顺序 ...
随机推荐
- Scrum Meeting--Twelve(2015-11-3)
今日已完成任务和明日要做的任务 姓名 今日已完成任务 今日时间 明日计划完成任务 估计用时 董元财 服务器修改与优化 5h 服务器修改与优化 4h 胡亚坤 客户端数据更新 2h 客户端意见反馈收集 2 ...
- 《转》Ubuntu 12.04常用的快捷键
Ubuntu 12.04常用的快捷键 超级键操作 1.超级键(Win键)–打开dash. www.2cto.com 2.长按超级键– 启动Launcher.并快捷键列表. 3.按住 ...
- iOS - Swift NSFileManage 文件管理
前言 public class NSFileManager : NSObject public class NSFileHandle : NSObject, NSSecureCoding NSFile ...
- spring之aop概念和配置
面向切面的一些概念: 简单说: 连接点就一些方法,在这些方法基础上需要额外的一些业务需求处理. 切入点就是方法所代表的功能点组合起来的功能需求. 通知就是那些额外的操作. 织入就是使用代理实现整个切入 ...
- 【服务器环境搭建-Centos】Nginx1.9.9 安装(编译源码)
nginx官网不同版本下载地址:http://nginx.org/download/ 我使用的是nginx-1.9.8.tar.gz 安装其他支持软件 可以使用rpm –q xxx 查询库是否已经 ...
- Vbs脚本经典教材(转)
Vbs脚本经典教材(最全的资料还是MSDN) —为什么要使用Vbs? 在Windows中,学习计算机操作也许很简单,但是很多计算机工作是重复性劳动,例如你每周也许需要对一些计算机文件进行复制.粘贴.改 ...
- Windows菜单
目录 第1章 Windows菜单 1 1.1 窗口菜单和弹出菜单 1 1.2 使用SetMenu 2 1.3 使用TrackPopupMenu 4 第1章 Windows菜单 ...
- 关于OneProxy推广
通过以下关键字 分库分表,读写分离,连接池,跨库查询,开源数据库,MySQL,高性能,并行查询 在搜索引擎中,都找不到OneProxy和OneSQL的影子
- jq文本框显示最多可以输入多少字
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
- css3制作滚动按钮
1,中间圆点用到css3的gradient属性 2,运动用到css3的transition属性 3,需要写各个浏览器的兼容 代码如下 <!DOCTYPE html> <html la ...