ID3

# -*- coding: utf-8 -*-

import copy

from numpy import *

import math

class ID3DTree(object):

    def __init__(self):

        self.tree = {}

        self.dataSet = []

        self.labels = []

    def loadDataSet(self, path, labels):

        recordlist = []

        fp = open(path, "rb")  # 读取文件内容

        content = fp.read()

        fp.close()

        rowlist = content.splitlines()  # 按行转换为一维表

        recordlist = [row.split() for row in rowlist if row.strip()]

        #print(recordlist)

        self.dataSet = recordlist

        self.labels = labels

    def train(self):

        #labels = copy.deepcopy(self.labels)

        labels=self.labels

        self.tree = self.buildTree(self.dataSet, labels)

        # 创建决策树主程序

    def buildTree(self, dataSet, labels):

        #print('zhesh1',dataSet,'\n')

        cateList = [data[-1] for data in dataSet]  # 抽取源数据集的决策标签列

        #print(cateList)

        # 程序终止条件1    : 如果classList只有一种决策标签，停止划分，返回这个决策标签

        if cateList.count(cateList[0]) == len(cateList):

            return cateList[0]

        # 程序终止条件2: 如果数据集的第一个决策标签只有一个 返回这个决策标签

        #print(len(dataSet[0]))

        if len(dataSet[0]) == 1:

            return self.maxCate(cateList)

        # 算法核心：

        bestFeat = self.getBestFeat(dataSet)  # 返回数据集的最优特征轴：

        bestFeatLabel = labels[bestFeat]

        tree = {bestFeatLabel: {}}

        del (labels[bestFeat])#删除当前最优的特征轴，然后继续进行

        # 抽取最优特征轴的列向量

        uniqueVals = set([data[bestFeat] for data in dataSet])  # 去重

        for value in uniqueVals:

            subLabels = labels[:]  # 将删除后的特征类别集建立子类别集

            splitDataset = self.splitDataSet(dataSet, bestFeat, value)  # 按最优特征列和值分割数据集

            subTree = self.buildTree(splitDataset, subLabels)  # 构建子树

            tree[bestFeatLabel][value] = subTree

        return tree

    def maxCate(self, catelist):  # 计算出现最多的类别标签

        items = dict([(catelist.count(i), i) for i in catelist])

        return items[max(items.keys())]

#计算最优特征子函数，就是根据求出来的信息增益去比较，谁的大，谁的就最优，然后就可以作为根节点，不断的循环下去

    def getBestFeat(self, dataSet):

        # 计算特征向量维，其中最后一列用于类别标签，因此要减去

        numFeatures = len(dataSet[0]) - 1  # 特征向量维数= 行向量维度-1

        baseEntropy = self.computeEntropy(dataSet)  # 基础熵：源数据的香农熵，这是总的信息熵

        bestInfoGain = 0.0;  # 初始化最优的信息增益

        bestFeature = -1  # 初始化最优的特征轴

        # 外循环：遍历数据集各列,计算最优特征轴

        # i 为数据集列索引：取值范围 0~(numFeatures-1)

        for i in range(numFeatures):  # 抽取第i列的列向量

            uniqueVals = set([data[i] for data in dataSet])  # 去重：该列的唯一值集

            newEntropy = 0.0  # 初始化该列的香农熵

            for value in uniqueVals:  # 内循环：按列和唯一值计算香农熵

                subDataSet = self.splitDataSet(dataSet, i, value)  # 按选定列i和唯一值分隔数据集,这是除了类别标签外的类别。

                #print('长度',len(subDataSet))

                #print(subDataSet)

                prob = len(subDataSet) / float(len(dataSet))

                newEntropy += prob * self.computeEntropy(subDataSet)

            infoGain = baseEntropy - newEntropy  # 计算最大增益

            if (infoGain > bestInfoGain):  # 如果信息增益>0;

                bestInfoGain = infoGain  # 用当前信息增益值替代之前的最优增益值

                bestFeature = i  # 重置最优特征为当前列

        return bestFeature

#计算总的信息熵

    def computeEntropy(self, dataSet):  # 计算香农熵

        datalen = float(len(dataSet))

        cateList = [data[-1] for data in dataSet]  # 从数据集中得到类别标签

        items = dict([(i, cateList.count(i)) for i in cateList])  # 得到类别为key，出现次数value的字典

        infoEntropy = 0.0  # 初始化香农熵

        for key in items:  # 计算香农熵

            prob = float(items[key]) / datalen

            infoEntropy -= prob * math.log(prob, 2)  # 香农熵：= - p*log2(p) --infoEntropy = -prob * log(prob,2)

        return infoEntropy

    # 分隔数据集：删除特征轴所在的数据列，返回剩余的数据集

    # dataSet：数据集;     axis：特征轴;     value：特征轴的取值

    def splitDataSet(self, dataSet, axis, value):

        rtnList = []

        for featVec in dataSet:

            #print('what',featVec)

            if featVec[axis] == value:

                rFeatVec = featVec[:axis]  # list操作 提取0~(axis-1)的元素

                rFeatVec.extend(featVec[axis + 1:])  # list操作 将特征轴（列）之后的元素加回

                rtnList.append(rFeatVec)

        return rtnList

    def predict(self, inputTree, featLabels, testVec):  # 分类器

        root = inputTree.keys()[0]  # 树根节点

        secondDict = inputTree[root]  # value-子树结构或分类标签

        featIndex = featLabels.index(root)  # 根节点在分类标签集中的位置

        key = testVec[featIndex]  # 测试集数组取值

        valueOfFeat = secondDict[key]  #

        if isinstance(valueOfFeat, dict):

            classLabel = self.predict(valueOfFeat, featLabels, testVec)  # 递归分类

        else:

            classLabel = valueOfFeat

        return classLabel

    # 存储树到文件

    def storeTree(self, inputTree, filename):

        fw = open(filename, 'w')

        pickle.dump(inputTree, fw)

        fw.close()

    # 从文件抓取树

    def grabTree(self, filename):

        fr = open(filename)

        return pickle.load(fr)

dtree=ID3DTree()

dtree.loadDataSet("F:\python数据挖掘\Desktop\MLBook\chapter03\dataset.dat",['age','revenue','student','credit'])

dtree.train()

print(dtree.tree)

结果输出为：

{'age': {b'': b'yes', b'': {'student': {b'': b'yes', b'': b'no'}}, b'': {'credit': {b'': b'no', b'': b'yes'}}}}

ID3的更多相关文章

决策树ID3算法的java实现(基本试用所有的ID3)
已知:流感训练数据集,预定义两个类别: 求:用ID3算法建立流感的属性描述决策树流感训练数据集 No. 头痛肌肉痛体温患流感 1 是(1) 是(1) 正常(0) 否(0) 2 是(1) 是(1 ...
MP3文件ID3信息编辑器代码开源 - 开源研究系列文章
上次把磁性窗体的源码开源了,这次就开源另一个程序源码:MP3文件ID3信息编辑器.这个源码也比较简单,关键在于获取和写入MP3文件的这个ID3的信息即可. 这个操作信息编辑的就封装在MP3ID3.ba ...
决策树-ID3
id3:无法直接处理数值型数据,可以通过量化方法将数值型数据处理成标称型数据,但涉及太多特征划分,不建议决策树:的最大优点在于可以给出数据的内在含义,数据形式非常容易理解: 决策树介绍:决策树分类器 ...
ID3、C4.5、CART、RandomForest的原理
决策树意义: 分类决策树模型是表示基于特征对实例进行分类的树形结构.决策树可以转换为一个if_then规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布. 它着眼于从一组无次序.无规则的样 ...
数据挖掘之决策树ID3算法（C#实现）
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
决策树 -- ID3算法小结
ID3算法(Iterative Dichotomiser 3 迭代二叉树3代),是一个由Ross Quinlan发明的用于决策树的算法:简单理论是越是小型的决策树越优于大的决策树. 算法归 ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
决策树-预测隐形眼镜类型（ID3算法，C4.5算法，CART算法，GINI指数,剪枝，随机森林）
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
ID3决策树的Java实现
package DecisionTree; import java.io.*; import java.util.*; public class ID3 { //节点类 public class DT ...
决策树笔记：使用ID3算法
决策树笔记:使用ID3算法决策树笔记:使用ID3算法机器学习先说一个偶然的想法:同样的一堆节点构成的二叉树,平衡树和非平衡树的区别,可以认为是"是否按照重要度逐渐降低"的顺序 ...

随机推荐

Linux_服务
1.服务启动顺序 http://bbs.chinaunix.net/thread-1970916-1-1.html http://bbs.csdn.net/topics/240060477 2.Lin ...
KMPlayer
1. KMP 播放时,有声无图像,黑屏.解决: 打开KMP然后右键-选项-参数设置(或者进入KMP直接按F2)-视频处理-右边选择“渲染器”-在“渲染器”中选择“VMR9 未渲染 (HQ字幕)”-选中 ...
tracert命令详解
一.windows.Linux系统下 tracert ip/网站域名二.mac traceroute IP/域名 ---------2016-10-10 15:29:07-- source:[1]t ...
使用SurfaceView
一.新建一个工程“LearnSurfaceView” 二.新建一个类“MySurfaceView” public class MySurfaceView extends SurfaceView imp ...
sqlserver 2008 服务器拒绝连接；拒绝访问指定的数据库
sqlserver配置管理器----sqlserver网络配置 --- 启用 named pipes OK 由于之前的程序是SQL2000开发的,迁移到SQL20008出了这个问题. 二和主题没有什 ...
【HTML5 】<script>元素async,defer异步加载
原文地址:HTML5′s async Script Attribute原文日期: 2010年09月22日翻译日期: 2013年08月22日 (译者注: 异步加载,可以理解为无阻塞并发处理.) (译者再 ...
Winform_播放声音文件
1.调用非托管的dll using System.Runtime.InteropServices; //DllImport命名空间的引用 class test //提示音 { [DllImport ...
Kafka消息保证不丢失和重复消费问题
使用同步模式的时候,有3种状态保证消息被安全生产,在配置为1(只保证写入leader成功)的话,如果刚好leader partition挂了,数据就会丢失.还有一种情况可能会丢失消息,就是使用异步模式 ...
spring-mvc 与 openid4java
以GoogleOpenID 为例,试验了OAuth单点登录的用法: <dependency> <groupId>org.openid4java</groupId> ...
php 新特性
PHP 5.6 1.可以使用表达式定义常量 https://php.net/manual/zh/migration56.new-features.php 在之前的 PHP 版本中,必须使用静态值来定义 ...

ID3

ID3的更多相关文章

随机推荐

热门专题