决策树---ID3算法（介绍及Python实现）

决策树---ID3算法

决策树：

以天气数据库的训练数据为例。

Outlook	Temperature	Humidity	Windy	PlayGolf?
sunny	85	85	FALSE	no
sunny	80	90	TRUE	no
overcast	83	86	FALSE	yes
rainy	70	96	FALSE	yes
rainy	68	80	FALSE	yes
rainy	65	70	TRUE	no
overcast	64	65	TRUE	yes
sunny	72	95	FALSE	no
sunny	69	70	FALSE	yes
rainy	75	80	FALSE	yes
sunny	75	70	TRUE	yes
overcast	72	90	TRUE	yes
overcast	81	75	FALSE	yes
rainy	71	91	TRUE	no

这个例子是根据报告天气条件的记录来决定是否外出打高尔夫球。

作为分类器，决策树是一棵有向无环树。

由根节点、叶节点、内部节点、分割属性、分割判断规则构成

生成阶段：决策树的构建和决策树的修剪。

根据分割方法的不同：有基于信息论（Information Theory）的方法和基于最小GINI指数（lowest GINI index）的方法。对应前者的常见方法有ID3、C4.5，后者的有CART。

ID3 算法

ID3的基本概念是：

1）决策树中的每一个非叶子节点对应着一个特征属性，树枝代表这个属性的值。一个叶节点代表从树根到叶节点之间的路径所对应的记录所属的类别属性值。这就是决策树的定义。

2）在决策树中，每一个非叶子节点都将与属性中具有最大信息量的特征属性相关联。

3）熵通常是用于测量一个非叶子节点的信息量大小的名词。

熵

热力学中表征物质状态的参量之一，用符号S表示，其物理意义是体系混乱程度的度量。热力学第二定律（second law of thermodynamics），热力学基本定律之一，又称“熵增定律”，表明在自然过程中，一个孤立系统的总混乱度（即“熵”）不会减小。

在信息论中，变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。

信息增益的计算

定义1：若存在个相同概率的消息，则每个消息的概率是,一个消息传递的信息量为。若有16个事件，则，需要4个比特来代表一个消息。

定义2：若给定概率分布，则由该分布传递的信息量称为的熵，即

例：若是，则是1；若是，则是0.92；若

是，则是0（注意概率分布越均匀，其信息量越大）

定义3：若一个记录的集合根据类别属性的值被分为相互独立的类，则识别的一个元素所属哪个类别所需要的信息量是,其中是的概率分布，即

仍以天气数据库的数据为例。我们统计了14天的气象数据(指标包括outlook，temperature，humidity，windy)，并已知这些天气是否打球(play)。如果给出新一天的气象指标数据，判断一下会不会去打球。在没有给定任何天气信息时，根据历史数据，我们知道一天中打球的概率是9/14，不打的概率是5/14。此时的熵为：

定义4：若我们根据某一特征属性将分成集合，则确定中的一个元素类的信息量可通过确定的加权平均值来得到，即的加权平均值为：

Outlook			temperature	humidity	windy			play
	yes	no				yes	no	yes	no
sunny	2	3			False	6	2	9	5
overcast	4	0			True	3	3
rainy	3	2

针对属性Outlook，我们来计算

定义5：将信息增益定义为：

即增益的定义是两个信息量之间的差值，其中一个信息量是需确定的一个元素的信息量，另一个信息量是在已得到的属性的值后确定的一个元素的信息量，即信息增益与属性相关。

针对属性Outlook的增益值：

若用属性windy替换outlook,可以得到，。即outlook比windy取得的信息量大。

ID3算法的Python实现

import math

import operator

def calcShannonEnt(dataset):

    numEntries = len(dataset)

    labelCounts = {}

    for featVec in dataset:

        currentLabel = featVec[-1]

        if currentLabel not in labelCounts.keys():

            labelCounts[currentLabel] = 0

        labelCounts[currentLabel] +=1

    shannonEnt = 0.0

    for key in labelCounts:

        prob = float(labelCounts[key])/numEntries

        shannonEnt -= prob*math.log(prob, 2)

    return shannonEnt

def CreateDataSet():

    dataset = [[1, 1, 'yes' ],

               [1, 1, 'yes' ],

               [1, 0, 'no'],

               [0, 1, 'no'],

               [0, 1, 'no']]

    labels = ['no surfacing', 'flippers']

    return dataset, labels

def splitDataSet(dataSet, axis, value):

    retDataSet = []

    for featVec in dataSet:

        if featVec[axis] == value:

            reducedFeatVec = featVec[:axis]

            reducedFeatVec.extend(featVec[axis+1:])

            retDataSet.append(reducedFeatVec)

    return retDataSet

def chooseBestFeatureToSplit(dataSet):

    numberFeatures = len(dataSet[0])-1

    baseEntropy = calcShannonEnt(dataSet)

    bestInfoGain = 0.0;

    bestFeature = -1;

    for i in range(numberFeatures):

        featList = [example[i] for example in dataSet]

        uniqueVals = set(featList)

        newEntropy =0.0

        for value in uniqueVals:

            subDataSet = splitDataSet(dataSet, i, value)

            prob = len(subDataSet)/float(len(dataSet))

            newEntropy += prob * calcShannonEnt(subDataSet)

        infoGain = baseEntropy - newEntropy

        if(infoGain > bestInfoGain):

            bestInfoGain = infoGain

            bestFeature = i

    return bestFeature

def majorityCnt(classList):

    classCount ={}

    for vote in classList:

        if vote not in classCount.keys():

            classCount[vote]=0

        classCount[vote]=1

    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def createTree(dataSet, labels):

    classList = [example[-1] for example in dataSet]

    if classList.count(classList[0])==len(classList):

        return classList[0]

    if len(dataSet[0])==1:

        return majorityCnt(classList)

    bestFeat = chooseBestFeatureToSplit(dataSet)

    bestFeatLabel = labels[bestFeat]

    myTree = {bestFeatLabel:{}}

    del(labels[bestFeat])

    featValues = [example[bestFeat] for example in dataSet]

    uniqueVals = set(featValues)

    for value in uniqueVals:

        subLabels = labels[:]

        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)

    return myTree

myDat,labels = CreateDataSet()

createTree(myDat,labels)

运行结果如下：

决策树---ID3算法（介绍及Python实现）的更多相关文章

机器学习之决策树(ID3)算法与Python实现
机器学习之决策树(ID3)算法与Python实现机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
02-21 决策树ID3算法
目录决策树ID3算法一.决策树ID3算法学习目标二.决策树引入三.决策树ID3算法详解 3.1 if-else和决策树 3.2 信息增益四.决策树ID3算法流程 4.1 输入 4.2 输出 ...
决策树--ID3 算法（一）
Contents 1. 决策树的基本认识 2. ID3算法介绍 3. 信息熵与信息增益 4. ID3算法的C++实现 1. 决策树的基本认识决策树是一种 ...
数据挖掘之决策树ID3算法（C#实现）
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
决策树ID3算法[分类算法]
ID3分类算法的编码实现 <?php /* *决策树ID3算法(分类算法的实现) */ /* *求信息增益Grain(S1,S2) */ //-------------------------- ...
决策树ID3算法--python实现
参考: 统计学习方法>第五章决策树] http://pan.baidu.com/s/1hrTscza 决策树的python实现有完整程序决策树(ID3.C4.5.CART ...
Python四步实现决策树ID3算法，参考机器学习实战
一.编写计算历史数据的经验熵函数 from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCo ...
机器学习决策树ID3算法，手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
【Machine Learning in Action --3】决策树ID3算法
1.简单概念描述决策树的类型有很多,有CART.ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定 ...

随机推荐

狄斯奎诺（dijkstra 模板）
/*狄斯奎诺算法(dijkstra)<邻接表> */ #include<stdio.h> #include<string.h> #include<stdlib ...
ceph 之recovery machhine
一.概述 ceph recovery状态机的变化过程:
.NET操作XML文件之泛型集合的序列化与反序列化
程序集:System.Xml.Serialization(在 System.Xml.Serialization.dll 中) 命名空间:System.Xml.Serialization 公共函数代码: ...
Accounting_会计基础知识
作为企业的财务人员,必须拥有一些技能和财务方面的知识,本文就所讲述的是财务岗位必须掌握的知识总结,仅供参考. 1.账面价值.账面余额和账面净值账面价值是指某科目(通常是资产类科目)的账面余额减去相关 ...
图解最小生成树 - 克鲁斯卡尔(Kruskal)算法
我们在前面讲过的<克里姆算法>是以某个顶点为起点,逐步找各顶点上最小权值的边来构建最小生成树的.同样的思路,我们也可以直接就以边为目标去构建,因为权值为边上,直接找最小权值的边来构建生成树 ...
Python 列表 count() 方法
描述 Python 列表 count() 方法用于统计某个元素在列表中出现的次数. 语法 count() 方法语法: L.count(obj) 参数 obj -- 列表中统计的对象. 返回值返回元素 ...
failed to load selinux policy freezing
一.原因: 在修改selinux配置文件时输入并保存了一个错误的配置参数. 二.挽救: 1. 重启系统. 2. 在启动选项上按 e. 3. 进入grub编辑页面. 4. 向下移动光标至fi下一行. 5 ...
做一个新产品需求，体验的分析文档？（例：喜马拉雅FM）
2.1 战略层 2.11 产品定位: 一款产品覆盖面广,收听节目种类齐全,资源丰富的电台APP. 以PGC为主流,通过合作方式吸纳专业的电台人,节目人,行业名人分享内容. 融合UGC,满足人们在空闲时 ...
SpringMVC中异常处理详解
Spring MVC处理异常最基本的就是HandlerExceptionResolver这个接口,先看张图分析上图可以轻松总结出,spring mvc里有三种异常处理方法: 1.使用官方提供的简单异 ...
Oracle学习笔记之七（用户管理、角色与权限、导入导出等）
下面这些基本的SQL语句应该熟悉,能够灵活运用.最好在不查资料的情况下,能够写出如下的任何代码. 1. 用户操作 --create user username identified by passwo ...

决策树---ID3算法（介绍及Python实现）

决策树---ID3算法（介绍及Python实现）的更多相关文章

随机推荐

热门专题