决策树---ID3算法（介绍及Python实现）

决策树---ID3算法

决策树：

以天气数据库的训练数据为例。

Outlook	Temperature	Humidity	Windy	PlayGolf?
sunny	85	85	FALSE	no
sunny	80	90	TRUE	no
overcast	83	86	FALSE	yes
rainy	70	96	FALSE	yes
rainy	68	80	FALSE	yes
rainy	65	70	TRUE	no
overcast	64	65	TRUE	yes
sunny	72	95	FALSE	no
sunny	69	70	FALSE	yes
rainy	75	80	FALSE	yes
sunny	75	70	TRUE	yes
overcast	72	90	TRUE	yes
overcast	81	75	FALSE	yes
rainy	71	91	TRUE	no

这个例子是根据报告天气条件的记录来决定是否外出打高尔夫球。

作为分类器，决策树是一棵有向无环树。

由根节点、叶节点、内部节点、分割属性、分割判断规则构成

生成阶段：决策树的构建和决策树的修剪。

根据分割方法的不同：有基于信息论（Information Theory）的方法和基于最小GINI指数（lowest GINI index）的方法。对应前者的常见方法有ID3、C4.5，后者的有CART。

ID3 算法

ID3的基本概念是：

1）决策树中的每一个非叶子节点对应着一个特征属性，树枝代表这个属性的值。一个叶节点代表从树根到叶节点之间的路径所对应的记录所属的类别属性值。这就是决策树的定义。

2）在决策树中，每一个非叶子节点都将与属性中具有最大信息量的特征属性相关联。

3）熵通常是用于测量一个非叶子节点的信息量大小的名词。

熵

热力学中表征物质状态的参量之一，用符号S表示，其物理意义是体系混乱程度的度量。热力学第二定律（second law of thermodynamics），热力学基本定律之一，又称“熵增定律”，表明在自然过程中，一个孤立系统的总混乱度（即“熵”）不会减小。

在信息论中，变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。

信息增益的计算

定义1：若存在个相同概率的消息，则每个消息的概率是,一个消息传递的信息量为。若有16个事件，则，需要4个比特来代表一个消息。

定义2：若给定概率分布，则由该分布传递的信息量称为的熵，即

例：若是，则是1；若是，则是0.92；若

是，则是0（注意概率分布越均匀，其信息量越大）

定义3：若一个记录的集合根据类别属性的值被分为相互独立的类，则识别的一个元素所属哪个类别所需要的信息量是,其中是的概率分布，即

仍以天气数据库的数据为例。我们统计了14天的气象数据(指标包括outlook，temperature，humidity，windy)，并已知这些天气是否打球(play)。如果给出新一天的气象指标数据，判断一下会不会去打球。在没有给定任何天气信息时，根据历史数据，我们知道一天中打球的概率是9/14，不打的概率是5/14。此时的熵为：

定义4：若我们根据某一特征属性将分成集合，则确定中的一个元素类的信息量可通过确定的加权平均值来得到，即的加权平均值为：

Outlook			temperature	humidity	windy			play
	yes	no				yes	no	yes	no
sunny	2	3			False	6	2	9	5
overcast	4	0			True	3	3
rainy	3	2

针对属性Outlook，我们来计算

定义5：将信息增益定义为：

即增益的定义是两个信息量之间的差值，其中一个信息量是需确定的一个元素的信息量，另一个信息量是在已得到的属性的值后确定的一个元素的信息量，即信息增益与属性相关。

针对属性Outlook的增益值：

若用属性windy替换outlook,可以得到，。即outlook比windy取得的信息量大。

ID3算法的Python实现

import math

import operator

def calcShannonEnt(dataset):

    numEntries = len(dataset)

    labelCounts = {}

    for featVec in dataset:

        currentLabel = featVec[-1]

        if currentLabel not in labelCounts.keys():

            labelCounts[currentLabel] = 0

        labelCounts[currentLabel] +=1

    shannonEnt = 0.0

    for key in labelCounts:

        prob = float(labelCounts[key])/numEntries

        shannonEnt -= prob*math.log(prob, 2)

    return shannonEnt

def CreateDataSet():

    dataset = [[1, 1, 'yes' ],

               [1, 1, 'yes' ],

               [1, 0, 'no'],

               [0, 1, 'no'],

               [0, 1, 'no']]

    labels = ['no surfacing', 'flippers']

    return dataset, labels

def splitDataSet(dataSet, axis, value):

    retDataSet = []

    for featVec in dataSet:

        if featVec[axis] == value:

            reducedFeatVec = featVec[:axis]

            reducedFeatVec.extend(featVec[axis+1:])

            retDataSet.append(reducedFeatVec)

    return retDataSet

def chooseBestFeatureToSplit(dataSet):

    numberFeatures = len(dataSet[0])-1

    baseEntropy = calcShannonEnt(dataSet)

    bestInfoGain = 0.0;

    bestFeature = -1;

    for i in range(numberFeatures):

        featList = [example[i] for example in dataSet]

        uniqueVals = set(featList)

        newEntropy =0.0

        for value in uniqueVals:

            subDataSet = splitDataSet(dataSet, i, value)

            prob = len(subDataSet)/float(len(dataSet))

            newEntropy += prob * calcShannonEnt(subDataSet)

        infoGain = baseEntropy - newEntropy

        if(infoGain > bestInfoGain):

            bestInfoGain = infoGain

            bestFeature = i

    return bestFeature

def majorityCnt(classList):

    classCount ={}

    for vote in classList:

        if vote not in classCount.keys():

            classCount[vote]=0

        classCount[vote]=1

    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def createTree(dataSet, labels):

    classList = [example[-1] for example in dataSet]

    if classList.count(classList[0])==len(classList):

        return classList[0]

    if len(dataSet[0])==1:

        return majorityCnt(classList)

    bestFeat = chooseBestFeatureToSplit(dataSet)

    bestFeatLabel = labels[bestFeat]

    myTree = {bestFeatLabel:{}}

    del(labels[bestFeat])

    featValues = [example[bestFeat] for example in dataSet]

    uniqueVals = set(featValues)

    for value in uniqueVals:

        subLabels = labels[:]

        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)

    return myTree

myDat,labels = CreateDataSet()

createTree(myDat,labels)

运行结果如下：

决策树---ID3算法（介绍及Python实现）的更多相关文章

机器学习之决策树(ID3)算法与Python实现
机器学习之决策树(ID3)算法与Python实现机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
02-21 决策树ID3算法
目录决策树ID3算法一.决策树ID3算法学习目标二.决策树引入三.决策树ID3算法详解 3.1 if-else和决策树 3.2 信息增益四.决策树ID3算法流程 4.1 输入 4.2 输出 ...
决策树--ID3 算法（一）
Contents 1. 决策树的基本认识 2. ID3算法介绍 3. 信息熵与信息增益 4. ID3算法的C++实现 1. 决策树的基本认识决策树是一种 ...
数据挖掘之决策树ID3算法（C#实现）
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
决策树ID3算法[分类算法]
ID3分类算法的编码实现 <?php /* *决策树ID3算法(分类算法的实现) */ /* *求信息增益Grain(S1,S2) */ //-------------------------- ...
决策树ID3算法--python实现
参考: 统计学习方法>第五章决策树] http://pan.baidu.com/s/1hrTscza 决策树的python实现有完整程序决策树(ID3.C4.5.CART ...
Python四步实现决策树ID3算法，参考机器学习实战
一.编写计算历史数据的经验熵函数 from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCo ...
机器学习决策树ID3算法，手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
【Machine Learning in Action --3】决策树ID3算法
1.简单概念描述决策树的类型有很多,有CART.ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定 ...

随机推荐

nyoj---快速查找素数
快速查找素数时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述现在给你一个正整数N,要你快速的找出在2.....N这些数里面所有的素数. 输入给出一个正整数数N ...
RabbitMQ消息队列（五）：Routing 消息路由 2[原]
上一篇文章使用的是Direct的Exchange,但是没有指定Queue的名字,这样只能是先运行Consumer之后,Producer在运行发消息Consumer才能收到,否则先运行Producer发 ...
go 学习笔记（4） ---项目结构
go install和go build之争.目前,IDEA插件和LiteIDE都采用了go build.Eclipse插件采用了go install.官方推荐go install方式编译项目,官方项目 ...
命名管道FIFO和mkfifo函数
进程间通信必须通过内核提供的通道,而且必须有一种办法在进程中标识内核提供的某个通道,前面讲过的匿名管道是用打开的文件描述符来标识的.如果要互相通信的几个进程没有从公共祖先那里继承文件描述符,它们怎么通 ...
jenkins job构建后汇总结果到同一个文本文档中去
jenkins 构建后,执行下shell脚本,把结果汇总到同一个文件中,这样多个job构建后的结果可以在一个文件中展示 result_all_dir="/app/jenkins_result ...
今天遇到的一个bug，折腾了一早上，不过解决了，还是很高兴
1.总结出错的问题当我在用flask做项目的时候,需要创建表,创建表的时候,我用的是Flask-Migrate组件,直接用python manage.py init ,python manage.p ...
vim:去掉响铃
vim在移动字符出界(上下左右)包括按<ESC>建都会响铃,有时候真的很烦. 在网上搜了一下,原来是visualbell来控制的,在vim里使用命令:help visualbell,原来禁 ...
Xilinx中的xapp1052理解
xapp1052是xilinx官方给出的一个有关DMA数据传输的样例,用于PC端和FPGA端之间的DMA数据传输.首先需要说的是,xapp1052并不是一个完整的DMA数据传输的终端硬件设计,这在下面 ...
Wireshark分析网络慢
tcp.analysis.retransmission tcp.flags.reset==1
CCNotificationCenter(一)
const std::string testsName[MAX_COUNT] = { "Bug-350", "Bug-422", "Bug-458&q ...

决策树---ID3算法（介绍及Python实现）

决策树---ID3算法（介绍及Python实现）的更多相关文章

随机推荐

热门专题