Python 决策树的构造

　　上一节我们学习knn，kNN的最大缺点就是无法给出数据的内在含义，而使用决策树处理分类问题，优势就在于数据形式非常容易理解。

　　决策树的算法有很多，有CART、ID3和C4.5等，其中ID3和C4.5都是基于信息熵的，也是我们今天的学习内容，主要是根据通过信息熵划分数据集，再进入递归构造决策树的过程。

1. 信息熵

　　熵最初被用在热力学方面的，由热力学第二定律，熵是用来对一个系统可以达到的状态数的一个度量，能达到的状态数越多熵越大。香农1948年的一篇论文《A Mathematical Theory of Communication》提出了信息熵的概念，此后信息论也被作为一门单独的学科。

　　信息熵是用来衡量一个随机变量出现的期望值，一个变量的信息熵越大，那么他出现的各种情况也就越多。信息熵越小，说明信息量越小。

　　对于信息的定义，可以这样理解，如果待分类的事务划分在多个分类之中，则符号x_i的信息定义为

　　　　I(x_i) = -log₂p(x_i) 其中p(x_i) 是选择该分类的概率

　　为了计算熵，我们需要计算所有类别所有可能值包含的信息期望值，通过下面的公式可得：

　　　　，其中n是分类的数目

2. 计算信息熵

　　这里有个小例子，通过2个特征：不浮出水面是否可以生存，是否有脚蹼，来判断是否属于鱼类。其中‘1’表示是，‘0’表示否

不浮出水面是否可以生存	是否有脚蹼	属于鱼类
1	1	1
1	1	1
1	0	0
0	1	0
0	1	0

　　使用python实现简单计算信息熵，程序如下：

#-*- coding:utf-8 -*-
from math import log

#创建简单数据集

def creatDataset():

    dataSet = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]

    labels = ['no surfacing','flippers']

    return dataSet,labels

#计算信息熵

def calcShannonEnt(dataSet):

    numEntries = len(dataSet)

    labelCounts = {}

    for vec in dataSet:

        currentLabel = vec[-1]

        if currentLabel not in labelCounts.keys():  #为所有可能的分类建立字典

            labelCounts[currentLabel] = 0

        labelCounts[currentLabel] += 1

    shannonEnt = 0.0

    for key in labelCounts:

        prob = float(labelCounts[key])/numEntries

        shannonEnt -= prob * log(prob,2)

    return shannonEnt 

#简单测试

myDat,labels = creatDataset()

print myDat

print calcShannonEnt(myDat)

　　测试结果如下：

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

0.970950594455

　　得到熵之后，我们就可以按照获取最大信息熵的方法来划分数据集。

3. 划分数据集

　　划分的方法是：对每个特征划分数据集的结果计算一次信息熵，然后判断按照哪个特征划分数据集是最好的划分方式。

　　定义函数splitDataset(dataSet,axis,value)来将数据划分，其中axis表示划分数据集的特征（比如说"是否有脚蹼"），value表示特征的值（“有脚蹼”还是“无脚蹼”）　

#按照给定的特征划分数据集

def splitDataset(dataSet,axis,value):

    retDataset = []     #符合特征的数据

    for vec in dataSet:

        if vec[axis] == value:       #数据特征符合要求

            reducedVec = vec[:axis]  #提取该数据的剩余特征

            reducedVec.extend(vec[axis+1:])   #将两列表合成一个列表

            reDataset.append(reducedVec)

    return reDataset

　　接下里，我们需遍历整个数据集，循环计算香农熵和splitDataset（）函数，找到最好的特征划分方式。

　　思路：计算原始信息熵，然后对每个特征值（去重）划分一次数据集，计算数据集的新熵值，并对所有唯一特征值得到的熵求和，期望是找到最好的信息增益，也即是熵的减少量最大，最后返回最好特征划分的索引值。

#选择最好的数据集划分方式

def chooseBestFeatureToSplit(dataSet):

    numFeatures = len(dataSet[0]) - 1     #特征数

    baseEntropy = calcShannonEnt(dataSet) #计算原始熵

    bestInfoGain = 0.0

    bestFeature = -1

    for i in xrange(numFeatures):

        featList = [eg[i] for eg in dataSet] #分类标签列表

        uniqueVals = set(featList)           #构建集合去重

        newEntropy = 0.0

        #计算每种划分方式的信息熵

        for value in uniqueVals:

            subDataSet = splitDataset(dataSet,i,value)

            prob = len(subDataSet)/float(len(dataSet)) #出现比例

            newEntropy += prob * calcShannonEnt(subDataSet)

        #计算最好的信息增益

        infoGain = baseEntropy - newEntropy

        if (infoGain > bestInfoGain):

            bestInfoGain = infoGain

            bestFeature = i

    return bestFeature

4. 递归构造决策树

Python 决策树的构造的更多相关文章

Python决策树可视化：GraphViz's executables not found的解决方法
参考文献: [1]Python决策树可视化:GraphViz's executables not found的解决方法
Python——决策树实战：california房价预测
Python——决策树实战:california房价预测编译环境:Anaconda.Jupyter Notebook 首先,导入模块: import pandas as pd import matp ...
Ubuntu 下一个 vim 建立python 周围环境构造
于Windows通过使用各种现成的工具使用,去Linux下一个,没有一个关于线索--总之google有些人的经验,折腾来折腾,开发环境也算是一个好工作. 1. 安装完成vim # apt-get in ...
机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存
使用python3 学习了决策树分类器的api 涉及到特征的提取,数据类型保留,分类类型抽取出来新的类型需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https: ...
python md5 请求构造
-----------------md5加密的方法:---------------------------------- import hashlib m = hashlib.md5() ...
python 决策树
RID age income student credit_rating Class:buys_computer 1 youth high no fair no 2 youth high no exc ...
我的spark python 决策树实例
from numpy import array from pyspark.mllib.regression import LabeledPoint from pyspark.mllib.tree im ...
Python—使用列表构造队列数据结构
队列的概念只允许在一端插入数据操作,在另一端进行删除数据操作的特殊线性表:进行插入操作的一端称为队尾(入队列),进行删除操作的一端称为队头(出队列):队列具有先进先出(FIFO)的特性. # _*_ ...
Python—使用列表构造栈数据结构
class Stack(object): """ 使用列表实现栈 """ def __init__(self): self.stack = ...

随机推荐

POI 导出Excel
package east.mvc.utils; import java.io.*; import java.lang.reflect.*; import java.text.SimpleDateFor ...
How to generate a random number in R
Generate a random number between 5.0 and 7.5x1 <- runif(1, 5.0, 7.5) # 参数1表示产生一个随机数x2 <- runif ...
HDU 5842 Lweb and String（Lweb与字符串）
p.MsoNormal { margin: 0pt; margin-bottom: .0001pt; text-align: justify; font-family: Calibri; font-s ...
忙了好一阵，今天随便写篇关于canvas的小东西
前几天在朋友圈发了几条3D demo视频,其中就有3D空间组成各种图形.如上! 那么这些图形的每个mesh的坐标可不是手动去写,如果你愿意我当然不拦着!所以今天这篇就来介绍如何获得这些图形的坐标数据. ...
storm-kafka组件中KafkaOffsetMetric相关统计指标说明
storm-kafka组件中KafkaOffsetMetric相关统计指标说明 storm-kafka是storm提供的一个读取kakfa的组件,用于从kafka队列中消费数据.KafkaOffset ...
深入浅出设计模式——策略模式（Strategy Pattern）
模式动机完成一项任务,往往可以有多种不同的方式,每一种方式称为一个策略,我们可以根据环境或者条件的不同选择不同的策略来完成该项任务.在软件开发中也常常遇到类似的情况,实现某一个功能有多个途径,此时可 ...
Scrum Meeting 4-20151204
任务安排姓名今日任务明日任务困难董元财学习上拉加入新的listview 无胡亚坤设计优化聊天页面无刘猛请假(参加编译测试,提前准备) 无马汉虎请假(参加编译测试,提前准备) ...
react native get started run 模拟机报错解决
参照 http://reactnative.cn/docs/0.30/getting-started.html#content 1)当执行 react-native run-android 这个环节的 ...
腾讯云TDSQL审计原理揭秘
版权声明:本文由孙勇福原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/244 来源:腾云阁 https://www.qclo ...
iOS用ASIHttpRequest上传
1.新建一个single view工程,导入ASIHttpRequest库,导入MobileCoreServices.CFNetwork.SystemConfiguration和libz1.2.5.d ...

Python 决策树的构造

Python 决策树的构造的更多相关文章

随机推荐

热门专题