[置顶] ID3算法的python实现

这篇文章的内容接着http://blog.csdn.net/xueyunf/article/details/9214727的内容，所有还有部分函数在http://blog.csdn.net/xueyunf/article/details/9212827中，由于这个算法需要理解的内容比较多，所以我分成了3篇分别介绍，因为自己也是用了3天的时间才理解了这一经典算法。当然很犀利的童鞋也许很短时间就理解了这一算法，那么这篇文章也就不适合你了，可以跳过了，读了后不会有太多收获的。

下面我就贴出代码来，为初学者提示一点东西：

def majorityCnt(classList):

    classCount ={}

    for vote in classList:

        if vote not in classCount.keys():

            classCount[vote]=0

        classCount[vote]=1

    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def createTree(dataSet, labels):

    classList = [example[-1] for example in dataSet]

    if classList.count(classList[0])==len(classList):

        return classList[0]

    if len(dataSet[0])==1:

        return majorityCnt(classList)

    bestFeat = chooseBestFeatureToSplit(dataSet)

    bestFeatLabel = labels[bestFeat]

    myTree = {bestFeatLabel:{}}

    del(labels[bestFeat])

    featValues = [example[bestFeat] for example in dataSet]

    uniqueVals = set(featValues)

    for value in uniqueVals:

        subLabels = labels[:]

        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)

    return myTree

第一个函数为选出出现次数最多的分类名称。

第二个函数式建立决策树，也就是今天我想说的最关键的部分的代码，我们可以发现这是一个递归函数，首先我来说明跳出递归的条件，也就是类别完全相同时跳出递归，或者我们将所有的特征已经用尽则跳出递归。我们不难发现，第一个if是第一种情况，第二个if对应第二种情况。

然后我们来处理不是这两种情况的情况，每次都利用前面的选择最优划分将数据进行划分，同时将该标签插入树中，并删除该标签，然后再次将剩下的数据和标签形成的新的结构放入函数中递归进行构建子决策树，这样一棵完整的决策树就建立了。

下面给出程序运行的截图：(所谓有图有真相，无图无真相啊，我用的python的开发IDE是Eric5顺便推荐给大家)

最后给大家3篇文章所有的代码：

import math

import operator

def calcShannonEnt(dataset):

    numEntries = len(dataset)

    labelCounts = {}

    for featVec in dataset:

        currentLabel = featVec[-1]

        if currentLabel not in labelCounts.keys():

            labelCounts[currentLabel] = 0

        labelCounts[currentLabel] +=1

    shannonEnt = 0.0

    for key in labelCounts:

        prob = float(labelCounts[key])/numEntries

        shannonEnt -= prob*math.log(prob, 2)

    return shannonEnt

def CreateDataSet():

    dataset = [[1, 1, 'yes' ],

               [1, 1, 'yes' ],

               [1, 0, 'no'],

               [0, 1, 'no'],

               [0, 1, 'no']]

    labels = ['no surfacing', 'flippers']

    return dataset, labels

def splitDataSet(dataSet, axis, value):

    retDataSet = []

    for featVec in dataSet:

        if featVec[axis] == value:

            reducedFeatVec = featVec[:axis]

            reducedFeatVec.extend(featVec[axis+1:])

            retDataSet.append(reducedFeatVec)

    return retDataSet

def chooseBestFeatureToSplit(dataSet):

    numberFeatures = len(dataSet[0])-1

    baseEntropy = calcShannonEnt(dataSet)

    bestInfoGain = 0.0;

    bestFeature = -1;

    for i in range(numberFeatures):

        featList = [example[i] for example in dataSet]

        print(featList)

        uniqueVals = set(featList)

        print(uniqueVals)

        newEntropy =0.0

        for value in uniqueVals:

            subDataSet = splitDataSet(dataSet, i, value)

            prob = len(subDataSet)/float(len(dataSet))

            newEntropy += prob * calcShannonEnt(subDataSet)

        infoGain = baseEntropy - newEntropy

        if(infoGain > bestInfoGain):

            bestInfoGain = infoGain

            bestFeature = i

    return bestFeature

def majorityCnt(classList):

    classCount ={}

    for vote in classList:

        if vote not in classCount.keys():

            classCount[vote]=0

        classCount[vote]=1

    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def createTree(dataSet, labels):

    classList = [example[-1] for example in dataSet]

    if classList.count(classList[0])==len(classList):

        return classList[0]

    if len(dataSet[0])==1:

        return majorityCnt(classList)

    bestFeat = chooseBestFeatureToSplit(dataSet)

    bestFeatLabel = labels[bestFeat]

    myTree = {bestFeatLabel:{}}

    del(labels[bestFeat])

    featValues = [example[bestFeat] for example in dataSet]

    uniqueVals = set(featValues)

    for value in uniqueVals:

        subLabels = labels[:]

        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)

    return myTree

myDat,labels = CreateDataSet()

print(calcShannonEnt(myDat))

print(splitDataSet(myDat, 1, 1))

print(chooseBestFeatureToSplit(myDat))

print(createTree(myDat, labels))

[置顶] ID3算法的python实现的更多相关文章

机器学习之决策树(ID3)算法与Python实现
机器学习之决策树(ID3)算法与Python实现机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
决策树之ID3算法实现(python)
决策树的概念其实不难理解,下面一张图是某女生相亲时用到的决策树: 基本上可以理解为:一堆数据,附带若干属性,每一条记录最后都有一个分类(见或者不见),然后根据每种属性可以进行划分(比如年龄是>3 ...
[置顶] 《算法导论》习题解答搬运&&学习笔记索引目录
开始学习<算法导论>了,虽然是本大部头,可能很难一下子看完,我还是会慢慢地研究的. 课后的习题和思考有些是很有挑战性的题目,我等蒻菜很难独立解决. 然后发现了Google上有挺全的algo ...
[置顶] 斗地主算法的设计与实现--项目介绍&如何定义和构造一张牌
大学期间,我在别人的基础上,写了一个简易的斗地主程序. 主要实现了面向对象设计,洗牌.发牌.判断牌型.比较牌的大小.游戏规则等算法. 通过这个斗地主小项目的练习,提高了我的面向对象设计能力,加深了对算 ...
决策树---ID3算法（介绍及Python实现）
决策树---ID3算法决策树: 以天气数据库的训练数据为例. Outlook Temperature Humidity Windy PlayGolf? sunny 85 85 FALSE no ...
Python实现ID3算法
自己用Python写的数据挖掘中的ID3算法,现在觉得Python是实现算法的最好工具: 先贴出ID3算法的介绍地址http://wenku.baidu.com/view/cddddaed0975f4 ...
决策树ID3算法--python实现
参考: 统计学习方法>第五章决策树] http://pan.baidu.com/s/1hrTscza 决策树的python实现有完整程序决策树(ID3.C4.5.CART ...
Python四步实现决策树ID3算法，参考机器学习实战
一.编写计算历史数据的经验熵函数 from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCo ...

随机推荐

关于C#基类和子类函数调用问题
c#基类子类的函数调用关系,代码说明newkeyword后面的类中的函数为对象调用的函数,当然必需要有virtual和override,继承就相当于包括了基类的函数,子类对象调用时基类的函数相当于就在 ...
iOS tableView的图片缓存异步载入
1.建立一个viewController. .h文件实现UIScrollViewDelegate和UITableViewDelegate,并声明ICTableViewDelegate(用来实现图片有缓 ...
mysql免安装版配置与使用方法
mysql免安装版配置与使用方法以mysql-noinstall-5.1.6(win32)为例 1>把压缩文件mysql-noinstall-5.1.6-alpha-win32.zi ...
MVC Razor 一些常用的方法
一.在ASP.NET MVC中,创建视图最典型的方式是调用一个action方法,它使用模型准备视图数据.action方法然后调用控制器的视图方法创建视图. 1 <% Html.RenderAct ...
td 单元格内容自动换行
<table width="100%" border="1" align="center"> <tr> <td ...
Android-----输入法的显示和隐藏
/** * 控制手机虚拟键盘的显示和隐藏 */public class InputMethodUtil { /** * 隐藏虚拟键盘 * @param v 参数v为获取焦点对象view */ pub ...
Java IO4：字符流进阶及BufferedWriter、BufferedReader
字符流和字节流的区别拿一下上一篇文章的例子: 1 public static void main(String[] args) throws Exception 2 { 3 File file = ...
二维计算几何基础题目泛做（SYX第一轮）
题目1: POJ 2318 TOYS 题目大意: 给一个有n个挡板的盒子,从左到右空格编号为0...n.有好多玩具,问每个玩具在哪个空格里面. 算法讨论: 直接叉积判断就可以.注意在盒子的边界上面也算 ...
uva 12100 Printer Queue
The only printer in the computer science students' union is experiencing an extremely heavy workload ...
How to Use Javascript to Control Quicktime
参看下面链接: How to Use Javascript to Control Quicktime;

[置顶] ID3算法的python实现

[置顶] ID3算法的python实现的更多相关文章

随机推荐

热门专题