决策树

算法优缺点：

优点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关的特征数据
缺点：可能会产生过度匹配的问题
适用数据类型：数值型和标称型

算法思想：

1.决策树构造的整体思想：

决策树说白了就好像是if-else结构一样，它的结果就是你要生成这个一个可以从根开始不断判断选择到叶子节点的树，但是呢这里的if-else必然不会是让我们认为去设置的，我们要做的是提供一种方法，计算机可以根据这种方法得到我们所需要的决策树。这个方法的重点就在于如何从这么多的特征中选择出有价值的，并且按照最好的顺序由根到叶选择。完成了这个我们也就可以递归构造一个决策树了

2.信息增益

划分数据集的最大原则是将无序的数据变得更加有序。既然这又牵涉到信息的有序无序问题，自然要想到想弄的信息熵了。这里我们计算用的也是信息熵（另一种方法是基尼不纯度）。公式如下：

数据需要满足的要求：

1 数据必须是由列表元素组成的列表，而且所有的列白哦元素都要具有相同的数据长度
2 数据的最后一列或者每个实例的最后一个元素应是当前实例的类别标签

函数：

calcShannonEnt(dataSet)
计算数据集的香农熵，分两步，第一步计算频率，第二部根据公式计算香农熵
splitDataSet(dataSet, aixs, value)
划分数据集，将满足X[aixs]==value的值都划分到一起，返回一个划分好的集合（不包括用来划分的aixs属性，因为不需要）
chooseBestFeature(dataSet)
选择最好的属性进行划分，思路很简单就是对每个属性都划分下，看哪个好。这里使用到了一个set来选取列表中唯一的元素，这是一中很快的方法
majorityCnt(classList)
因为我们递归构建决策树是根据属性的消耗进行计算的，所以可能会存在最后属性用完了，但是分类还是没有算完，这时候就会采用多数表决的方式计算节点分类
createTree(dataSet, labels)
基于递归构建决策树。这里的label更多是对于分类特征的名字，为了更好看和后面的理解。

 #coding=utf-8

 import operator

 from math import log

 import time

 def createDataSet():

     dataSet=[[1,1,'yes'],

             [1,1,'yes'],

             [1,0,'no'],

             [0,1,'no'],

             [0,1,'no']]

     labels = ['no surfaceing','flippers']

     return dataSet, labels

 #计算香农熵

 def calcShannonEnt(dataSet):

     numEntries = len(dataSet)

     labelCounts = {}

     for feaVec in dataSet:

         currentLabel = feaVec[-1]

         if currentLabel not in labelCounts:

             labelCounts[currentLabel] = 0

         labelCounts[currentLabel] += 1

     shannonEnt = 0.0

     for key in labelCounts:

         prob = float(labelCounts[key])/numEntries

         shannonEnt -= prob * log(prob, 2)

     return shannonEnt

 def splitDataSet(dataSet, axis, value):

     retDataSet = []

     for featVec in dataSet:

         if featVec[axis] == value:

             reducedFeatVec = featVec[:axis]

             reducedFeatVec.extend(featVec[axis+1:])

             retDataSet.append(reducedFeatVec)

     return retDataSet

 def chooseBestFeatureToSplit(dataSet):

     numFeatures = len(dataSet[0]) - 1#因为数据集的最后一项是标签

     baseEntropy = calcShannonEnt(dataSet)

     bestInfoGain = 0.0

     bestFeature = -1

     for i in range(numFeatures):

         featList = [example[i] for example in dataSet]

         uniqueVals = set(featList)

         newEntropy = 0.0

         for value in uniqueVals:

             subDataSet = splitDataSet(dataSet, i, value)

             prob = len(subDataSet) / float(len(dataSet))

             newEntropy += prob * calcShannonEnt(subDataSet)

         infoGain = baseEntropy -newEntropy

         if infoGain > bestInfoGain:

             bestInfoGain = infoGain

             bestFeature = i

     return bestFeature

 #因为我们递归构建决策树是根据属性的消耗进行计算的，所以可能会存在最后属性用完了，但是分类

 #还是没有算完，这时候就会采用多数表决的方式计算节点分类

 def majorityCnt(classList):

     classCount = {}

     for vote in classList:

         if vote not in classCount.keys():

             classCount[vote] = 0

         classCount[vote] += 1

     return max(classCount)         

 def createTree(dataSet, labels):

     classList = [example[-1] for example in dataSet]

     if classList.count(classList[0]) ==len(classList):#类别相同则停止划分

         return classList[0]

     if len(dataSet[0]) == 1:#所有特征已经用完

         return majorityCnt(classList)

     bestFeat = chooseBestFeatureToSplit(dataSet)

     bestFeatLabel = labels[bestFeat]

     myTree = {bestFeatLabel:{}}

     del(labels[bestFeat])

     featValues = [example[bestFeat] for example in dataSet]

     uniqueVals = set(featValues)

     for value in uniqueVals:

         subLabels = labels[:]#为了不改变原始列表的内容复制了一下

         myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,

                                         bestFeat, value),subLabels)

     return myTree

 def main():

     data,label = createDataSet()

     t1 = time.clock()

     myTree = createTree(data,label)

     t2 = time.clock()

     print myTree

     print 'execute for ',t2-t1

 if __name__=='__main__':

     main()

机器学习笔记索引

来自为知笔记(Wiz)

决策树的python实现的更多相关文章

决策树及其python实现
剪枝由于悲观错误剪枝 PEP (Pessimistic Error Pruning).代价-复杂度剪枝 CCP (Cost-Complexity Pruning).基于错误剪枝 EBP (Error ...
scikit-learn决策树的python实现以及作图
decsion tree(决策树) 其中每个内部结点表示在一个属性上的测试,每个分支代表一个属性的输出,而每个树叶结点代表类或类的分布.树的最顶层是根节点连续变量要离散化机器学习中分类方法的一个重 ...
100天搞定机器学习|Day23-25 决策树及Python实现
算法部分不再细讲,之前发过很多: [算法系列]决策树决策树(Decision Tree)ID3算法决策树(Decision Tree)C4.5算法决策树(Decision Tree)CART算法 ...
3.1决策树理论--python深度机器学习
参考彭亮老师的视频教程:转载请注明出处及彭亮老师原创视频教程: http://pan.baidu.com/s/1kVNe5EJ 0. 机器学习中分类和预测算法的评估: 准确率速度强壮行 ...
【机器学习笔记之二】决策树的python实现
本文结构: 是什么? 有什么算法? 数学原理? 编码实现算法? 1. 是什么? 简单地理解,就是根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为几类,再继续提问.这些问题是 ...
python实现决策树
1.决策树的简介 http://www.cnblogs.com/lufangtao/archive/2013/05/30/3103588.html 2.决策是实现的伪代码 “读入训练数据” “找出每个 ...
决策树ID3算法--python实现
参考: 统计学习方法>第五章决策树] http://pan.baidu.com/s/1hrTscza 决策树的python实现有完整程序决策树(ID3.C4.5.CART ...
Python 和 R 数据分析/挖掘工具互查
如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便.python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 pip install * 安装:同理,为了方便索 ...
Python 数据挖掘工具包整理
连接器与io 数据库类别 Python R MySQL mysql-connector-python(官方) RMySQL Oracle cx_Oracle ROracle MongoDB pymo ...

随机推荐

BZOJ 2179: FFT快速傅立叶
2179: FFT快速傅立叶 Time Limit: 10 Sec Memory Limit: 259 MBSubmit: 2923 Solved: 1498[Submit][Status][Di ...
[转]js获取域名、url、url参数值
//获取域名host1 = window.location.host;host2 = document.domain; //获取页面完整地址url = window.location.href; 获取 ...
<<< html5本地储存
类似与Cookies,但由于Cookies储存量太小,大小也只有4-5KB的样子,html5的本地储存能存5M大小的数据 html5本地储存属性有,localStorage和sessionStorag ...
asp.net mvc 通过T4模板生成框架
http://www.cnblogs.com/rdst/archive/2012/08/13/2637210.html http://www.kuqin.com/shuoit/20140716/341 ...
python学习笔记-（十六）python操作mysql
一. mysql安装 1. windows下安装mysql 1.1. 下载源: http://dev.mysql.com/downloads/installer/,请认准对应版本 Windows (x ...
JVM内存模型、指令重排、内存屏障概念解析
在高并发模型中,无是面对物理机SMP系统模型,还是面对像JVM的虚拟机多线程并发内存模型,指令重排(编译器.运行时)和内存屏障都是非常重要的概念,因此,搞清楚这些概念和原理很重要.否则,你很难搞清楚哪 ...
[NHibernate]一对多关系（关联查询）
目录写在前面文档与系列文章一对多查询总结写在前面上篇文章介绍了nhibernate的一对多关系如何配置,以及级联删除,级联添加数据的内容.这篇文章我们将学习nhibernate中的一对多关 ...
Error: Collection was modified; enumeration operation may not execute.
http://blog.csdn.net/ffeiffei/article/details/6131254
NoClassDefFoundError vs ClassNotFoundException
我们先来认识一下Error 和Exception, 两个都是Throwable类的直接子类. Javadoc 很好的说明了Error类: An Error is a subclass of Thro ...
Mac Pro 编译安装 Redis-3.2.3
Redis官方下载地址:http://redis.io/download Redis安装 cd /usr/local/src/redis-3.2.3 sudo make sudo make insta ...

决策树的python实现

决策树

算法优缺点：

优点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关的特征数据

缺点：可能会产生过度匹配的问题

适用数据类型：数值型和标称型

算法思想：

1.决策树构造的整体思想：

2.信息增益

数据需要满足的要求：

函数：

机器学习笔记索引

决策树的python实现的更多相关文章

随机推荐

热门专题