决策树

算法优缺点：

优点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关的特征数据
缺点：可能会产生过度匹配的问题
适用数据类型：数值型和标称型

算法思想：

1.决策树构造的整体思想：

决策树说白了就好像是if-else结构一样，它的结果就是你要生成这个一个可以从根开始不断判断选择到叶子节点的树，但是呢这里的if-else必然不会是让我们认为去设置的，我们要做的是提供一种方法，计算机可以根据这种方法得到我们所需要的决策树。这个方法的重点就在于如何从这么多的特征中选择出有价值的，并且按照最好的顺序由根到叶选择。完成了这个我们也就可以递归构造一个决策树了

2.信息增益

划分数据集的最大原则是将无序的数据变得更加有序。既然这又牵涉到信息的有序无序问题，自然要想到想弄的信息熵了。这里我们计算用的也是信息熵（另一种方法是基尼不纯度）。公式如下：

数据需要满足的要求：

1 数据必须是由列表元素组成的列表，而且所有的列白哦元素都要具有相同的数据长度
2 数据的最后一列或者每个实例的最后一个元素应是当前实例的类别标签

函数：

calcShannonEnt(dataSet)
计算数据集的香农熵，分两步，第一步计算频率，第二部根据公式计算香农熵
splitDataSet(dataSet, aixs, value)
划分数据集，将满足X[aixs]==value的值都划分到一起，返回一个划分好的集合（不包括用来划分的aixs属性，因为不需要）
chooseBestFeature(dataSet)
选择最好的属性进行划分，思路很简单就是对每个属性都划分下，看哪个好。这里使用到了一个set来选取列表中唯一的元素，这是一中很快的方法
majorityCnt(classList)
因为我们递归构建决策树是根据属性的消耗进行计算的，所以可能会存在最后属性用完了，但是分类还是没有算完，这时候就会采用多数表决的方式计算节点分类
createTree(dataSet, labels)
基于递归构建决策树。这里的label更多是对于分类特征的名字，为了更好看和后面的理解。

 #coding=utf-8

 import operator

 from math import log

 import time

 def createDataSet():

     dataSet=[[1,1,'yes'],

             [1,1,'yes'],

             [1,0,'no'],

             [0,1,'no'],

             [0,1,'no']]

     labels = ['no surfaceing','flippers']

     return dataSet, labels

 #计算香农熵

 def calcShannonEnt(dataSet):

     numEntries = len(dataSet)

     labelCounts = {}

     for feaVec in dataSet:

         currentLabel = feaVec[-1]

         if currentLabel not in labelCounts:

             labelCounts[currentLabel] = 0

         labelCounts[currentLabel] += 1

     shannonEnt = 0.0

     for key in labelCounts:

         prob = float(labelCounts[key])/numEntries

         shannonEnt -= prob * log(prob, 2)

     return shannonEnt

 def splitDataSet(dataSet, axis, value):

     retDataSet = []

     for featVec in dataSet:

         if featVec[axis] == value:

             reducedFeatVec = featVec[:axis]

             reducedFeatVec.extend(featVec[axis+1:])

             retDataSet.append(reducedFeatVec)

     return retDataSet

 def chooseBestFeatureToSplit(dataSet):

     numFeatures = len(dataSet[0]) - 1#因为数据集的最后一项是标签

     baseEntropy = calcShannonEnt(dataSet)

     bestInfoGain = 0.0

     bestFeature = -1

     for i in range(numFeatures):

         featList = [example[i] for example in dataSet]

         uniqueVals = set(featList)

         newEntropy = 0.0

         for value in uniqueVals:

             subDataSet = splitDataSet(dataSet, i, value)

             prob = len(subDataSet) / float(len(dataSet))

             newEntropy += prob * calcShannonEnt(subDataSet)

         infoGain = baseEntropy -newEntropy

         if infoGain > bestInfoGain:

             bestInfoGain = infoGain

             bestFeature = i

     return bestFeature

 #因为我们递归构建决策树是根据属性的消耗进行计算的，所以可能会存在最后属性用完了，但是分类

 #还是没有算完，这时候就会采用多数表决的方式计算节点分类

 def majorityCnt(classList):

     classCount = {}

     for vote in classList:

         if vote not in classCount.keys():

             classCount[vote] = 0

         classCount[vote] += 1

     return max(classCount)         

 def createTree(dataSet, labels):

     classList = [example[-1] for example in dataSet]

     if classList.count(classList[0]) ==len(classList):#类别相同则停止划分

         return classList[0]

     if len(dataSet[0]) == 1:#所有特征已经用完

         return majorityCnt(classList)

     bestFeat = chooseBestFeatureToSplit(dataSet)

     bestFeatLabel = labels[bestFeat]

     myTree = {bestFeatLabel:{}}

     del(labels[bestFeat])

     featValues = [example[bestFeat] for example in dataSet]

     uniqueVals = set(featValues)

     for value in uniqueVals:

         subLabels = labels[:]#为了不改变原始列表的内容复制了一下

         myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,

                                         bestFeat, value),subLabels)

     return myTree

 def main():

     data,label = createDataSet()

     t1 = time.clock()

     myTree = createTree(data,label)

     t2 = time.clock()

     print myTree

     print 'execute for ',t2-t1

 if __name__=='__main__':

     main()

机器学习笔记索引

来自为知笔记(Wiz)

决策树的python实现的更多相关文章

决策树及其python实现
剪枝由于悲观错误剪枝 PEP (Pessimistic Error Pruning).代价-复杂度剪枝 CCP (Cost-Complexity Pruning).基于错误剪枝 EBP (Error ...
scikit-learn决策树的python实现以及作图
decsion tree(决策树) 其中每个内部结点表示在一个属性上的测试,每个分支代表一个属性的输出,而每个树叶结点代表类或类的分布.树的最顶层是根节点连续变量要离散化机器学习中分类方法的一个重 ...
100天搞定机器学习|Day23-25 决策树及Python实现
算法部分不再细讲,之前发过很多: [算法系列]决策树决策树(Decision Tree)ID3算法决策树(Decision Tree)C4.5算法决策树(Decision Tree)CART算法 ...
3.1决策树理论--python深度机器学习
参考彭亮老师的视频教程:转载请注明出处及彭亮老师原创视频教程: http://pan.baidu.com/s/1kVNe5EJ 0. 机器学习中分类和预测算法的评估: 准确率速度强壮行 ...
【机器学习笔记之二】决策树的python实现
本文结构: 是什么? 有什么算法? 数学原理? 编码实现算法? 1. 是什么? 简单地理解,就是根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为几类,再继续提问.这些问题是 ...
python实现决策树
1.决策树的简介 http://www.cnblogs.com/lufangtao/archive/2013/05/30/3103588.html 2.决策是实现的伪代码 “读入训练数据” “找出每个 ...
决策树ID3算法--python实现
参考: 统计学习方法>第五章决策树] http://pan.baidu.com/s/1hrTscza 决策树的python实现有完整程序决策树(ID3.C4.5.CART ...
Python 和 R 数据分析/挖掘工具互查
如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便.python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 pip install * 安装:同理,为了方便索 ...
Python 数据挖掘工具包整理
连接器与io 数据库类别 Python R MySQL mysql-connector-python(官方) RMySQL Oracle cx_Oracle ROracle MongoDB pymo ...

随机推荐

在哪可以Sigmaplot 13下载免费版的
SigmaPlot是一款科学的数据分析和绘图软件,可以进行精密绘图.数据分析.自动化管理数据和创建网络图表,具备制作和发行品质图表的水平,该软件被广泛地运用在多个领域.现今SigmaPlot软件日益受 ...
jQuery控制表头
<!doctype html><html lang="en"><head> <meta charset="UTF-8" ...
VBScript使用CDO.Message发送邮件
Const Email_From = "from@163.com" Const Password = "password" Const Email_To = & ...
5.Android消息推送机制简单例子
1.首先布局文件xml代码: <?xml version="1.0" encoding="utf-8"?> <RelativeLayout x ...
前端Javascript框架收集
1.AngularJS 2.React 3.vue.js 4.JQuery 5.Zepto.js 6.Require.js 7.sea.js 8.backbone.js 9.Meteor.js 10. ...
gulp复制整个文件夹或文件到指定目录（包括拷贝单个文件）
整个目录: gulp.task('copy', function() { return gulp.src('src/**/*') .pipe(gulp.dest('dist')) }); gulp拷贝 ...
a版本冲刺第五天
队名:Aruba 队员: 黄辉昌李陈辉林炳锋鄢继仁张秀锋章鼎运动会这几天两位同学准备比赛也确实比较忙,两位同学又刚好有事回家去了,由于之前git解决一次冲突后,远程我们还不能很好地 ...
Alpha事后诸葛亮
Aruba小组Cento项目Postmortem 队员: 408 409 410 428 429 431 设想和目标 1.我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰 ...
openerp7 时区问题
由于目前openerp 的时区,读取的是UTC 时间,而我国本地时间比UTC 快8小时,这个问题就导致:写入数据库的时候时间相差8小时,以及Openerp日志输出时间格式也相差8小时和前端显示时间的 ...
hibernate-criteria查询(二)
 Restrictions 类的作用是什么? Criteria 接口没有 iterate() 方法. Criteria 查询如何对查询结果排序.分页? Criteria 查询如何实现关联? ...

决策树的python实现

决策树

算法优缺点：

优点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关的特征数据

缺点：可能会产生过度匹配的问题

适用数据类型：数值型和标称型

算法思想：

1.决策树构造的整体思想：

2.信息增益

数据需要满足的要求：

函数：

机器学习笔记索引

决策树的python实现的更多相关文章

随机推荐

热门专题