决策树

实验集数据：

#coding:utf8

#关键词：决策树(desision tree)、特征选择、信息增益(information gain)、香农熵、熵(entropy)、经验熵(H(D))、节点(node)、有向边(directed edge)、根节点(root node)、叶节点(leaf node)、判断模块(decision block)、终止模块(terminating block)、分支(branch)、最优特征、

import requests

import requests, json, time, re, os, sys, time

import codecs

import shutil

from sgmllib import SGMLParser

from pyquery import PyQuery as pq

from lxml import etree

import urllib2

import json

import random

#from math import log

import math

sys.path.append('/home/shutong/crawl/script/media')

from tools import *

from numpy import *

import operator

reload(sys)

sys.setdefaultencoding("utf-8")

#年龄：0代表青年，1代表中年，2代表老年；

#有工作：0代表否，1代表是；

#有自己的房子：0代表否，1代表是；

#信贷情况：0代表一般，1代表好，2代表非常好；

#类别(是否给贷款)：no代表否，yes代表是

def createDataSet():

    dataSet = [[0,0,0,0,'no'],[0,0,0,1,'no'],[0,1,0,1,'yes'],[0,1,1,0,'yes'],[0,0,0,0,'no'],[1,0,0,0,'no'],[1,0,0,1,'no'],[1,1,1,1,'yes'],[1,0,1,2,'yes'],[1,0,1,2,'yes'],[2,0,1,2,'yes'],[2,0,1,1,'yes'],[2,1,0,1,'yes'],[2,1,0,2,'yes'],[2,0,0,0,'no']]

    #labels = ['不放贷','放贷']

    labels = ['年龄', '有工作', '有自己的房子', '信贷情况']

    return dataSet,labels

#计算经验熵

#输入:dataSet

#输出:经验熵(香农熵)

def calcShannonEnt(dataSet):

    #print dataSet

    #返回数据集的行数

    numEntires = len(dataSet)

    #保存每个标签(Label)出现次数的字典

    labelCounts = {}

    #对每组特征向量进行统计

    for featVec in dataSet:

        #提取标签(Label)信息

        currentLabel = featVec[-1]

        #如果标签(Label)没有放入统计次数的字典,添加进去

        if currentLabel not in labelCounts.keys():

            labelCounts[currentLabel] = 0

        #Label计数

        labelCounts[currentLabel] += 1

    #经验熵(香农熵)

    shannonEnt = 0.0

    #计算香农熵

    for key in labelCounts:

        #选择该标签(Label)的概率

        prob = float(labelCounts[key]) / numEntires

        #print prob,math.log(prob,2)

        shannonEnt -= prob * math.log(prob, 2)

    #返回经验熵(香农熵)

    return shannonEnt

#函数说明:按照给定特征划分数据集

#splitDataSet函数是用来选择各个特征的子集的

def splitDataSet(dataSet, axis, value):

    #创建返回的数据集列表

    retDataSet = []

    #遍历数据集

    for featVec in dataSet:

        if featVec[axis] == value:

            #去掉axis特征

            reducedFeatVec = featVec[:axis]

            #将符合条件的添加到返回的数据集

            reducedFeatVec.extend(featVec[axis+1:])

            retDataSet.append(reducedFeatVec)

    return retDataSet  

#计算信息增益

def chooseBestFeatureToSplit(dataSet):

    #特征数量,去除最后一列，其余字段最为特征变量

    numFeatures = len(dataSet[0]) - 1

    #计算数据集的香农熵

    baseEntropy = calcShannonEnt(dataSet)

    #信息增益

    bestInfoGain = 0.0

    #最优特征的索引值,最初默认取-1

    bestFeature = -1

    #遍历所有特征

    for i in range(numFeatures):

        #获取dataSet的第i个所有特征

        featList = [example[i] for example in dataSet]

        #创建set集合{},元素不可重复

        uniqueVals = set(featList)

        #经验条件熵

        newEntropy = 0.0

        #计算信息增益

        for value in uniqueVals:

            #subDataSet划分后的子集

            subDataSet = splitDataSet(dataSet, i, value)

            #计算子集的概率

            prob = len(subDataSet) / float(len(dataSet))

            #根据公式计算经验条件熵

            newEntropy += prob * calcShannonEnt(subDataSet)

        #信息增益

        infoGain = baseEntropy - newEntropy

        #打印每个特征的信息增益

        print("第%d个特征的增益为%.3f" % (i, infoGain))

        #计算信息增益

        #更新信息增益，找到最大的信息增益

        if (infoGain > bestInfoGain):

            bestInfoGain = infoGain

            #记录信息增益最大的特征的索引值

            bestFeature = i

    return bestFeature

#统计classList中出现此处最多的元素(类标签)

def majorityCnt(classList):

    classCount = {}

    for vote in classList:                                        #统计classList中每个元素出现的次数

        if vote not in classCount.keys():classCount[vote] = 0

        classCount[vote] += 1

    #根据字典的值降序排序

    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)

    #返回classList中出现次数最多的元素

    return sortedClassCount[0][0]

#创建决策树[递归]

def createTree(dataSet, labels, featLabels):

    #取分类标签(是否放贷:yes or no)

    classList = [example[-1] for example in dataSet]

    #如果类别完全相同则停止继续划分[第一个标签数等于所有的标签数,说明所有的结果都是同一个标签]

    if classList.count(classList[0]) == len(classList):

        return classList[0]

    #len(dataSet[0])为特征变量数

    if len(dataSet[0]) == 1:                                    #遍历完所有特征时返回出现次数最多的类标签

        return majorityCnt(classList)

    #选择最优特征

    bestFeat = chooseBestFeatureToSplit(dataSet)

    ##最优特征的标签

    bestFeatLabel = labels[bestFeat]

    featLabels.append(bestFeatLabel)

    #print bestFeat,bestFeatLabel,featLabels

    ##根据最优特征的标签生成树

    myTree = {bestFeatLabel:{}}

    print myTree

    ##删除已经使用特征标签

    del(labels[bestFeat])

    ##得到训练集中所有最优特征的属性值

    featValues = [example[bestFeat] for example in dataSet]

    ##去掉重复的属性值

    uniqueVals = set(featValues)

    #print uniqueVals

    for value in uniqueVals:                                    #遍历特征，创建决策树。

        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), labels, featLabels)

    return myTree

#dataSet,labels = createDataSet()

#print calcShannonEnt(dataSet)

#print("最优特征索引值:" + str(chooseBestFeatureToSplit(dataSet)))

#获取决策树叶子结点的数目

def getNumLeafs(myTree):

    #初始化叶子

    numLeafs = 0

    firstStr = next(iter(myTree))#python3中myTree.keys()返回的是dict_keys,不在是list,所以不能使用myTree.keys()[0]的方法获取结点属性，可以使用list(myTree.keys())[0]

    #获取下一组字典

    secondDict = myTree[firstStr]

    for key in secondDict.keys():

        if type(secondDict[key]).__name__=='dict':                #测试该结点是否为字典，如果不是字典，代表此结点为叶子结点

            numLeafs += getNumLeafs(secondDict[key])

        else:   numLeafs +=1

    return numLeafs

def getTreeDepth(myTree):

    #初始化决策树深度

    maxDepth = 0

    firstStr = next(iter(myTree))                                #python3中myTree.keys()返回的是dict_keys,不在是list,所以不能使用myTree.keys()[0]的方法获取结点属性，可以使用list(myTree.keys())[0]

    #获取下一个字典

    secondDict = myTree[firstStr]

    for key in secondDict.keys():

        if type(secondDict[key]).__name__=='dict':                #测试该结点是否为字典，如果不是字典，代表此结点为叶子结点

            thisDepth = 1 + getTreeDepth(secondDict[key])

        else:   thisDepth = 1

        #更新层数

        if thisDepth > maxDepth: maxDepth = thisDepth

    return maxDepth

#使用决策树分类

#inputTree - 已经生成的决策树

#featLabels - 存储选择的最优特征标签

#testVec - 测试数据列表，顺序对应最优特征标签

def classify(inputTree, featLabels, testVec):

    firstStr = next(iter(inputTree))                                                        #获取决策树结点

    secondDict = inputTree[firstStr]                                                        #下一个字典

    featIndex = featLabels.index(firstStr)

    for key in secondDict.keys():

        if testVec[featIndex] == key:

            if type(secondDict[key]).__name__ == 'dict':

                classLabel = classify(secondDict[key], featLabels, testVec)

            else: classLabel = secondDict[key]

    return classLabel

#测试数据集

dataSet, labels = createDataSet()

featLabels = []

#创建决策树

myTree = createTree(dataSet, labels, featLabels)

#测试数据

testVec = [0,0]

#测试结果

result = classify(myTree, featLabels, testVec)

if result == 'yes':

    print('放贷')

if result == 'no':

    print('不放贷')

#print myTree

#print getNumLeafs(myTree)

#print getTreeDepth(myTree)

决策树--Python的更多相关文章

决策树python建模中的坑：ValueError: Expected 2D array, got 1D array instead:
决策树python建模中的坑代码 #coding=utf-8 from sklearn.feature_extraction import DictVectorizerimport csvfrom ...
决策树python实现小样例
我们经常使用决策树处理分类问题,近年来的调查表明决策树也是经常使用的数据挖掘算法K-NN可以完成多分类任务,但是它最大的缺点是无法给出数据的内在含义,决策树的主要优势在于数据形式非常容易理解决策树的优 ...
机器学习：决策树--python
今天,我们介绍机器学习里比较常用的一种分类算法,决策树.决策树是对人类认知识别的一种模拟,给你一堆看似杂乱无章的数据,如何用尽可能少的特征,对这些数据进行有效的分类. 决策树借助了一种层级分类的概念, ...
机器学习_决策树Python代码详解
决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据: 决策树缺点:可能会产生过度匹配问题. 决策树的一般步骤: (1)代码中def 1,计算给定数据集的香农熵: ...
决策树Decision Tree 及实现
Decision Tree 及实现标签: 决策树熵信息增益分类有监督 2014-03-17 12:12 15010人阅读评论(41) 收藏举报分类: Data Mining(25) Pyt ...
Python机器学习基础教程
介绍本系列教程基本就是搬运<Python机器学习基础教程>里面的实例. Github仓库使用 jupyternote book 是一个很好的快速构建代码的选择,本系列教程都能在我的Gi ...
ML二：NNSearch数据结构--二叉树
wiki百科:http://zh.wikipedia.org/wiki/%E5%86%B3%E7%AD%96%E6%A0%91%E5%AD%A6%E4%B9%A0 opencv学习笔记--二杈决策树: ...
【Machine Learning】决策树案例：基于python的商品购买能力预测系统
决策树在商品购买能力预测案例中的算法实现作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本 ...
python画决策树
1.安装graphviz.下载地址在:http://www.graphviz.org/.如果你是linux,可以用apt-get或者yum的方法安装.如果是windows,就在官网下载msi文件安装. ...

随机推荐

java基础之JDBC四：事务简单示例
/** * 事务 */ public class Test { public static void main(String[] args) { Connection conn = null; Pre ...
libevent源码深度剖析五
libevent源码深度剖析五 ——libevent的核心:事件event 张亮对事件处理流程有了高层的认识后,本节将详细介绍libevent的核心结构event,以及libevent对event的 ...
mfs监控
web gui 监控 gui_info.jpg (143.72 KB, 下载次数: 83) gui_most.jpg (209.36 KB, 下载次数: 82) gui_master_info.jpg ...
2014蓝桥杯B组初赛试题《六角填数》
题目描述: 如图[1.png]所示六角形中,填入1~12的数字. 使得每条直线上的数字之和都相同. 图中,已经替你填好了3个数字,请你计算星号位置所代表的数字是多少? 请通过浏览器提交 ...
最新Eclipse Photon安装tomcat
发现最新版的eclipse竟然没有tomcat配置项,可能是因为spring boot很火,所以server默认就不包含tomcat,需要手动安装组件, Version: Photon Releas ...
openpyxl模块处理excel文件
python模块之——openpyxl 处理xlsx/ xlsm文件项目原因需要编辑excel文件,经过查询,最先尝试xlwt .wlrd这个两个模块,但是很快发现这两个模块只能编辑xls文件,然而 ...
readfile()
readfile()将一个文件写入到输出缓存参数1:文件名
PHP+SOCKET 模拟HTTP请求
HTTP消息结构客户端请求包括四部份:请求行(状态行).请求头.空行.请求主体(数据),如下图: 服务端响应包括四部份:响应行(状态行).响应头.空行.响应主体(数据),如图: HTTP请求方法: ...
rpmbuild SPEC语法
rpmbuild SPEC语法摘自:http://bbs.chinaunix.net/thread-4179207-1-1.html spec文件写作规范 2008-09-28 11:52:17 分 ...
sql server行列转化
行列转换: 姓名课程分数张三语文 74 张三数学 83 张三物理 93 李四语文 74 李四数学 84 李四物理 94 想变成(得到如下结果): 姓名语文数学物理 ---- - ...

决策树--Python

决策树

决策树--Python的更多相关文章

随机推荐

热门专题