""

"""

import numpy as np

from math import log

import operator

import json

#生成海洋生物数据

def createData():

data = [[1,1,'yes'],

[1,1,'yes'],

[1,0,'no'],

[0,1,'no'],

[0,1,'no']]

labels=['不浮出水面可生存','脚蹼']

return data, labels

#生产西瓜数据

# =============================================================================

# 色泽: 浅白 青绿 乌黑

# 根蒂: 蜷缩 稍蜷 硬挺

# 敲声: 浊响 沉闷 清脆

# 纹理: 清晰 稍糊 模糊

# 脐部: 凹陷 稍凹 平坦

# 触感: 硬滑 软粘

# =============================================================================

def createWatermelonData():

data = [['青绿','蜷缩','浊响','清晰','凹陷','硬滑','好'],

['乌黑','蜷缩','沉闷','清晰','凹陷','硬滑','好'],

['乌黑','蜷缩','浊响','清晰','凹陷','硬滑','好'],

['青绿','蜷缩','沉闷','清晰','凹陷','硬滑','好'],

['浅白','蜷缩','浊响','清晰','凹陷','硬滑','好'],

['青绿','稍蜷','浊响','清晰','稍凹','软粘','好'],

['乌黑','稍蜷','浊响','稍糊','稍凹','软粘','好'],

['乌黑','稍蜷','浊响','清晰','稍凹','硬滑','好'],

['乌黑','稍蜷','沉闷','稍糊','稍凹','硬滑','坏'],

['青绿','硬挺','清脆','清晰','平坦','软粘','坏'],

['浅白','硬挺','清脆','模糊','平坦','硬滑','坏'],

['浅白','蜷缩','浊响','模糊','平坦','软粘','坏'],

['青绿','稍蜷','浊响','稍糊','凹陷','硬滑','坏'],

['浅白','稍蜷','沉闷','稍糊','凹陷','硬滑','坏'],

['乌黑','稍蜷','浊响','清晰','稍凹','软粘','坏'],

['浅白','蜷缩','浊响','模糊','平坦','硬滑','坏'],

['青绿','蜷缩','沉闷','模糊','稍凹','硬滑','坏']]

labels=['色泽','根蒂','敲声','纹理','脐部','触感']

return data, labels

#计算熵

def calcEnt(data):

num = len(data)

labelCounts = {}

for item in data:

label = item[-1]

if label not in labelCounts.keys():labelCounts[label] = 0

labelCounts[label] += 1

ent = 0

for key in labelCounts:

prob = labelCounts[key]*1.0/num

ent -= prob * log(prob,2)

return ent

#划分数据 根据某一特征axis 取出该特征某一特定值value的数据

def splitData(dataSet,axis,value):

retData=[]

for item in dataSet:

if item[axis]==value:

newItem = item[:axis]

newItem.extend(item[axis+1:])

retData.append(newItem)

return retData

#从特种中选择最好的方式 增益最高

def chooseBestFeature(dataSet):

numFeat = len(dataSet[0]) - 1

## 初始化 信息熵 最佳信息增益 最佳特征

baseEnt = calcEnt(dataSet)

bestGain = 0

bestFeat = -1

for i in range(numFeat):

##获取第i个特征的所有取值

uniFeats = set([item[i] for item in dataSet])

newEnt = 0

##计算按第i个特征分类的熵

for value in uniFeats:

##第i个特征值 外汇常见问题的概率

subData = splitData(dataSet,i,value)

prob = float(len(subData))/len(dataSet)

newEnt += prob * calcEnt(subData)

gain = baseEnt - newEnt

if gain>bestGain:

bestGain = gain

bestFeat = i

return bestFeat

## 返回类别最高的分类

def majorityCnt(classList):

classCount={}

for vote in classList:

if vote not in classCount.keys():

classCount[vote]=0

classCount[vote]+=1

sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)

return sortedClassCount[0][0]

#建立表

def createTree(dataSet,labels):

classList = [item[-1] for item in dataSet]

##只包含一种分类 返回该分类

if len(set(classList))==1:

return classList[0]

if len(dataSet[0])==1:

return majorityCnt(classList)

bestFeat = chooseBestFeature(dataSet)

bestFeatLabel = labels[bestFeat]

##以最佳分类标签为节点 以字典形式保存

myTree={bestFeatLabel:{}}

del(labels[bestFeat])

uniFeats = set([item[bestFeat] for item in dataSet])

for value in uniFeats:

subLabels = labels[:]

##根据不同的value 继续建立子分支

myTree[bestFeatLabel][value] = createTree(splitData(dataSet,bestFeat,value),subLabels)

return myTree

data,labels = createWatermelonData()

ret=createTree(data,labels)

print(json.dumps(ret,sort_keys=True, indent=2,ensure_ascii=False))

{

"纹理": {

"模糊": "坏",

"清晰": {

"根蒂": {

"硬挺": "坏",

"稍蜷": {

"色泽": {

"乌黑": {

"触感": {

"硬滑": "好",

"软粘": "坏"

}

},

"青绿": "好"

}

},

"蜷缩": "好"

}

},

"稍糊": {

"触感": {

"硬滑": "坏",

"软粘": "好"

}

}

}

}

原文链接:https://blog.csdn.net/zkt286468541/article/details/103372686

决策树(Decision Tree)算法 python简单实现的更多相关文章

  1. 机器学习算法实践:决策树 (Decision Tree)(转载)

    前言 最近打算系统学习下机器学习的基础算法,避免眼高手低,决定把常用的机器学习基础算法都实现一遍以便加深印象.本文为这系列博客的第一篇,关于决策树(Decision Tree)的算法实现,文中我将对决 ...

  2. 数据挖掘 决策树 Decision tree

    数据挖掘-决策树 Decision tree 目录 数据挖掘-决策树 Decision tree 1. 决策树概述 1.1 决策树介绍 1.1.1 决策树定义 1.1.2 本质 1.1.3 决策树的组 ...

  3. GBDT(Gradient Boosting Decision Tree)算法&协同过滤算法

    GBDT(Gradient Boosting Decision Tree)算法参考:http://blog.csdn.net/dark_scope/article/details/24863289 理 ...

  4. (ZT)算法杂货铺——分类算法之决策树(Decision tree)

    https://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html 3.1.摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分 ...

  5. 决策树decision tree原理介绍_python sklearn建模_乳腺癌细胞分类器(推荐AAA)

    sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...

  6. 用于分类的决策树(Decision Tree)-ID3 C4.5

    决策树(Decision Tree)是一种基本的分类与回归方法(ID3.C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归).决策树在分类过程中,表示的是基于特征对实例进行划分, ...

  7. 机器学习方法(四):决策树Decision Tree原理与实现技巧

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 前面三篇写了线性回归,lass ...

  8. 决策树Decision Tree 及实现

    Decision Tree 及实现 标签: 决策树熵信息增益分类有监督 2014-03-17 12:12 15010人阅读 评论(41) 收藏 举报  分类: Data Mining(25)  Pyt ...

  9. 机器学习-决策树 Decision Tree

    咱们正式进入了机器学习的模型的部分,虽然现在最火的的机器学习方面的库是Tensorflow, 但是这里还是先简单介绍一下另一个数据处理方面很火的库叫做sklearn.其实咱们在前面已经介绍了一点点sk ...

随机推荐

  1. Elasticsearch index

    POST/{index}/{type} Elasticsearch自动生成ID,自动生成的 ID 是 URL-safe. 基于 Base64 编码且长度为20个字符的 GUID 字符串. 这些 GUI ...

  2. GCC -l选项:手动添加链接库

    链接器把多个二进制的目标文件(object file)链接成一个单独的可执行文件.在链接过程中,它必须把符号(变量名.函数名等一些列标识符)用对应的数据的内存地址(变量地址.函数地址等)替代,以完成程 ...

  3. jQuery 菜单 垂直菜单实现

    HTML <!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <ti ...

  4. CNN基础三:预训练模型的微调

    上一节中,我们利用了预训练的VGG网络卷积基,来简单的提取了图像的特征,并用这些特征作为输入,训练了一个小分类器. 这种方法好处在于简单粗暴,特征提取部分的卷积基不需要训练.但缺点在于,一是别人的模型 ...

  5. subsequence 1

    题目链接 题意:给你两个字符串都是数字,让你求第一个字符串的子序列中大于第二个字符串的个数. 思路:dp[i][j] 表示 str1的前i个,匹配 str2的前 j 个的种类数,那么 if(s[i] ...

  6. 腾讯云ubuntu16.04安装MySql5.7未提示密码设置且无法登陆解决

    一.安装 sudo apt-get update sudo apt install mysql-server 二.修改密码 1.由于安装过程中未提示要设置密码,且使用sudo mysql_secure ...

  7. 性能测试基础 ---TCP通信过程的状态码与过程,以及出现错误码的分析(TIME_WAIT,CLOSE_WAIT)

    TCP通信过程 如下图所示,TCP通信过程包括三个步骤:建立TCP连接通道(三次握手).数据传输.断开TCP连接通道(四次挥手). 这里进一步探究TCP三路握手和四次挥手过程中的状态变迁以及数据传输过 ...

  8. C++之前置自增与后置自增

    关于前置自增与后置自增的区别我是参考这里:http://bbs.bccn.net/thread-454977-1-1.html 简单复述下,比如++x; 与 x++; 在C中,++x这个表达式的值为原 ...

  9. js实现图片预览、压缩、上传

    先看几个对象:Blob.ArrayBuffer.File.fileReader.formData 详细解释请参考:https://www.cnblogs.com/youhong/p/10875190. ...

  10. Mysql create constraint foreign key faild.trouble shooting method share

    mysql> create table tb_test (id int(10) not null auto_increment primary key,action_id int(10) not ...