决策树(Decision Tree)算法 python简单实现
""
"""
import numpy as np
from math import log
import operator
import json
#生成海洋生物数据
def createData():
data = [[1,1,'yes'],
[1,1,'yes'],
[1,0,'no'],
[0,1,'no'],
[0,1,'no']]
labels=['不浮出水面可生存','脚蹼']
return data, labels
#生产西瓜数据
# =============================================================================
# 色泽: 浅白 青绿 乌黑
# 根蒂: 蜷缩 稍蜷 硬挺
# 敲声: 浊响 沉闷 清脆
# 纹理: 清晰 稍糊 模糊
# 脐部: 凹陷 稍凹 平坦
# 触感: 硬滑 软粘
# =============================================================================
def createWatermelonData():
data = [['青绿','蜷缩','浊响','清晰','凹陷','硬滑','好'],
['乌黑','蜷缩','沉闷','清晰','凹陷','硬滑','好'],
['乌黑','蜷缩','浊响','清晰','凹陷','硬滑','好'],
['青绿','蜷缩','沉闷','清晰','凹陷','硬滑','好'],
['浅白','蜷缩','浊响','清晰','凹陷','硬滑','好'],
['青绿','稍蜷','浊响','清晰','稍凹','软粘','好'],
['乌黑','稍蜷','浊响','稍糊','稍凹','软粘','好'],
['乌黑','稍蜷','浊响','清晰','稍凹','硬滑','好'],
['乌黑','稍蜷','沉闷','稍糊','稍凹','硬滑','坏'],
['青绿','硬挺','清脆','清晰','平坦','软粘','坏'],
['浅白','硬挺','清脆','模糊','平坦','硬滑','坏'],
['浅白','蜷缩','浊响','模糊','平坦','软粘','坏'],
['青绿','稍蜷','浊响','稍糊','凹陷','硬滑','坏'],
['浅白','稍蜷','沉闷','稍糊','凹陷','硬滑','坏'],
['乌黑','稍蜷','浊响','清晰','稍凹','软粘','坏'],
['浅白','蜷缩','浊响','模糊','平坦','硬滑','坏'],
['青绿','蜷缩','沉闷','模糊','稍凹','硬滑','坏']]
labels=['色泽','根蒂','敲声','纹理','脐部','触感']
return data, labels
#计算熵
def calcEnt(data):
num = len(data)
labelCounts = {}
for item in data:
label = item[-1]
if label not in labelCounts.keys():labelCounts[label] = 0
labelCounts[label] += 1
ent = 0
for key in labelCounts:
prob = labelCounts[key]*1.0/num
ent -= prob * log(prob,2)
return ent
#划分数据 根据某一特征axis 取出该特征某一特定值value的数据
def splitData(dataSet,axis,value):
retData=[]
for item in dataSet:
if item[axis]==value:
newItem = item[:axis]
newItem.extend(item[axis+1:])
retData.append(newItem)
return retData
#从特种中选择最好的方式 增益最高
def chooseBestFeature(dataSet):
numFeat = len(dataSet[0]) - 1
## 初始化 信息熵 最佳信息增益 最佳特征
baseEnt = calcEnt(dataSet)
bestGain = 0
bestFeat = -1
for i in range(numFeat):
##获取第i个特征的所有取值
uniFeats = set([item[i] for item in dataSet])
newEnt = 0
##计算按第i个特征分类的熵
for value in uniFeats:
##第i个特征值 外汇常见问题的概率
subData = splitData(dataSet,i,value)
prob = float(len(subData))/len(dataSet)
newEnt += prob * calcEnt(subData)
gain = baseEnt - newEnt
if gain>bestGain:
bestGain = gain
bestFeat = i
return bestFeat
## 返回类别最高的分类
def majorityCnt(classList):
classCount={}
for vote in classList:
if vote not in classCount.keys():
classCount[vote]=0
classCount[vote]+=1
sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
return sortedClassCount[0][0]
#建立表
def createTree(dataSet,labels):
classList = [item[-1] for item in dataSet]
##只包含一种分类 返回该分类
if len(set(classList))==1:
return classList[0]
if len(dataSet[0])==1:
return majorityCnt(classList)
bestFeat = chooseBestFeature(dataSet)
bestFeatLabel = labels[bestFeat]
##以最佳分类标签为节点 以字典形式保存
myTree={bestFeatLabel:{}}
del(labels[bestFeat])
uniFeats = set([item[bestFeat] for item in dataSet])
for value in uniFeats:
subLabels = labels[:]
##根据不同的value 继续建立子分支
myTree[bestFeatLabel][value] = createTree(splitData(dataSet,bestFeat,value),subLabels)
return myTree
data,labels = createWatermelonData()
ret=createTree(data,labels)
print(json.dumps(ret,sort_keys=True, indent=2,ensure_ascii=False))
{
"纹理": {
"模糊": "坏",
"清晰": {
"根蒂": {
"硬挺": "坏",
"稍蜷": {
"色泽": {
"乌黑": {
"触感": {
"硬滑": "好",
"软粘": "坏"
}
},
"青绿": "好"
}
},
"蜷缩": "好"
}
},
"稍糊": {
"触感": {
"硬滑": "坏",
"软粘": "好"
}
}
}
}
原文链接:https://blog.csdn.net/zkt286468541/article/details/103372686
决策树(Decision Tree)算法 python简单实现的更多相关文章
- 机器学习算法实践:决策树 (Decision Tree)(转载)
前言 最近打算系统学习下机器学习的基础算法,避免眼高手低,决定把常用的机器学习基础算法都实现一遍以便加深印象.本文为这系列博客的第一篇,关于决策树(Decision Tree)的算法实现,文中我将对决 ...
- 数据挖掘 决策树 Decision tree
数据挖掘-决策树 Decision tree 目录 数据挖掘-决策树 Decision tree 1. 决策树概述 1.1 决策树介绍 1.1.1 决策树定义 1.1.2 本质 1.1.3 决策树的组 ...
- GBDT(Gradient Boosting Decision Tree)算法&协同过滤算法
GBDT(Gradient Boosting Decision Tree)算法参考:http://blog.csdn.net/dark_scope/article/details/24863289 理 ...
- (ZT)算法杂货铺——分类算法之决策树(Decision tree)
https://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html 3.1.摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分 ...
- 决策树decision tree原理介绍_python sklearn建模_乳腺癌细胞分类器(推荐AAA)
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
- 用于分类的决策树(Decision Tree)-ID3 C4.5
决策树(Decision Tree)是一种基本的分类与回归方法(ID3.C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归).决策树在分类过程中,表示的是基于特征对实例进行划分, ...
- 机器学习方法(四):决策树Decision Tree原理与实现技巧
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 前面三篇写了线性回归,lass ...
- 决策树Decision Tree 及实现
Decision Tree 及实现 标签: 决策树熵信息增益分类有监督 2014-03-17 12:12 15010人阅读 评论(41) 收藏 举报 分类: Data Mining(25) Pyt ...
- 机器学习-决策树 Decision Tree
咱们正式进入了机器学习的模型的部分,虽然现在最火的的机器学习方面的库是Tensorflow, 但是这里还是先简单介绍一下另一个数据处理方面很火的库叫做sklearn.其实咱们在前面已经介绍了一点点sk ...
随机推荐
- 基于window ftp上传问题
FtpClient上传文件异常:java.net.SocketException: Connection reset cmd输入: netsh advfirewall set global State ...
- vue img标签用法
:符号是v-bind的缩写 服务器图片路径和请求本地路径 <img class="v-step-0" id="avatar" :src="myP ...
- java--ArrayList,LinkedList应用比较
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class ListDem ...
- Pythonf反射
Python中,反射有4个方法.分别是:hasattr().getattr().setattr()和delattr(). hasattr() 定义 hasattr()函数用于判断对象是否包含对应的属性 ...
- Springboot 拦截器配置(登录拦截)
Springboot 拦截器配置(登录拦截) 注意这里环境为springboot为2.1版本 1.编写拦截器实现类,实现接口 HandlerInterceptor, 重写里面需要的三个比较常用的方 ...
- Python之-异常处理
1.python中处理异常的方式 #coding:utf8 filename=raw_input("请输入你要操作的文件") try: f=open(filename) print ...
- ZROI week2
\[ZROI week2\] 除草机 首先考虑最少的拐点肯定是那种螺旋形状的,然后手玩几个数据发现和列数(行数)有关,且每增加1就是上一个状态加2,直接\(O(1)\)公式即可 吐槽:为啥\(n,m\ ...
- react 中使用 JsBarcode 显示条形码
import React from 'react';import JsBarcode from 'jsbarcode'; export class RefundSheet extends React. ...
- how to catch error in make error message
make 2>&1 | grep error -C 10 -n
- 获取项目根目录(非tomact)
String path; public void main(String[] args) { File file=new File(""); path=file.getAbsolu ...