机器学习决策树ID3算法，python实现代码

看到techflow介绍ID3算法，中间有代码示例。代码尝试执行力下，发现有错误。

https://www.cnblogs.com/techflow/p/12935130.html

经过整理，错误排查完毕。分享出来

import numpy as np

import math

from collections import Counter, defaultdict

# 保证每次运行的结果一致

np.random.seed(100)

def create_data():

    X1 = np.random.rand(50, 1)*100

    X2 = np.random.rand(50, 1)*100

    X3 = np.random.rand(50, 1)*100

    def f(x):

        return 2 if x > 70 else 1 if x > 40 else 0

    y = X1 + X2 + X3

    Y = y > 150

    Y = Y + 0

    r = map(f, X1)

    X1 = list(r)

    r = map(f, X2)

    X2 = list(r)

    r = map(f, X3)

    X3 = list(r)

    x = np.c_[X1, X2, X3, Y]

    return x, ['courseA', 'courseB', 'courseC']

def calculate_info_entropy(dataset):

    n = len(dataset)

    # 我们用Counter统计一下Y的数量

    labels = Counter(dataset[:, -1])

    entropy = 0.0

    # 套用信息熵公式

    for k, v in labels.items():

        prob = v / n

        entropy -= prob * math.log(prob, 2)

    return entropy

def split_dataset(dataset, idx):

   # idx是要拆分的特征下标

    splitData = defaultdict(list)

    for data in dataset:

       # 这里删除了idx这个特征的取值，因为用不到了

        splitData[data[idx]].append(np.delete(data, idx))

    for k, v in splitData.items():

        splitData[k] = np.array(v)

    return splitData.keys(), splitData.values()

def choose_feature_to_split(dataset):

    n = len(dataset[0])-1

    m = len(dataset)

    # 切分之前的信息熵

    entropy = calculate_info_entropy(dataset)

    bestGain = 0.0

    feature = -1

    for i in range(n):

       # 根据特征i切分

        split_data = split_dataset(dataset, i)[1]

        new_entropy = 0.0

        # 计算切分后的信息熵

        for data in split_data:

            prob = len(data) / m

            new_entropy += prob * calculate_info_entropy(data)

        # 获取信息增益

        gain = entropy - new_entropy

        if gain > bestGain:

            bestGain = gain

            feature = i

    return feature

def create_decision_tree(dataset, feature_names):

    dataset = np.array(dataset)

    counter = Counter(dataset[:, -1])

    # 如果数据集值剩下了一类，直接返回

    if len(counter) == 1:

        return dataset[0, -1]

    # 如果所有特征都已经切分完了，也直接返回

    if len(dataset[0]) == 1:

        return counter.most_common(1)[0][0]

    # 寻找最佳切分的特征

    fidx = choose_feature_to_split(dataset)

    fname = feature_names[fidx]

    node = {fname: {}}

    feature_names.remove(fname)

    # 递归调用，对每一个切分出来的取值递归建树

    vals, split_data = split_dataset(dataset, fidx)

    for val, data in zip(vals, split_data):

        node[fname][val] = create_decision_tree(data, feature_names[:])

    return node

dataset, feature_names = create_data()

tree = create_decision_tree(dataset, feature_names.copy())

tree

{'courseA': {0: {'courseC': {0: {'courseB': {0: 0, 1: 0, 2: 0}},

    1: 0,

    2: {'courseB': {0: 0, 1: 1, 2: 1}}}},

  1: {'courseC': {0: 0, 1: {'courseB': {0: 0, 1: 0}}, 2: 1}},

  2: {'courseC': {0: {'courseB': {0: 0, 1: 1, 2: 1}},

    1: {'courseB': {0: 1, 1: 1, 2: 1}},

    2: 1}}}}

def classify(node, feature_names, data):

   # 获取当前节点判断的特征

    key = list(node.keys())[0]

    node = node[key]

    idx = feature_names.index(key)

    # 根据特征进行递归

    pred = None

    for key in node:

       # 找到了对应的分叉

        if data[idx] == key:

           # 如果再往下依然还有子树，那么则递归，否则返回结果

            if isinstance(node[key], dict):

                pred = classify(node[key], feature_names, data)

            else:

                pred = node[key]

    # 如果没有对应的分叉，则找到一个分叉返回

    if pred is None:

        for key in node:

            if not isinstance(node[key], dict):

                pred = node[key]

                break

    return pred

classify(tree, feature_names, [1,0,1])

classify(tree, feature_names, [2,2,1])

classify(tree, feature_names, [1,1,1])

机器学习决策树ID3算法，python实现代码的更多相关文章

机器学习决策树ID3算法，手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
决策树ID3算法--python实现
参考: 统计学习方法>第五章决策树] http://pan.baidu.com/s/1hrTscza 决策树的python实现有完整程序决策树(ID3.C4.5.CART ...
决策树ID3算法python实现 -- 《机器学习实战》
from math import log import numpy as np import matplotlib.pyplot as plt import operator #计算给定数据集的香农熵 ...
机器学习之决策树(ID3)算法与Python实现
机器学习之决策树(ID3)算法与Python实现机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
决策树---ID3算法（介绍及Python实现）
决策树---ID3算法决策树: 以天气数据库的训练数据为例. Outlook Temperature Humidity Windy PlayGolf? sunny 85 85 FALSE no ...
02-21 决策树ID3算法
目录决策树ID3算法一.决策树ID3算法学习目标二.决策树引入三.决策树ID3算法详解 3.1 if-else和决策树 3.2 信息增益四.决策树ID3算法流程 4.1 输入 4.2 输出 ...
数据挖掘之决策树ID3算法（C#实现）
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
决策树ID3算法[分类算法]
ID3分类算法的编码实现 <?php /* *决策树ID3算法(分类算法的实现) */ /* *求信息增益Grain(S1,S2) */ //-------------------------- ...
Python四步实现决策树ID3算法，参考机器学习实战
一.编写计算历史数据的经验熵函数 from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCo ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...

随机推荐

Dapr Outbox 执行流程
Dapr Outbox 是1.12中的功能. 本文只介绍Dapr Outbox 执行流程,Dapr Outbox基本用法请阅读官方文档 .本文中appID=order-processor,topic= ...
力扣217(java&python)-存在重复元素（简单）
题目: 给你一个整数数组 nums .如果任一值在数组中出现至少两次 ,返回 true :如果数组中每个元素互不相同,返回 false . 示例 1: 输入:nums = [1,2,3,1]输出:t ...
力扣319(java)-灯泡开关（中等）
题目: 初始时有 n 个灯泡处于关闭状态.第一轮,你将会打开所有灯泡.接下来的第二轮,你将会每两个灯泡关闭第二个. 第三轮,你每三个灯泡就切换第三个灯泡的开关(即,打开变关闭,关闭变打开).第 i 轮 ...
阿里云 ACK 容器服务生产级可观测体系建设实践
简介: 随着容器被越来越对企业接纳与落地,可观测成为重点.那么,让我们深入了解阿里云 ACK 容器服务生产级可观测体系建设实践,为自身业务可观测提供参考- 作者:冯诗淳(行疾) ACK 可观测体系 ...
KubeVela 1.5：灵活框选 CNCF 原子能力打造独特的企业应用发布平台
简介: KubeVela 1.5 于近日正式发布.在该版本中为社区带来了更多的开箱即用的应用交付能力,包括新增系统可观测:新增 Cloud Shell 终端,将 Vela CLI 搬到了浏览器:增强的 ...
【云原生】拿下 Gartner 容器产品第一，阿里云打赢云原生关键一战！
近日,Gartner 发布 2020 年公共云容器报告,据报告显示,阿里云和 AWS 拥有最丰富的产品布局,覆盖 9 项产品能力,并列排名第一. 据 Gartner 分析师评论,阿里云拥有丰富的容器产 ...
PolarDB-X迎来开源后首个重大版本升级，2.1版本新增5大特色功能
简介:2022 年 5 月25日,阿里云开源 PolarDB-X 升级发布新版本!PolarDB-X 从 2009 年开始服务于阿里巴巴电商核心系统, 2015 年开始对外提供商业化服务,并于 20 ...
配置审计（Config）变配报警设置
简介: 本文作者[紫极zj],本篇将主要介绍通过配置审计的自定义规则等服务,对负载均衡进行预警行为的相关介绍. 前言配置审计(Config)将您分散在各地域的资源整合为全局资源列表,可便捷地搜索全局 ...
Serverless 架构模式及演进
简介: Serverless 架构从使用技术上有计算,数据存储,消息通信,我们可从运维性,安全性,可靠性,可扩展性,成本几个角度来衡量架构的优劣.本文会介绍一些常见的业务场景,探讨如何使用 Serv ...
IIncrementalGenerator 增量 Source Generator 生成代码入门从语法到语义获取类型完全限定名
本文告诉大家如何在使用 IIncrementalGenerator 进行增量的 Source Generator 生成代码时,如何从语法分析过程,将获取的语法 Token 转换到语义分析上,比如获取类 ...

机器学习决策树ID3算法，python实现代码

机器学习决策树ID3算法，python实现代码

机器学习决策树ID3算法，python实现代码的更多相关文章

随机推荐

热门专题