机器学习决策树ID3算法，python实现代码

看到techflow介绍ID3算法，中间有代码示例。代码尝试执行力下，发现有错误。

https://www.cnblogs.com/techflow/p/12935130.html

经过整理，错误排查完毕。分享出来

import numpy as np

import math

from collections import Counter, defaultdict

# 保证每次运行的结果一致

np.random.seed(100)

def create_data():

    X1 = np.random.rand(50, 1)*100

    X2 = np.random.rand(50, 1)*100

    X3 = np.random.rand(50, 1)*100

    def f(x):

        return 2 if x > 70 else 1 if x > 40 else 0

    y = X1 + X2 + X3

    Y = y > 150

    Y = Y + 0

    r = map(f, X1)

    X1 = list(r)

    r = map(f, X2)

    X2 = list(r)

    r = map(f, X3)

    X3 = list(r)

    x = np.c_[X1, X2, X3, Y]

    return x, ['courseA', 'courseB', 'courseC']

def calculate_info_entropy(dataset):

    n = len(dataset)

    # 我们用Counter统计一下Y的数量

    labels = Counter(dataset[:, -1])

    entropy = 0.0

    # 套用信息熵公式

    for k, v in labels.items():

        prob = v / n

        entropy -= prob * math.log(prob, 2)

    return entropy

def split_dataset(dataset, idx):

   # idx是要拆分的特征下标

    splitData = defaultdict(list)

    for data in dataset:

       # 这里删除了idx这个特征的取值，因为用不到了

        splitData[data[idx]].append(np.delete(data, idx))

    for k, v in splitData.items():

        splitData[k] = np.array(v)

    return splitData.keys(), splitData.values()

def choose_feature_to_split(dataset):

    n = len(dataset[0])-1

    m = len(dataset)

    # 切分之前的信息熵

    entropy = calculate_info_entropy(dataset)

    bestGain = 0.0

    feature = -1

    for i in range(n):

       # 根据特征i切分

        split_data = split_dataset(dataset, i)[1]

        new_entropy = 0.0

        # 计算切分后的信息熵

        for data in split_data:

            prob = len(data) / m

            new_entropy += prob * calculate_info_entropy(data)

        # 获取信息增益

        gain = entropy - new_entropy

        if gain > bestGain:

            bestGain = gain

            feature = i

    return feature

def create_decision_tree(dataset, feature_names):

    dataset = np.array(dataset)

    counter = Counter(dataset[:, -1])

    # 如果数据集值剩下了一类，直接返回

    if len(counter) == 1:

        return dataset[0, -1]

    # 如果所有特征都已经切分完了，也直接返回

    if len(dataset[0]) == 1:

        return counter.most_common(1)[0][0]

    # 寻找最佳切分的特征

    fidx = choose_feature_to_split(dataset)

    fname = feature_names[fidx]

    node = {fname: {}}

    feature_names.remove(fname)

    # 递归调用，对每一个切分出来的取值递归建树

    vals, split_data = split_dataset(dataset, fidx)

    for val, data in zip(vals, split_data):

        node[fname][val] = create_decision_tree(data, feature_names[:])

    return node

dataset, feature_names = create_data()

tree = create_decision_tree(dataset, feature_names.copy())

tree

{'courseA': {0: {'courseC': {0: {'courseB': {0: 0, 1: 0, 2: 0}},

    1: 0,

    2: {'courseB': {0: 0, 1: 1, 2: 1}}}},

  1: {'courseC': {0: 0, 1: {'courseB': {0: 0, 1: 0}}, 2: 1}},

  2: {'courseC': {0: {'courseB': {0: 0, 1: 1, 2: 1}},

    1: {'courseB': {0: 1, 1: 1, 2: 1}},

    2: 1}}}}

def classify(node, feature_names, data):

   # 获取当前节点判断的特征

    key = list(node.keys())[0]

    node = node[key]

    idx = feature_names.index(key)

    # 根据特征进行递归

    pred = None

    for key in node:

       # 找到了对应的分叉

        if data[idx] == key:

           # 如果再往下依然还有子树，那么则递归，否则返回结果

            if isinstance(node[key], dict):

                pred = classify(node[key], feature_names, data)

            else:

                pred = node[key]

    # 如果没有对应的分叉，则找到一个分叉返回

    if pred is None:

        for key in node:

            if not isinstance(node[key], dict):

                pred = node[key]

                break

    return pred

classify(tree, feature_names, [1,0,1])

classify(tree, feature_names, [2,2,1])

classify(tree, feature_names, [1,1,1])

机器学习决策树ID3算法，python实现代码的更多相关文章

机器学习决策树ID3算法，手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
决策树ID3算法--python实现
参考: 统计学习方法>第五章决策树] http://pan.baidu.com/s/1hrTscza 决策树的python实现有完整程序决策树(ID3.C4.5.CART ...
决策树ID3算法python实现 -- 《机器学习实战》
from math import log import numpy as np import matplotlib.pyplot as plt import operator #计算给定数据集的香农熵 ...
机器学习之决策树(ID3)算法与Python实现
机器学习之决策树(ID3)算法与Python实现机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
决策树---ID3算法（介绍及Python实现）
决策树---ID3算法决策树: 以天气数据库的训练数据为例. Outlook Temperature Humidity Windy PlayGolf? sunny 85 85 FALSE no ...
02-21 决策树ID3算法
目录决策树ID3算法一.决策树ID3算法学习目标二.决策树引入三.决策树ID3算法详解 3.1 if-else和决策树 3.2 信息增益四.决策树ID3算法流程 4.1 输入 4.2 输出 ...
数据挖掘之决策树ID3算法（C#实现）
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
决策树ID3算法[分类算法]
ID3分类算法的编码实现 <?php /* *决策树ID3算法(分类算法的实现) */ /* *求信息增益Grain(S1,S2) */ //-------------------------- ...
Python四步实现决策树ID3算法，参考机器学习实战
一.编写计算历史数据的经验熵函数 from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCo ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...

随机推荐

力扣142(Java)-环形链表Ⅱ（中等）
题目: 给定一个链表的头节点 head ,返回链表开始入环的第一个节点. 如果链表无环,则返回 null. 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环. 为了表示 ...
力扣1076(MySQL)-员工项目Ⅱ（简单）
题目: 编写一个SQL查询,报告所有雇员最多的项目. 查询结果格式如下所示: 解题思路: 方法一:将两个表联结,以project_id进行分组,统计员工数降序排序,然后筛选出第一条数据. 1 sel ...
力扣172(java)-阶乘后的零（中等）
题目: 给定一个整数 n ,返回 n! 结果中尾随零的数量. 提示 n! = n * (n - 1) * (n - 2) * ... * 3 * 2 * 1 示例 1: 输入:n = 3输出:0解释: ...
API 开发的后盾：平台工程提供强力动态支持
过去几年,开发团队一直在发展传统的 DevOps.一些开发人员认为,CloudOps 或 DeploymentOps 等新实践的兴起将会导致回到孤岛问题.其他人则不愿意在承担所有其他职责之外构建.部署 ...
dotnet C# 通过 Vortice 使用 Direct2D 的 ID2D1CommandList 入门
本文将告诉大家如何通过 Vortice 使用 D2D 的 CommandList 功能本文属于 DirectX 系列博客,更多 DirectX 和 D2D 以及 Vortice 库的博客,请参阅我的 ...
2018-8-10-C＃-字符串首字符大写
title author date CreateTime categories C# 字符串首字符大写 lindexi 2018-08-10 19:16:52 +0800 2018-2-13 17:2 ...
2018-11-19-win10-uwp-使用-Azure-DevOps-自动构建
title author date CreateTime categories win10 uwp 使用 Azure DevOps 自动构建 lindexi 2018-11-19 15:26:4 +0 ...
k8s之dns问题
问题1: 描述:pod新建好后,无法ping通域名(无论是外网域名还是内网域名),但是可以ping通IP(包含外网IP和内网IP),不包括kube-dns的IP,和pod同一网段IP可以ping通 # ...
临时容器ephermeral(20)
一.临时容器ephermeral概述参考官方文档: https://kubernetes.io/zh/docs/concepts/workloads/pods/ephemeral-container ...
C语言实验1
#include<stdio.h> #include<stdlib.h> int main() { printf(" o\n"); printf(" ...

机器学习决策树ID3算法，python实现代码

机器学习决策树ID3算法，python实现代码

机器学习决策树ID3算法，python实现代码的更多相关文章

随机推荐

热门专题