决策树ID3算法实现

决策树的ID3算法基于信息增益来选择最优特征，于是自己实现了一把，直接上代码。

 """

 CreateTime    : 2019/3/3 22:19

 Author        : X

 Filename      : decision_tree.py

 """

 import pandas as pd

 from math import log2

 def create_data_set():

     """Create 8 * 3 data set. two feature."""

     data_set = [['long', 'thick', 'man'],

                 ['short', 'thick', 'man'],

                 ['short', 'thick', 'man'],

                 ['long', 'thin', 'woman'],

                 ['short', 'thin', 'woman'],

                 ['short', 'thick', 'woman'],

                 ['long', 'thick', 'woman'],

                 ['long', 'thick', 'woman']]

     labels = ['hair', 'sound']

     return data_set, labels

 def calculate_entropy(data_set):

     """Calculate entropy by data set label.

        formula: H(X) = -3/8*log(3/8, 2) - -5/8*log(5/8, 2)"""

     data_len = data_set.shape[0]

     entropy = 0

     for size in data_set.groupby(data_set.iloc[:, -1]).size():

         p_label = size/data_len

         entropy -= p_label * log2(p_label)

     return entropy

 def get_best_feature(data_set):

     """Get the best feature by infoGain.

        formula: InfoGain(X, Y) = H(X) - H(X|Y)

                 H(X|Y) = sum(P(X) * H(Yx))"""

     best_feature = -1

     base_entropy = calculate_entropy(data_set)

     best_info_gain = 0

     len_data = data_set.shape[0]

     for i in range(data_set.shape[1] - 1):

         new_entropy = 0

         for _, group in data_set.groupby(data_set.iloc[:, i]):

             p_label = group.shape[0]/len_data

             new_entropy += p_label * calculate_entropy(group)

         info_gain = base_entropy - new_entropy

         if info_gain > best_info_gain:

             best_feature = i

             best_info_gain = info_gain

     return best_feature

 def majority_cnt(class_list):

     """When only class label, return the max label."""

     majority_class = class_list.groupby(

         class_list.iloc[:, -1]).size().sort_values().index[-1]

     return majority_class

 def create_tree(data_set, labels):

     """data_set: DataFrame"""

     class_list = data_set.values[:, -1]

     class_list_set = set(class_list)

     if len(class_list_set) == 1:

         return list(class_list)[0]

     if len(data_set.values[0]) == 1:

         return majority_cnt(data_set)

     best_feature = get_best_feature(data_set)

     best_feature_label = labels[best_feature]

     del labels[best_feature]

     my_tree = {best_feature_label: {}}

     for name, group in data_set.groupby(data_set.iloc[:, best_feature]):

         group.drop(columns=[best_feature], axis=1, inplace=True)

         my_tree[best_feature_label][name] = create_tree(group, labels)

     return my_tree

 def classify(test_data, my_tree):

     if not test_data:

         return 'Not found class.'

     for key, tree in my_tree.items():

         if key != test_data[0]:

             return classify(test_data, tree)

         else:

             if isinstance(tree, dict):

                 del test_data[0]

                 return classify(test_data, tree)

             else:

                 return tree

 if __name__ == '__main__':

     DATA_SET, LABELS = create_data_set()

     TREE = create_tree(pd.DataFrame(DATA_SET), LABELS)

     import json

     print(json.dumps(TREE, indent=4))

     print(classify(["thick", "long"], TREE))

C4.5算法是基于信息增益率来选择最优特征的，即在ID3算法基础上再求出信息增益率即可，将信息增益除以基于label的特征X的熵。

此处就不再给出实现代码，自己实现一遍意在加深理解。

决策树ID3算法实现的更多相关文章

数据挖掘之决策树ID3算法（C#实现）
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏.比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的. 问:这个动物有鳃吗? 答:没有. 这样的两个问题顺序就有些颠倒,因为一般 ...
决策树ID3算法[分类算法]
ID3分类算法的编码实现 <?php /* *决策树ID3算法(分类算法的实现) */ /* *求信息增益Grain(S1,S2) */ //-------------------------- ...
决策树---ID3算法（介绍及Python实现）
决策树---ID3算法决策树: 以天气数据库的训练数据为例. Outlook Temperature Humidity Windy PlayGolf? sunny 85 85 FALSE no ...
02-21 决策树ID3算法
目录决策树ID3算法一.决策树ID3算法学习目标二.决策树引入三.决策树ID3算法详解 3.1 if-else和决策树 3.2 信息增益四.决策树ID3算法流程 4.1 输入 4.2 输出 ...
机器学习之决策树(ID3)算法与Python实现
机器学习之决策树(ID3)算法与Python实现机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
决策树ID3算法的java实现(基本试用所有的ID3)
已知:流感训练数据集,预定义两个类别: 求:用ID3算法建立流感的属性描述决策树流感训练数据集 No. 头痛肌肉痛体温患流感 1 是(1) 是(1) 正常(0) 否(0) 2 是(1) 是(1 ...
决策树 -- ID3算法小结
ID3算法(Iterative Dichotomiser 3 迭代二叉树3代),是一个由Ross Quinlan发明的用于决策树的算法:简单理论是越是小型的决策树越优于大的决策树. 算法归 ...
【Machine Learning in Action --3】决策树ID3算法
1.简单概念描述决策树的类型有很多,有CART.ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定 ...
决策树ID3算法的java实现
决策树的分类过程和人的决策过程比较相似,就是先挑“权重”最大的那个考虑,然后再往下细分.比如你去看医生,症状是流鼻涕,咳嗽等,那么医生就会根据你的流鼻涕这个权重最大的症状先认为你是感冒,接着再根据你咳 ...
决策树ID3算法
决策树 (Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法 ...

随机推荐

STM32f103C8T6 Bootloader设计（转）
源:STM32f103C8T6 Bootloader设计 STM32F103c8t6通过串口实现IAP在线升级固件
SNMP学习笔记之SNMP4J介绍(Java)
0x00 SNMP4J介绍 SNMP4J是一个用Java来实现SNMP(简单网络管理协议)协议的开源项目.它支持以命令行的形式进行管理与响应.SNMP4J是纯面向对象设计与SNMP++(用C++实现S ...
散列表（HashTable）
散列表 i. 散列函数 i. 冲突解决 ii. 分离链表法 ii. 开放地址法 iii. 线性探测法 iii. 平方探测法 iii. 双散列 ii. 再散列 ii. 可扩散列 i. 装填因子:元素个数 ...
20145222何志威《网络对抗》- Web安全基础实践
20145322何志威<网络对抗>Exp9 Web安全基础实践基础问题回答 1.SQL注入原理,如何防御 SQL注入就是通过把SQL命令插入到"Web表单递交"或& ...
20165211 2017-2018-2 《Java程序设计》第7周学习总结
20165211 2017-2018-2 <Java程序设计>第7周学习总结教材学习内容总结本周,我学习了书本上第十一章的内容,以下是我整理的主要知识. 第十一章 JDBC和MySQL ...
Python3基础 str format 输出花括号{}
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
第几天|2018年蓝桥杯B组题解析第一题-fishers
标题:第几天 2000年的1月1日,是那一年的第1天. 那么,2000年的5月4日,是那一年的第几天? 注意:需要提交的是一个整数,不要填写任何多余内容. 思路:计算日期,用excel计算两个日期的差 ...
win7下配置IIS
Internet Information Services(IIS,互联网信息服务),是由微软公司提供的基于运行Microsoft Windows的互联网基本服务.最初是Windows NT版本的可选 ...
【第五章】 springboot + mybatis
springboot集成了springJDBC与JPA,但是没有集成mybatis,所以想要使用mybatis就要自己去集成.集成方式相当简单. 1.项目结构 2.pom.xml <!-- 与数 ...
Java-master（github）教材整理
helloworld class HelloWorld { public static void main(String[] args) { System.out.println("hell ...

决策树ID3算法实现

决策树ID3算法实现的更多相关文章

随机推荐

热门专题