[Python]实现简单决策树

基本思路：

　　通过香农熵来决定每一层使用哪一种标签做分类，分类后，通过多数表决法来决定该层两个节点的类别。每次消耗一个标签，所以一共需要递归“标签个数”层。

 # -*- coding:utf-8 -*-

 import math

 import operator

 from collections import Counter

 def shannon_ent(dat):

   siz = len(dat)

   return 0.0 - reduce(lambda x, y: x + y,

     map(lambda each: float(each)/siz * math.log(float(each)/siz, 2),

     Counter(map(lambda each: each[-1], dat)).values()))

 def split_dataset(dat, axis, val):

   ret = filter(lambda each: each[axis] == val, dat)

   return map(lambda each: each[:axis]+each[axis+1:], ret)

 def choose_best_feature(dat):

   feature_num = len(dat[0]) - 1

   base_ent = shannon_ent(dat)

   best_info_gain = 0.0

   best_feature = -1

   for i in range(feature_num):

     feature_list = set([each[i] for each in dat])

     cur_ent = reduce(lambda x, y: x + y,

               map(lambda val: len(split_dataset(dat, i, val))/float(len(dat))*shannon_ent(split_dataset(dat, i, val)),

               feature_list))

     info_gain = base_ent - cur_ent

     if info_gain > best_info_gain:

       best_info_gain, best_feature = info_gain, i

   return best_feature

 def majority_count(class_list):

   class_dict = sorted(dict(Counter(class_list)).iteritems(), key=operator.itemgetter(1))

   return class_dict[-1][0]

 def create_tree(dat, label):

   class_list = map(lambda each: each[-1], dat)

   if class_list.count(class_list[0]) == len(class_list):

     return class_list[0]

   if len(dat[0]) == 1:

     return majority_count(class_list)

   best_feature = choose_best_feature(dat)

   best_label = label[best_feature]

   d_tree = {best_label:{}}

   del(label[best_feature])

   feature_val = map(lambda each: each[best_feature], dat)

   val_set = set(feature_val)

   def _update_tree(val):

     sub_label = label[:]

     d_tree[best_label][val] = create_tree(split_dataset(dat, best_feature, val), sub_label)

   map(_update_tree, val_set)

   return d_tree

 d = [[1,1,'y'], [1,1,'y'], [1,0,'n'], [0,1,'n'], [0,1,'n']]

 l = ['no surfacing', 'flippers']

 print create_tree(d, l)

[Python]实现简单决策树的更多相关文章

python实现简单决策树（信息增益）——基于周志华的西瓜书数据
数据集如下: 色泽根蒂敲声纹理脐部触感好瓜青绿蜷缩浊响清晰凹陷硬滑是乌黑蜷缩沉闷清晰凹陷硬滑是乌黑蜷缩浊响清晰凹陷硬滑是青绿蜷缩沉闷清晰 ...
教你用Python实现简单监督学习算法
教你用Python实现简单监督学习算法监督学习作为运用最广泛的机器学习方法,一直以来都是从数据挖掘信息的重要手段.即便是在无监督学习兴起的近日,监督学习也依旧是入门机器学习的钥匙. 这篇监督学习教程 ...
Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析
Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析今天主要讲述的内容是关于决策树的知识,主要包括以下内容:1.分类及决策树算法介绍2.鸢尾花卉数据集介绍3.决策树实现鸢尾数据集分析.希望这篇 ...
Python 实现简单的 Web
简单的学了下Python, 然后用Python实现简单的Web. 因为正在学习计算机网络,所以通过编程来加强自己对于Http协议和Web服务器的理解,也理解下如何实现Web服务请求.响应.错误处理以及 ...
用 python实现简单EXCEL数据统计
任务: 用python时间简单的统计任务-统计男性和女性分别有多少人. 用到的物料:xlrd 它的作用-读取excel表数据代码: import xlrd workbook = xlrd.open_ ...
python开启简单webserver
python开启简单webserver linux下面使用 python -m SimpleHTTPServer 8000 windows下面使用上面的命令会报错,Python.Exe: No Mod ...
Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程用Eclipse编写Python程序课程目录第1章课程介绍 ...
python使用简单http协议来传送文件
python使用简单http协议来传送文件!在ubuntu环境下,局域网内可以使用nc来传送文件,也可以使用基于Http协议的方式来下载文件我们可以使用python -m SimpleHTTPServ ...
Python超简单的HTTP服务器
Python超简单的HTTP服务器安装了python就可以 python -m SimpleHTTPServer 执行这一个命令即可实现一个HTTP服务器,将当前目录设为HTTP服务目录,可以通过h ...

随机推荐

使用CXF框架集成Spring实现SOAP Web Service
DOS命令追加符的使用
@echo off start \\192.168.10.120\常用软件\系统工具\远程客户端\winvnc.exe #打开共享的远程客户端程序 ipconfig /all > d:\disp ...
python之面向对象编程
1.面向对象介绍: 世界万物,皆可分类世界万物,皆为对象只要是对象,就肯定属于某种类只要是对象,就肯定有属性 2. 面向对象的几个特性: class类: 一个类即对一类拥有相同属性的对象的抽象, ...
使用Charles检测HTTPS网站的数据包
1.下载Charles 下载地址:https://www.charlesproxy.com/download/ 2.安装Charles的证书选择Help->SSL Proxying->I ...
js数组方法扩展
/** * Created by Administrator on 2016/9/1. */ //数组去重 Array.prototype.unique = function(){ this.sort ...
SourceTree如何连接ssh的仓库地址，这里记录的是客户端需要做的事
1. 2. 打开命令行以后输入ssh-keygen -t rsa -C "example@example.com"',这个地方输入的是你注册gitlab所使用的邮箱.按回车,之后还 ...
JavaSE基础第四篇
1.参数传递 2,方法的重载方法的参数的个数.类型.顺序跟修饰符.返回值无关 3.构造方法: return 表示当前方法执行结束,后面不能写任何语句 4工程导入单个.java文件粘贴 ...
利用selector设置ImageButton不同状态下的背景图片
1.自定义MyButton类 public class MyButton extends Button { //This constructormust be public MyButton(Cont ...
浅谈php中使用websocket
在PHP中,开发者需要考虑的东西比较多,从socket的连接.建立.绑定.监听等都需要开发者自己去操作完成,对于初学者来说,难度方面也挺大的,所以本文的思路如下: 1.socket协议的简介 2.介绍 ...
.net之工作流工程展示及代码分享（三）数据存储引擎
数据存储引擎是本项目里比较有特色的模块. 特色一,使用接口来对应不同的数据库.数据库可以是Oracle.Sqlserver.MogoDB.甚至是XML文件.采用接口进行对应: public inter ...

[Python]实现简单决策树

[Python]实现简单决策树的更多相关文章

随机推荐

热门专题