【3】Decision tree（决策树）

前言

Decision tree is one of the most popular classification tools

它用一个训练数据集学到一个映射，该映射以未知类别的新实例作为输入，输出对这个实例类别的预测。

决策树相当于将一系列问题组织成树，具体说，每个问题对应一个属性，根据属性值来生成判断分支，一直到决策树的叶节点就产生了类别。

那么，接下来的问题就是怎么选择最佳的属性作为当前的判断分支，这就引出了用信息论划分数据集的方式。

在信息论中，划分数据之前和之后信息发生的信息变化成为信息增益。

本文主要介绍的决策树算法是ID3，它的核心是将获得信息增益最高的特征作为最好的选择。

他和C4.5算法不同的是C4.5算法使用的是信息增益比最高的特征作为最好的选择。

本文参考书是《机器学习实战》

信息增益

信息论中每个符号x的信息量成为自信息，定义为：

其中

是选择该分类的概率。

熵（entropy）定义为信息的期望值，意思是每个符号的平均信息量，其公式为：

给定一个数据集，最后一列默认为类别标签的时候，根据数据集计算数据集的香农熵的代码如下：

#基于最后一列的分类标签，计算给定数据集的香农熵

def calcShannonEnt(dataset):

num_of_entries = len(dataset)

label_counts = {}

for feat_vec in dataset:

current_lebel = feat_vec[-1]

if current_lebel not in label_counts.keys():

label_counts[current_lebel] = 0

label_counts[current_lebel] += 1

shannonEnt = 0.0

for value in label_counts.values():

prob = float(value)/num_of_entries

shannonEnt -= prob*log(prob, 2)

return shannonEnt

要得到信息增益，我们还需要对每个特征划分数据集的结果计算一次信息熵。

所以首先如要划分数据集。按照给定特征的某个值把属于这个值的数据集部分划分出来，代码如下：

# =================================

# 按照给定特征划分数据集

# 输入：dataset数据集；

# axis指定特征，用下标表示；

# value需要返回的特征的值

# 返回：数据集中特征值等于value的子集

# =================================

def splitDataset(dataset, axis, value):

retDataset = []

for featVec in dataset:

if featVec[axis] == value:

reducedFeatVec = featVec[0:axis]

reducedFeatVec.extend(featVec[axis+1:])

retDataset.append(reducedFeatVec)

return retDataset

具体到这个算法来说，应该选择能使信息增益最大的特征作为数据集的划分方式。

信息增益等于原始数据集的熵减去某个特征所带来的信息熵。

计算某个特征的信息熵以及基于此选择最好的数据集划分方式的代码如下：

# ===============================================

# 输入：

# dataSet: 数据集

# 输出：

# bestFeature: 和原数据集熵差最大划分对应的特征的列号

# ===============================================

def chooseBestFeatureToSplit(dataSet):

# 最后一列用于标签，剩下的才是特征

numFeatures = len(dataSet[0]) - 1

# 根据标签计算的熵

baseEntropy = calcShannonEnt(dataSet)

bestInfoGain = 0.0; bestFeature = -1

# iterate over all the features

for i in range(numFeatures):

# 取出某个特征列的所有值

featList = [example[i] for example in dataSet]

# 去重

uniqueVals = set(featList)

newEntropy = 0.0

for value in uniqueVals:

subDataSet = splitDataset(dataSet, i, value)

prob = len(subDataSet)/float(len(dataSet))

newEntropy += prob * calcShannonEnt(subDataSet)

# calculate the info gain，计算信息增益

infoGain = baseEntropy - newEntropy

# 和目前最佳信息增益比较，如果更大则替换掉

if (infoGain > bestInfoGain):

bestInfoGain = infoGain

bestFeature = i

# 返回代表某个特征的下标

return bestFeature

用一下代码去测试：

#用于生成数据集，测试计算熵的函数

def testDataset():

dataset1 = [[1, 1, 'yes'],

[1, 1, 'yes'],

[1, 0, 'no'],

[0, 1, 'no'],

[0, 1, 'no']]

labels = ['no surfacing', 'flippers']

return dataset1, labels

# 用于测试的函数

def test():

mydata, labels = testDataset()

print chooseBestFeatureToSplit(mydata)

可得到如下结果：

结果表明，第0个特征是用来划分数据集最好的。

递归构建决策树

选择了一个特征进行划分之后，数据将被传递到树分支的下一个节点，在这个节点上，我们可以再次划分数据。

所以这是一个递归的过程。

递归结束的条件是：程序遍历完所有划分数据集的属性，或者每个分支下的所有势力都属于同一个分类。

在Python中可以使用字典来表示一棵树，例如这样的一棵树

可以用字典{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}表示

但是这里还可能出现另一种可能，就是所有用来划分数据集的属性全部用完之后，类别标签依然不是唯一的

这种情况我们采用少数服从多数来解决。所以我们需要一个找出多数类别的函数，如下：

# 传入分类名称组成的列表，返回出现次数最多的分类名称

import operator

def majorityCnt(class_list):

classCount = {}

for vote in class_list:

if vote not in classCount:

classCount[vote] = 0

classCount[vote] += 1

sorted_class_list = sorted(classCount.iteritems(),

key = operator.itemgetter(1),

reverse=True)

return sorted_class_list[0][0]

接下来是创建树的代码：

# ===============================================

# 本函数用于创建决策树

# 输入：

# dataSet: 数据集

# labels: 划分特征标签集

# 输出：

# myTree: 生成的决策树

# ===============================================

def createTree(dataSet, labels):

# 获得类别标签列表

classList = [example[-1] for example in dataSet]

# 递归终止条件一：如果数据集内所有分类一致

if classList.count(classList[0]) == len(classList):

return classList[0]

# 递归终止条件二：如果所有特征都划分完毕，任然不能将数据集划分成仅仅包含唯一类别的分组

if len(dataSet[0]) == 1: # 只剩下一列为类别列

return majorityCnt(classList) # 返回出现次数最多的类别

# 选择最佳划分特征，返回的时候特征的下标

best_feature = chooseBestFeatureToSplit(dataSet)

best_feat_label = labels[best_feature]

# 创建空树

myTree = {best_feat_label:{}}

# 删除划分后的特征标签

del(labels[best_feature])

# 获取最佳划分特征中全部的特征值

featValues = [example[best_feature] for example in dataSet]

# 去重

uniqueVals = set(featValues)

for value in uniqueVals:

subLabels = labels[:] # 保存用于下一次递归

myTree[best_feat_label][value] = createTree(splitDataset(dataSet, best_feature, value), subLabels)

return myTree

至此，决策树就算构造完成了。

测试一下效果：

序列化存储

由于决策树构造使用递归算法，如果数据集过大的话将会产生很大的开销。

所以构造好一个决策树我们可以把它保存起来，这样就不用每次使用都构造。

保存的方式使“序列化”，在Python中又叫“pickling”,它的反操作叫反序列化——“unpickling”。

任何对象都可以执行序列化操作。

本文中用于把树序列化的代码如下：

# 把传入的树序列化之后存入文件

def storeTree(inputTree, filename):

import pickle # 用于序列化的模块

fw = open(filename, 'w')

pickle.dump(inputTree, fw)

fw.close()

# 从文件中把存好的树反序列化出来

def grabTree(filename):

import pickle

fr = open(filename)

return pickle.load(filename)

来自为知笔记(Wiz)

【3】Decision tree（决策树）的更多相关文章

Decision tree(决策树)算法初探
0. 算法概述决策树(decision tree)是一种基本的分类与回归方法.决策树模型呈树形结构(二分类思想的算法模型往往都是树形结构) 0x1:决策树模型的不同角度理解在分类问题中,表示基于特 ...
decision tree 决策树（一）
一决策树原理:分类决策树模型是一种描述对实例进行分类的树形结构.决策树由结点(node)和有向边(directed edge)组成.结点有两种类型:内部结点(internal node)和叶结点( ...
Decision tree——决策树
基本流程决策树是通过分次判断样本属性来进行划分样本类别的机器学习模型.每个树的结点选择一个最优属性来进行样本的分流,最终将样本类别划分出来. 决策树的关键就是分流时最优属性$a$的选择.使用所谓信息 ...
OpenCV码源笔记——Decision Tree决策树
来自OpenCV2.3.1 sample/c/mushroom.cpp 1.首先读入agaricus-lepiota.data的训练样本. 样本中第一项是e或p代表有毒或无毒的标志位:其他是特征,可以 ...
决策树Decision Tree 及实现
Decision Tree 及实现标签: 决策树熵信息增益分类有监督 2014-03-17 12:12 15010人阅读评论(41) 收藏举报分类: Data Mining(25) Pyt ...
用于分类的决策树(Decision Tree)-ID3 C4.5
决策树(Decision Tree)是一种基本的分类与回归方法(ID3.C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归).决策树在分类过程中,表示的是基于特征对实例进行划分, ...
决策树（decision tree）
决策树是一种常见的机器学习模型.形象地说,决策树对应着我们直观上做决策的过程:经由一系列判断,得到最终决策.由此,我们引出决策树模型. 一.决策树的基本流程决策树的跟节点包含全部样例,叶节点则对应决 ...
（ZT）算法杂货铺——分类算法之决策树(Decision tree)
https://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html 3.1.摘要在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分 ...
决策树decision tree原理介绍_python sklearn建模_乳腺癌细胞分类器（推荐AAA）
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
[ML学习笔记] 决策树与随机森林（Decision Tree&Random Forest）
[ML学习笔记] 决策树与随机森林(Decision Tree&Random Forest) 决策树决策树算法以树状结构表示数据分类的结果.每个决策点实现一个具有离散输出的测试函数,记为分支 ...

随机推荐

mac下安装mongodb数据库教程
前言由于最近在学习node+express,学习到持久化存储章节需要连接mongodb数据库,然后之前也有试过安装mongodb但是失败了,这次就找了很多资料,终于安装完成了,故此记录下来安装步骤, ...
Linux打开网易云的问题
网易云需要ROOT权限启动,期间终端不能关闭退出,否则网易云音乐会自动退出. 终端输入:sudo netease-cloud-music &u
Go中的fmt几种输出的区别和格式化方式
在日常使用fmt包的过程中,各种眼花缭乱的print是否让你莫名的不知所措呢,更让你茫然的是各种格式化的占位符..简直就是噩梦.今天就让我们来征服格式化输出,做一个会输出的Goer. fmt.Prin ...
IPC机制1
1.Android IPC简介 Inter-Process Communication的缩写就是IPC,含义是进程间通信或是跨进程间通信,是指两个进程进行交换数据的过程. 进程是什么? 进程在pc上就 ...
什么时候使用redis？什么时候使用memcache？
要清楚为什么,redis具有高可用特性,并且可固化,但特性有时候不能成为选择他的理由,一些业务场景中并不需要这样的特性. 什么时候倾向于选择redis? 1.复杂数据结构 value是哈希,列表, ...
洛谷 P2158 [SDOI2008]仪仗队
题意简述给定一个n,求gcd(x, y) = 1(x, y <= n)的(x, y)个数题解思路欧拉函数, 则gcd(x, y) = 1(x <= y <= n)的个数 ans ...
Duilib的圆环形进度条实现（网易云信版本）
/** @file CircleProgress.h* @brief 圆环型进度条控件,圆环中间可以有文本(如85%)* @copyright (c) 2019-2022, NetEase Inc. ...
Unity进阶之ET网络游戏开发框架 02-ET的客户端启动流程分析
版权申明: 本文原创首发于以下网站: 博客园『优梦创客』的空间:https://www.cnblogs.com/raymondking123 优梦创客的官方博客:https://91make.top ...
ASP.NET Core on K8S深入学习（5）Rolling Update
本篇已加入<.NET Core on K8S学习实践系列文章索引>,可以点击查看更多容器化技术相关系列文章. 一.什么是Rolling Update? 为了服务升级过程中提供可持续的不中断 ...
Android 框架揭秘 --读书笔记
Android 框架揭秘 Insied the Android Framework

【3】Decision tree（决策树）

【3】Decision tree（决策树）的更多相关文章

随机推荐

热门专题