决策树之ID3算法实现(python)

决策树的概念其实不难理解，下面一张图是某女生相亲时用到的决策树：

基本上可以理解为：一堆数据，附带若干属性，每一条记录最后都有一个分类（见或者不见），然后根据每种属性可以进行划分（比如年龄是>30还是<=30）,这样构造出来的一棵树就是我们所谓的决策树了，决策的规则都在节点上，通俗易懂，分类效果好。

那为什么跟节点要用年龄，而不是长相？这里我们在实现决策树的时候采用的是ID3算法，在选择哪个属性作为节点的时候采用信息论原理，所谓的信息增益。信息增益指原有数据集的熵-按某个属性分类后数据集的熵。信息增益越大越好（说明按某个属性分类后比较纯），我们会选择使得信息增益最大的那个属性作为当层节点的标记，再进行递归构造决策树。

首先我们构造数据集：

def createDataSet():

	dataSet = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]

	features = ['no surfacing','flippers']

	return dataSet,features

构造决策树：（采用python字典来递归构造，一些代码看看就能看懂）

def treeGrowth(dataSet,features):

	classList = [example[-1] for example in dataSet]

	if classList.count(classList[0])==len(classList):

		return classList[0]

	if len(dataSet[0])==1:# no more features

		return classify(classList)

	bestFeat = findBestSplit(dataSet)#bestFeat is the index of best feature

	bestFeatLabel = features[bestFeat]

	myTree = {bestFeatLabel:{}}

	featValues = [example[bestFeat] for example in dataSet]

	uniqueFeatValues = set(featValues)

	del (features[bestFeat])

	for values in uniqueFeatValues:

		subDataSet = splitDataSet(dataSet,bestFeat,values)

		myTree[bestFeatLabel][values] = treeGrowth(subDataSet,features)

	return myTree

当没有多余的feature，但是剩下的样本不完全是一样的类别是，采用出现次数多的那个类别：

def classify(classList):

	'''

	find the most in the set

	'''

	classCount = {}

	for vote in classList:

		if vote not in classCount.keys():

			classCount[vote] = 0

		classCount[vote] += 1

	sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse = True)

	return sortedClassCount[0][0]

寻找用于分裂的最佳属性：（遍历所有属性，算信息增益）

def findBestSplit(dataset):

	numFeatures = len(dataset[0])-1

	baseEntropy = calcShannonEnt(dataset)

	bestInfoGain = 0.0

	bestFeat = -1

	for i in range(numFeatures):

		featValues = [example[i] for example in dataset]

		uniqueFeatValues = set(featValues)

		newEntropy = 0.0

		for val in uniqueFeatValues:

			subDataSet = splitDataSet(dataset,i,val)

			prob = len(subDataSet)/float(len(dataset))

			newEntropy += prob*calcShannonEnt(subDataSet)

		if(baseEntropy - newEntropy)>bestInfoGain:

			bestInfoGain = baseEntropy - newEntropy

			bestFeat = i

	return bestFeat

选择完分裂属性后，就行数据集的分裂：

def splitDataSet(dataset,feat,values):

	retDataSet = []

	for featVec in dataset:

		if featVec[feat] == values:

			reducedFeatVec = featVec[:feat]

			reducedFeatVec.extend(featVec[feat+1:])

			retDataSet.append(reducedFeatVec)

	return retDataSet

计算数据集的熵：

def calcShannonEnt(dataset):

	numEntries = len(dataset)

	labelCounts = {}

	for featVec in dataset:

		currentLabel = featVec[-1]

		if currentLabel not in labelCounts.keys():

			labelCounts[currentLabel] = 0

		labelCounts[currentLabel] += 1

	shannonEnt = 0.0

	for key in labelCounts:

		prob = float(labelCounts[key])/numEntries

		if prob != 0:

			shannonEnt -= prob*log(prob,2)

	return shannonEnt

下面根据上面构造的决策树进行数据的分类：

def predict(tree,newObject):

	while isinstance(tree,dict):

		key = tree.keys()[0]

		tree = tree[key][newObject[key]]

	return tree

if __name__ == '__main__':

	dataset,features = createDataSet()

	tree = treeGrowth(dataset,features)

	print tree

	print predict(tree,{'no surfacing':1,'flippers':1})

	print predict(tree,{'no surfacing':1,'flippers':0})

	print predict(tree,{'no surfacing':0,'flippers':1})

	print predict(tree,{'no surfacing':0,'flippers':0})

结果如下：

决策树是这样的：

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

四个预测：

yes
no
no
no

和给定的数据集分类一样（预测的数据是从给定数据集里面抽取的，当然一般数据多的话，会拿一部分做训练数据，剩余的做测试数据）

归纳一下ID3的优缺点：

优点：实现比较简单，产生的规则如果用图表示出来的话，清晰易懂，分类效果好

缺点：只能处理属性值离散的情况（连续的用C4.5），在选择最佳分离属性的时候容易选择那些属性值多的一些属性。

决策树之ID3算法实现(python)的更多相关文章

机器学习之决策树(ID3)算法与Python实现
机器学习之决策树(ID3)算法与Python实现机器学习中,决策树是一个预测模型:他代表的是对象属性与对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 ...
【Machine Learning】决策树之ID3算法（2）
决策树之ID3算法 Content 1.ID3概念 2.信息熵 3.信息增益 Information Gain 4. ID3 bias 5. Python算法实现(待定) 一.ID3概念 ID3算法最 ...
决策树之ID3算法
一.决策树之ID3算法简述 1976年-1986年,J.R.Quinlan给出ID3算法原型并进行了总结,确定了决策树学习的理论.这可以看做是决策树算法的起点.1993,Quinlan将ID3算法改进 ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
鹅厂优文 | 决策树及ID3算法学习
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~. 作者:袁明凯|腾讯IEG测试开发工程师决策树的基础概念决策树是一种用树形结构来辅助行为研究.决策分析以及机器学习的方式,是机器学习中的 ...
【Machine Learning·机器学习】决策树之ID3算法(Iterative Dichotomiser 3)
目录 1.什么是决策树 2.如何构造一棵决策树? 2.1.基本方法 2.2.评价标准是什么/如何量化评价一个特征的好坏? 2.3.信息熵.信息增益的计算 2.4.决策树构建方法 3.算法总结 @ 1. ...
简单易学的机器学习算法——决策树之ID3算法
一.决策树分类算法概述决策树算法是从数据的属性(或者特征)出发,以属性作为基础,划分不同的类.例如对于如下数据集 (数据集) 其中,第一列和第二列为属性(特征),最后一列为类别标签,1表示是 ...
机器学习-决策树之ID3算法
概述决策树(Decision Tree)是一种非参数的有监督学习方法,它是一种树形结构,所以叫决策树.它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回 ...
[置顶] ID3算法的python实现
这篇文章的内容接着http://blog.csdn.net/xueyunf/article/details/9214727的内容,所有还有部分函数在http://blog.csdn.net/xueyu ...

随机推荐

单片微机原理P4：80C51串口与串行总线拓展
0. 串口通讯 0. 串口通讯的数据传输方式:单工(单向传输数据),半双工(非同时双向传输),全双工(同时,双向传输) 1. 根据通信方式的不同又分为同步通讯和异步通讯. 同步通讯:所有设备都使用同一 ...
WPF 控件之ComboBox绑定[2]
最近感觉新的方法Binding comboBox用起来很好用. 记录一下: <ComboBox Grid.Row=" x:Name="cboFamilyName" ...
Http（get，post）及HttpClient（get，post）的简单使用
1. 使用 Http 的 Get 方式读取网络数据 import java.io.BufferedReader; import java.io.IOException; import java.io. ...
对easyui datagrid进行扩展，当滚动条拉直最下面就异步加载数据。
以下方法是通用的,只要把datagrid定义为全局的即可,其他部分的代码不用进行修改! 可以把以下代码放入到一个单独的js文件,然后再需要的页面引入即可! $(function(){ try{ $(& ...
AAM（Active Appearance Model）算法介绍
前面介绍ASM算法(http://blog.csdn.net/carson2005/article/details/8194317)的时候,笔者提到,ASM是基于统计形状模型的基础上进行的,而AAM则 ...
[MVC4-基礎] 連動DropDownList - 使用jQuery、JSON
剛開始學MVC4,以下是一些基礎的學習筆記! 先展示一下結果: 1.選擇申請部門 2.選好後申請部門鎖住防止USER修改並載入該部門所擁有的設備類型一.資料庫 dept mf_fx 二.View ( ...
SDWebImage实现原理详解
1)当需要获取网络图片的时候,我们首先需要的便是URL,如果没有URL什么都没有,获得URL后,SDWebImage实现的并不是直接去请求网路,而是检查图片缓存中有没有和URL相关的图片,如果有则直接 ...
宏定义中使用do{}while(0)的好处（转载）
宏定义中使用do{}while(0)的好处 #define MACRO_NAME(para) do{macro content}while(0) 的格式,总结了以下几个原因: 1,空的宏定 ...
ognl.NoSuchPropertyException(没有对应属性异常)
ognl.NoSuchPropertyException: com.xie.struts2.tags.modal.Student.sName(没有对应属性异常) at ognl.ObjectPrope ...
遍历json的方式
var obj = eval("(" + data + ")"); for(var key in obj) { alert(obj[key]); }

决策树之ID3算法实现(python)

决策树之ID3算法实现(python)的更多相关文章

随机推荐

热门专题