python 机器学习决策树

决策树（Decision Trees ，DTs）是一种无监督的学习方法，用于分类和回归。

优点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关的特征数据
缺点：可能会产生过度匹配的问题
适用数据类型：数值型和标称型　　source code下载　　https://www.manning.com/books/machine-learning-in-action

运行demo　　　　重要参考学习：http://blog.csdn.net/dream_angel_z/article/details/45965463

关键代码

if so return 类标签;

else

　　寻找划分数据集的最好特征
　　划分数据集
　　创建分支节点
　　for 每个分支节点
　　　　调用函数createBranch并增加返回结果到分支节点中
return 分支节点

对应代码

def createTree(dataSet,labels):
　　classList = [example[-1] for example in dataSet] 不是dataset[-1] ｛dataset倒数第一元素｝，而这时里，dataset每一个元素里的倒数第一元素
　　if classList.count(classList[0]) == len(classList): 如果返回分类List count类型一样，则返回该类型！
　　　　return classList[0]#stop splitting when all of the classes are equal
　　if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet 如果只有一个元素
　　　　return majorityCnt(classList)
　　bestFeat = chooseBestFeatureToSplit(dataSet) 选择最好的特殊索引
　　bestFeatLabel = labels[bestFeat] 而得到这个label flippers 还是 no surfaces 呢
　　myTree = {bestFeatLabel:{}} 然后创建该最好的分类的子树
　　del(labels[bestFeat]) 删除了该最好分类
　　featValues = [example[bestFeat] for example in dataSet]
　　uniqueVals = set(featValues)
　　for value in uniqueVals:
　　　　subLabels = labels[:] #copy all of labels, so trees don't mess up existing labels
　　　　myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
　　return myTree

在子节点是否可分类决定递归如是一类型则递归往下分类
检测数据集的每个子项是否属于同一类：如果值都是a，而result都是y/n 则为一类所以，是两个参数输入
看代码看不懂，不明白到底是要做什么！分类，我们把一堆数据分类，以label来标签上。
像k邻近 classify([0, 0], group, labels, 3) 意思是，把新数据[0,0] 按k=3的邻近算法在 group,labels数据里的分类！ group与label对应！

数据的意思是条个维度的值而最后一个是是否为 fish的，结果标签
所以，如果是我分，是要把每个维度切出来 + 结果标签成二维的一列数组，去比较分类

测试应该是，把前n个维量的值，向量输入，输出是yes or no!

一开始看，比较头晕，条理清楚，理顺下思路，看代码才易懂！
理解了目标和初始数据，你才明白，原来classList是结果标签！，是对应将要分类的dataset的对应结果标签
而labels 则是特征名，对应开始的dataset的维度，特征的名strname
bestFeatLabel 最好分类特征的维度名是第一维度还是第二，第N
featValues 是bestFeatLabel 的维度下，的值数组。就是这一维度下的组用来做新的分类比较。
uniqueVals 用set判断来是否一类，
比如
dataSet = [[1, 1, 'yes'],
[0, 1, 'yes'],
[1, 0, 'no'],
[1, 0, 'no'],
[0, 0, 'no']]
labels = ['no surfacing','flippers',]
这样的createTree :{'flippers': {0: 'no', 1: 'yes'}} 直接把no surfacing的维度省略了

在划分数据集之前之后信息发生的变化称为信息增益。

uniqueVals = set(featList) set是归类，看只有多少种类

calcShannonEnt <class 'list'>: [[1, 'no'], [1, 'no']] = 0 >> * 0.4 = 0 为什么是0
log(prob,2) log(1,2) = 0;2^0=1,prob <1 log Value <0
<class 'list'>: [[1, 'yes'], [1, 'yes'], [0, 'no']] = 0.91 >> * 0.6 = 0.55
25行 for featVec in dataSet: 计频 for prop

0.9709505944546686 = calcShannonEnt(dataSet) <class 'list'>: [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

0.5509775004326937 = += prob * calcShannonEnt(subDataSet) 分开的子集后，的概率*香农滴，得到的和，原来的整体的香浓滴比

0.4199730940219749 infoGain = baseEntropy - newEntropy

python 机器学习决策树的更多相关文章

Python机器学习基础教程-第2章-监督学习之决策树集成
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
Python机器学习基础教程-第2章-监督学习之决策树
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
【Python机器学习实战】决策树和集成学习（一）
摘要:本部分对决策树几种算法的原理及算法过程进行简要介绍,然后编写程序实现决策树算法,再根据Python自带机器学习包实现决策树算法,最后从决策树引申至集成学习相关内容. 1.决策树决策树作为一种常 ...
[Python] 机器学习库资料汇总
声明:以下内容转载自平行宇宙. Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: ...
[resource]Python机器学习库
reference: http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域,有两个重要的扩展模块: ...
python机器学习实战（二）
python机器学习实战(二) 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7159775.html 前言这篇noteboo ...
python机器学习工具包
1. scikit-learn: Machine Learning in Python scikit-learn是一个基于NumPy, SciPy, Matplotlib的开源机器学习工具包,主要涵盖 ...
Python机器学习中文版
Python机器学习简介第一章让计算机从数据中学习将数据转化为知识三类机器学习算法第二章训练机器学习分类算法透过人工神经元一窥早期机器学习历史使用Python实现感知机算法基于Iri ...
Python机器学习中文版目录
建议Ctrl+D保存到收藏夹,方便随时查看人工智能(AI)学习资料库 Python机器学习简介第一章让计算机从数据中学习将数据转化为知识三类机器学习算法第二章训练机器学习分类算法透过人 ...

随机推荐

笔记：Ubuntu 上的Testlink 部署
1.安装apache2 sudo apt-get install apache2 2. sudo /etc/init.d/apache2 restart 测试: Http:\localhost or ...
远程控制TOMCAT启动
远程控制TOMCAT启动 1.在tomcat/conf/tomcat-users.xml中配置好管理员帐号和密码. 2.在浏览器中输入:http://你的ip/manager/list. ...
WinForm 控件（下）
10.PictureBox 外观,Image可以选择图片路径行为,SizeMode可以设置图片大小布局方式 11.Imagelist--图片集 imageList1.Images[n]; 12.not ...
TV端：通过遥控器的点击实现图片的上下左右抖动的效果
做TV端有一段时间了,我看到别的TV上有一个通过遥控器的触摸板来控制一张图片的相应方向的抖动,感觉听新奇的,就试着做了一个分享一下: 转载注明出处:http://www.cnblogs.com/hyy ...
使用rsync+inotify-tools+ssh实现文件实时同步
假设某服务器架构中有两台web服务器(IP为192.168.1.252和192.168.1.254),一台代码更新发布服务器(IP为192.168.1.251),需要同步的目录是/data/www/, ...
使用阿里云的Maven仓库加速Spark编译过程
前言在国内编译Spark项目需要从Maven源下载很多依赖包,官方源在国内大环境下的下载速度大家都懂得,那个煎熬啊,简直是浪费生命. 如果你的下载速度很快,你现在就可以无视这篇文章了. 阿里云给国内 ...
My97DatePicker.js 之无效日期设置
1.下载并引用My97DatePicker.js 2.将工作日休假的和周末上班的维护到数据库中 3.取出某段时间内的不上班日期集合 /// <summary> ///获取无效日期集合 1 ...
jvm的内存空间分区
在方法(代码块)中定义一个变量时,java就在栈中为这个变量分配JVM内存空间,当超过变量的作用域后,java会自动释放掉为该变量所分配的JVM内存空间:而在堆中分配的JVM内存由java虚拟机的自动 ...
原生js实现轮播图
原生js实现轮播图很多网站上都有轮播图,但找到一个系统讲解的却很难,因此这里做一个简单的介绍,希望大家都能有所收获,如果有哪些不正确的地方,希望大家可以指出. 原理: 将一些图片在一行中平铺,然后计 ...
H5中背景音乐无法自动播放问题
苹果禁止了Autoplay和JS "onload" 加载播放,使在html文件里使用了preload和autoplay属性,在移动版 Safari 上,此属性会被忽视,并且不会加载 ...

python 机器学习 决策树

python 机器学习 决策树的更多相关文章

随机推荐

热门专题

python 机器学习决策树

python 机器学习决策树的更多相关文章