什么是决策树？

　　决策树是一种基本的分类与回归方法。其主要有点事模型具有可得性，分类速度快。学习时，利用训练数据，根据损失函数最小化原则建立决策树模型；预测时，对新数据，利用决策树模型进行分类。

　决策树学习通常包含以下三个步骤：

　　选择特征
　　决策树生成
　　剪枝

　决策树的改进路线：

　　ID3--->C4.5--->CART

　　（1）其中ID3是基于信息增益来选择划分属性

　　（2）C4.5不直接使用增益率来选择划分属性，而是使用了一个启发式：先从候选划分属性中选取信息增益高于平局水平的属性，再从中选择增益率最高的。

　　（3）CART（Classification and Regression Tree）算法使用基尼系数来代替信息增益比。

　信息

　　这个是熵和信息增益的基础概念，是对一个抽象事物的命名，无论用不用‘信息’来命名这种抽象事物，或者用其他名称来命名这种抽象事物，这种抽象事物是客观存在的。如果带分类的事物集合可以划分为多个类别当中，则某个类（xi）的信息（量）定义如下：

　　I(x)用来表示随机变量的信息，p(xi)指是当xi发生时的概率。当事件xi发生的概率p(xi)很小，但是它却发生了，那这个信息量相当大，比如买彩票中奖了，那么这个信息量肯定是很大的。相反，对于大概率事件，人们习以为常，那么这个事件的信息量就很小。这就体现在上述公式中。

　信息熵

　　“信息熵”是度量样本纯度最常用的一种指标。所谓样本纯度，相反而言之就是凌乱程度。如一个数据集U中的样本都属于同一类，那么这时样本纯度最高而凌乱程度最低。信息熵定义为：

　　其中D表示样本集合，|y|样本中类别的数目， pk表示第k种分类占集合的比例。Ent(D)的值越小，D的纯度越高。

　信息增益

　　信息增益指的是，使用某一个属性a进行划分后，所带来的纯度提高的大小。一般而言，信息增益越大，意味着使用属性a来进行划分所获得的“纯度提升”越大。信息增益定义如下：　　

　　即

　　信息增益 = 根节点的信息熵 - 所有分支节点的信息熵的加权和

　　其中，权值为划分后属性a=ak节点中样本的数量与划分前节点中的样本数量的比值，即概率。概率确保了权重的和为1.

　　　　　　上图描述的是，使用属性a对样本集合D进行划分，因为a有V个取值，因此决策树会有V个分支。划分后每一个节点中样本的数量为属性a=ak的样本的数量。

　　　　问：如何理解：信息增益越大，意味着使用属性a来进行划分所获得的“纯度提升”越大?

　　　　答：因为Ent(D)的值越小，D的纯度越高。而划分后，所有的分支节点的Ent(Dk)的和就是划分后的信息熵，公式体现了前后的差距，如果差距越大，那么就说明划分后所有的分支节点的信息熵越小，纯度提升越大。

　增益率

　　背景：当样本集中的某一属性取值使得所有样本被分到不同类别，此时分支的纯度达到最高，无需再继续划分。然而这样的决策树不具备泛化能力。事实上，信息增益准则对可取值较多的属性有所偏好。

　　为了减少这种偏好可能带来的影响，因此使用增益率代替信息增益准则选择划分属性。

　　即增益率(Gain_ratio(D,a))=信息增益Gain(D,a)/属性固有值(IV(a))。
　　属性A的可能取值越大，固有值IV(a)通常越大。
　　信息增益率偏向于可能取值减少的属性。因此C4.5算法不直接使用信息增益率来选择划分属性。

　基尼值

　　基尼值 Gini(D) 反映了从数据集中随机抽取两个样本，其类别标记不一致的概率。当数据集的纯度越高，每次抽到不同类别标记的概率越小。打个比方，在一个袋子里装100个乒乓球，其中有99个白球，1个黄球，那么当我们随机抽取两个球的时候，很大概率是抽到两个白球。

　　所以数据集D的纯度可以用基尼值类度量，其定义如下：

　　基尼值越小，数据集D纯度越高。

　基尼指数

　　基尼指数是针对于属性定义的，其反映的是，使用属性a进行划分后，所有分支中（使用基尼值度量的）纯度的加权和。

　　属性a的基尼指数定义如下：

　　我们在属性集合A中选择划分属性的时候，就选择使得划分后基尼指数最小的属性作为最优划分属性。CART就是用基尼指数来选择划分属性的。

　决策树的剪枝处理

　　剪枝是决策树学习算法解决过拟合的主要手段。在决策树的学习过程中，为了尽可能地正确分类训练样本，节点划分得不断重复，有时候会造成决策树的分支过多，，这时候就是算法在训练样本上学得太好，导致把训练集本身的一些特点作为所有数据所有数据都有的一般性质（实际上新数据中可能没有这些特点），从而导致过拟合。因此可以主动去掉一些分支来降低过拟合的风险。

　　决策树的剪枝分为预剪枝和后剪枝。

决策树学习笔记（Decision Tree）的更多相关文章

OpenCV码源笔记——Decision Tree决策树
来自OpenCV2.3.1 sample/c/mushroom.cpp 1.首先读入agaricus-lepiota.data的训练样本. 样本中第一项是e或p代表有毒或无毒的标志位:其他是特征,可以 ...
Extjs学习笔记--Ext.tree.Panel
Ext.create('Ext.tree.Panel', { title: 'Simple Tree', width: 200, height: 150, store: store, rootVisi ...
[学习笔记] Splay Tree 从入门到放弃
前几天由于出行计划没有更博QwQ (其实是因为调试死活调不出来了TAT我好菜啊) 伸展树伸展树(英语:Splay Tree)是一种二叉查找树,它能在O(log n)内完成插入.查找和删除操作.它是由 ...
[学习笔记]K-D Tree
以前其实学过的但是不会拍扁重构--所以这几天学了一下 \(K-D\ Tree\) 的正确打开姿势. \(K\) 维 \(K-D\ Tree\) 的单次操作最坏时间复杂度为 \(O(k\times n^ ...
[学习笔记]Link-Cut Tree
我终于理解了 \(LCT\)!!!想不到小蒟蒻有一天理解了!!! 1.[模板]Link Cut Tree 存个板子 #include <bits/stdc++.h> using names ...
openerp学习笔记视图(tree\form)中隐藏按钮( 创建、编辑、删除 )，tree视图中启用编辑
视图(tree\form)中隐藏按钮( 创建.编辑.删除 )create="false" edit="false" delete="false&quo ...
[学习笔记]Segment Tree Beats!九老师线段树
对于这样一类问题: 区间取min,区间求和. N<=100000 要求O(nlogn)级别的算法直观体会一下,区间取min,还要维护区间和增加的长度很不好求.... 然鹅, 从前有一个来自杭 ...
EasyUI学习笔记(1)----Tree控件实现过程中.NET下无法访问json数据的解决办法
直接调用官网的Demo中的方法 , 将json数据存储在同目录下,但是在运行之后树没有出现,用FireBug调试,错误如下不允许访问json数据,刚开始以为是权限不够,然后又给解决方案所在的文件夹设 ...
决策树（decision tree）
决策树是一种常见的机器学习模型.形象地说,决策树对应着我们直观上做决策的过程:经由一系列判断,得到最终决策.由此,我们引出决策树模型. 一.决策树的基本流程决策树的跟节点包含全部样例,叶节点则对应决 ...

随机推荐

[Nginx]单机环境的多应用配置
# 服务层 # https://github.com/farwish/alconservice # alconservice.conf server { listen 8090; root /home ...
Python随笔，day1
#python中不存在单个字符的运算,只有字符串函数 >>> s="www.google.com" >>> s 'www.google.com' ...
iOS UITableView左滑操作功能的实现（iOS8-11）
WeTest 导读本文主要是介绍下iOS 11系统及iOS 11之前的系统在实现左滑操作功能上的区别,及如何自定义左滑的标题颜色.字体大小. 一.左滑操作功能实现 1.如果左滑的时候只有一个操作按钮 ...
selenium的使用技巧及集成到scrapy
为了爬取拉钩,今天学习了selenum的使用技巧. from scrapy.http import HtmlResponse class JSPageMiddleware(object): ...
Linux下使用skipfish扫描网站漏洞步骤
skipfish是谷歌开发的网站安全扫描工具. 下载地址:http://pan.baidu.com/s/1kTC66lL svn更新地址(一般链接不上,网速很慢): http://skipfish.g ...
hdu 4609 3-idiots [fft 生成函数计数]
hdu 4609 3-idiots 题意: 给出\(A_i\),问随机选择一个三元子集,选择的数字构成三角形的三边长的概率. 一开始一直想直接做.... 先生成函数求选两个的方案(注意要减去两次选择同 ...
BZOJ 1426: 收集邮票 [DP 期望平方]
传送门题意: 有n种不同的邮票,皮皮想收集所有种类的邮票.唯一的收集方法是到同学凡凡那里购买,每次只能买一张,并且买到的邮票究竟是n种邮票中的哪一种是等概率的,概率均为1/n.但是由于凡凡也很喜欢邮 ...
Zabbix的网络发现
Zabbix的网络发现 Zabbix的网络发现功能,可以让我们发现网络中的主机或者服务,并在发现该设备后做出相应的操作; 它可以用HTTP.ICMP.SSH.LDAP.TCP.SNMP.Telne ...
PHP基础点滴
PHP基础点滴双冒号::的用法: 双冒号操作符即作用域限定操作符Scope Resolution Operator可以访问静态.const和类中重写的属性与方法. 伪类型(pseudo-types) ...
2个域名重定向到https域名
配置实例: [root@iZbp17q09o7e8pgg9dybd7Z conf.d]# cat company.confserver { listen 80; server_name www.yu* ...

决策树学习笔记（Decision Tree）

什么是决策树？

决策树学习通常包含以下三个步骤：

决策树的改进路线：

信息

信息熵

信息增益

增益率

基尼值

基尼指数

决策树的剪枝处理

决策树学习笔记（Decision Tree）的更多相关文章

随机推荐

热门专题

　什么是决策树？

　决策树学习通常包含以下三个步骤：

　决策树的改进路线：

　信息

　信息熵

　信息增益

　增益率

　基尼值

　基尼指数

　决策树的剪枝处理