决策树purity/基尼系数/信息增益 Decision Trees

决策树简单描述
衡量purity的三种方法
- Gini Coefficient
- Entropy熵

决策树简单描述

决策树的样子大概是这个样子的：

选择一个特征作为根节点，把这个特征划分成两个孩子节点，每个孩子节点就是原始数据集的子集，然后再找一个特征作为划分……

划分的好坏，如图所示：

用纯度Purity来衡量划分的效果，如果划分的好，那么每一个子集都是某一类占据大多数，如果每一个子集都是跟父节点一样的状态，那么就是Low purity。

一个好的划分要满足下面两个特点：

划分是High purity
划分产生的两个子节点的样本数量相近，避免产生非常小的子集。

决策树的终止条件：

树的深度到达一定条件；
每一个节点中的样本数量到达一个下线
不会再有划分，可以增加节点的purity了

衡量purity的三种方法

有不同的衡量purity的方法，不同的衡量方法会导致不同的分裂。

Gini Coefficient

Pr(k)是一个样本属于类别K的概率；
C就是类别的总数

GINI系数的计算方法：

Entropy熵

可以看出来，GINI系数是类别的概率乘上类别的概率，而熵是类别的概率呈上类别概率的logarithm

GINI的取值范围是0.5~1，越大越purity；
Entropy的取值范围是0~1，越小越purity

介绍完了熵，那么什么是信息增益：

是要最大化的信息增益：

因为Entropy取值范围是0就purity，所以information gain越大，那么说明分割的purity越好。

看一下Entropy的计算方法：

决策树purity/基尼系数/信息增益 Decision Trees的更多相关文章

海量数据挖掘MMDS week6: 决策树Decision Trees
http://blog.csdn.net/pipisorry/article/details/49445465 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
Decision Trees 决策树
Decision Trees (DT)是用于分类和回归的非参数监督学习方法. 目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值. 例如,在下面的例子中,决策树从数据中学习用 ...
Facebook Gradient boosting 梯度提升 separate the positive and negative labeled points using a single line 梯度提升决策树 Gradient Boosted Decision Trees (GBDT)
https://www.quora.com/Why-do-people-use-gradient-boosted-decision-trees-to-do-feature-transform Why ...
CatBoost使用GPU实现决策树的快速梯度提升CatBoost Enables Fast Gradient Boosting on Decision Trees Using GPUs
python机器学习-乳腺癌细胞挖掘(博主亲自录制视频)https://study.163.com/course/introduction.htm?courseId=1005269003&ut ...
Logistic Regression vs Decision Trees vs SVM: Part II
This is the 2nd part of the series. Read the first part here: Logistic Regression Vs Decision Trees ...
Logistic Regression Vs Decision Trees Vs SVM: Part I
Classification is one of the major problems that we solve while working on standard business problem ...
Machine Learning Methods: Decision trees and forests
Machine Learning Methods: Decision trees and forests This post contains our crib notes on the basics ...
壁虎书6 Decision Trees
Decision Trees are versatile Machine Learning algorithms that can perform both classification and re ...
机器学习算法 --- Pruning (decision trees) & Random Forest Algorithm
一.Table for Content 在之前的文章中我们介绍了Decision Trees Agorithms,然而这个学习算法有一个很大的弊端,就是很容易出现Overfitting,为了解决此问题 ...

随机推荐

Linux发送邮件命令mail，mutt
邮件常常是Linux下监控报警手段之一.Linux下的mail命令可以方便,快速的完成发送邮件. 1. Linux发邮件2种常见客户端命令 1.1 mail命令(推荐) 语法: 无邮件正文 mail ...
【Linux题目】第六关
[定时任务规则] 1. 如果在某用户的crontab文件中有以下记录,该行中的命令多久执行一次(RHCE考试题)?( ) 30 4 * * 3 mycmd A. 每小时. B. 每周. C. 每年三月 ...
【Linux网络基础】上网原理流程
1. 局域网用户上网原理上网过程说明: 确保物理设备和线路架构准备完毕,并且线路通讯状态良好终端设备需要获取或配置上局域网(私有地址)地址,作为局域网网络标识当终端设备想上网时,首先确认访问的地 ...
瑞银预计小扎的十年规划可获大回报上调Facebook股票目标价
瑞银认为马克·扎克伯格(Mark Zuckerberg)为Facebook定制的十年规划将带来丰厚回报,它已将Facebook股票的目标价由之前的155美元上调至165美元. Facebook首席执行 ...
外媒解读Web安全核心PKI的四大致命问题
Web安全的立足根基在于复杂的PKI部署体系,但实际生活中得到正确部署的比例却非常有限,而且这一切都将随着摩尔定律的滚滚洪流灰飞烟灭. 我个人算是PKI(即公共密钥基础设施)的忠实拥护者.我热爱数学与 ...
Jenkins+Jmeter+Ant 生成测试报告
<?xml version="1.0" encoding="UTF-8"?> <project name="wms_test&quo ...
NodeJS实现websocket代理机制
使用的模块 ws http http-proxy 主要通过htt-proxy实现中转启动websocket服务 var WebSocketServer = require('ws').Server; ...
USACO 2.1 海明码 Hamming Codes （模拟+位运算+黑科技__builtin_popcount（n））
题目描述给出 N,B 和 D,要求找出 N 个由0或1组成的编码(1 <= N <= 64),每个编码有 B 位(1 <= B <= 8),使得两两编码之间至少有 D 个单位 ...
linux命令之df dh
df -h, --human-readable 查看磁盘空间占用情况 df -h du -h, --human-readable -s, --summarize 查看文件大小 du -h test.t ...
第五章：深入Python的dict和set
第五章:深入Python的dict和set 课程:Python3高级核心技术 5.1 dict的abc继承关系 class Mapping(Collection): __slots__ = () &q ...