ID3\C4.5\CART

树模型原理
- ID3
- C4.5
- CART
  - 分类树
  - 回归树
树创建

	ID3	C4.5	CART
特征选择	信息增益	信息增益比	基尼不纯度
连续值处理	只能处理离散值	二分	二分
树形式	多叉	多叉	二叉树
剪枝	无	有	有
适用问题	分类	分类	分类/回归

关于特征选择方式与熵？

熵反映了信息量大小（混乱程度），熵越大信息量越大。我们的目标是熵减少方向

树模型原理

ID3

（1）计算数据集D 的经验熵 H(D)

\[H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|}
\]

\(K\) 表示数据类别，\(C_k\) 表示第 \(k\) 类样本的个数

（2）计算特征 A 对数据集 D 的经验条件熵 \(H(D | A)\)

\[H(D | A)=\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} H\left(D_{i}\right)=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{D |} \sum_{k=1}^{K} \frac{\left|D_{k}\right|}{\left|D_{i}\right|} \log _{2} \frac{\left|D_{k}\right|}{\left|D_{i}\right|}
\]

\(D_i\) 表示根据特征 \(A\) 划分后的数据子集

（3）计算信息增益

\[g(D, A)=H(D)-H(D | A)
\]

C4.5

信息增益比

\[\begin{array}{c}
H_A(D)=-\sum_{j=1}^{n} \frac{N\left(D_{j}\right)}{N(D)} \log \left(\frac{N\left(D_{j}\right)}{N(D)}\right) \\
g_r(D,A)=\frac{g(D,A)}{H_A(D)}
\end{array}
\]

其中 n表示特征 A取值的个数

CART

分类树

基尼不纯度（gini impurity）

\[gini(p) = \sum_{i=1}^Kp_k(1-p_k)=1-\sum_{i=1}^Kp_k^2
\]

\(p_k\) 表示两个第 k类样本的数量比。

基尼不纯度的\((1-p_k)\) 相当于信息熵中log项的泰勒展开

根据特征 A的取值a划分两个子集（二叉）

\[gini(D) = 1-\sum^K_{i=1}(\frac{|C_k|}{|D|})^2 \\
gini(D,A) = \frac{|D_1|}{|D|}gini(D_1)+\frac{|D_2|}{|D|}gini(D_2)\\
D_1 = \{(x,y)\in D | A(x)=a\},D_2 = D-D-1
\]

回归树

回归树如何选择节点分裂方式？

使用平方误差 \(\sum(y_i - f(x_i))^2\)
树模型怎么得到平方误差呢？

根据叶子节点值作为作为输出。将输入空间划分为多个单元，每个单元有一个固定输出值（对应输入空间输出值的平均）
具体怎么划分？

类似分类树，根据划分前后的误差选取。选取切分变量和切分点（特征及特征取值）

回归树构建流程：

选择切分变量j和切分点s，划分子区域：

\[R_1(j,s) = \{x|x^{(j)} \leq s\},\quad R_2(j,s) = \{x|x^{(j)} > s\}
\]
计算对应特征与特征值下的误差：

\[\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2 + \sum_{x_i\in R_2(j,s)}(y_i-c_2)^2
\]

其中 \(c_1 = ave(y_i|x_i\in R_1(j,s))\)
1. 遍历，寻找最优切分变量j和最优切分点s（使平方误差最小）
2. 根据选定的(j,s)划分区域：
\[R_1,R_2,c_m = \frac{1}{N_m}\sum_{x_i\in R_m(j,s)}y_i ,m\in \{1,2\}
\]

树创建

ID3、C4.5 多叉树

CART分类树（二叉）

CART回归树

不同树的基本创建过程只有两点不同：

划分节点的评价方式
子集的划分

references:

[1] 统计学习方法

[2] 机器学习实战

ID3\C4.5\CART的更多相关文章

决策树(ID3,C4.5,CART)原理以及实现
决策树决策树是一种基本的分类和回归方法.决策树顾名思义,模型可以表示为树型结构,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布. [图片上传失败...(image ...
决策树模型 ID3/C4.5/CART算法比较
决策树模型在监督学习中非常常见,可用于分类(二分类.多分类)和回归.虽然将多棵弱决策树的Bagging.Random Forest.Boosting等tree ensembel 模型更为常见,但是“完 ...
机器学习算法总结(二)——决策树（ID3, C4.5, CART）
决策树是既可以作为分类算法,又可以作为回归算法,而且在经常被用作为集成算法中的基学习器.决策树是一种很古老的算法,也是很好理解的一种算法,构建决策树的过程本质上是一个递归的过程,采用if-then的规 ...
决策树 ID3 C4.5 CART（未完）
1.决策树 :监督学习决策树是一种依托决策而建立起来的一种树. 在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某 ...
机器学习相关知识整理系列之一：决策树算法原理及剪枝（ID3,C4.5,CART）
决策树是一种基本的分类与回归方法.分类决策树是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成.结点由两种类型,内部结点表示一个特征或属性,叶结点表示一个类. 1. 基础知识熵在信息学和 ...
21.决策树(ID3/C4.5/CART)
总览算法功能树结构特征选择连续值处理缺失值处理剪枝 ID3 分类多叉树信息增益不支持不支持不支持 C4.5 分类多叉树信息增益比支持 ...
ID3/C4.5/Gini Index
ID3/C4.5/Gini Index */--> ID3/C4.5/Gini Index 1 ID3 Select the attribute with the highest informa ...
ID3,C4.5和CART三种决策树的区别
ID3决策树优先选择信息增益大的属性来对样本进行划分,但是这样的分裂节点方法有一个很大的缺点,当一个属性可取值数目较多时,可能在这个属性对应值下的样本只有一个或者很少个,此时它的信息增益将很高,ID3 ...
用于分类的决策树(Decision Tree)-ID3 C4.5
决策树(Decision Tree)是一种基本的分类与回归方法(ID3.C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归).决策树在分类过程中,表示的是基于特征对实例进行划分, ...

随机推荐

PHP tempnam() 函数
定义和用法 tempnam() 函数在指定的目录中创建一个具有唯一文件名的临时文件. 该函数返回新的临时文件名,如果失败则返回 FALSE. 语法 tempnam(dir,prefix) 参数描述 ...
PHP strrpos() 函数
实例查找 "php" 在字符串中最后一次出现的位置: <?php高佣联盟 www.cgewang.comecho strrpos("I love php, I l ...
linux的文件处理(匹配正则表达式 egrep awk sed)和系统、核心数据备份
文件处理 1.处理方式匹配正则表达式 egrep awk sed 2.文件中的处理字符 \n 新行符换行 \t 制表符 tab键缺省8个空格 \b 退格符 backspace键退格键 ...
php操作mysql关于文件上传、存储
php+前端+mysql实现文件上传并储存我们都知道很多网站都需要上传文件,最普遍的就是图片上传,即是用户头像等等: 关于mysql+php实现文件查询,存储大致两个方式, 1.直接把文件写入mys ...
CF习题集一
CF习题集一一.CF915E Physical Education Lessons 题目描述 \(Alex\)高中毕业了,他现在是大学新生.虽然他学习编程,但他还是要上体育课,这对他来说完全是一个意 ...
当asp.net core偶遇docker一（模型验证和Rabbitmq 一）
比如我们有一些设计,依赖于某些软件,比如rabbitmq 当管理员功能,反复错误三五次之后,就发送一条消息到队列里去,我们又不希望对原先设计带来侵入式的改变业务这个时候,我们就可以在模型验证里面加入 ...
Unity 笔记
摄像机 Main Camera 跟随主角移动,不看 UI 剧情摄像机当进入剧情时,可以关闭 main camera,启用剧情摄像机,不看 UI UI 摄像机看 UI Unity编辑器常用的sett ...
Django 1.8.11 查询数据库返回JSON格式数据
Django 1.8.11 查询数据库返回JSON格式数据和前端交互全部使用JSON,如何将数据库查询结果转换成JSON格式环境 Win10 Python2.7 Django 1.8.11 返回多 ...
ResNeSt：Split attention
https://www.cnblogs.com/xiximayou/p/12728644.html 下面是SE和SK这两个网络,兄弟俩很相似下面是具体的每个cardinal(翻译为枢纽)网络,和SK ...
主成分分析PCA数据降维原理及python应用（葡萄酒案例分析）
目录主成分分析(PCA)——以葡萄酒数据集分类为例 1.认识PCA (1)简介 (2)方法步骤 2.提取主成分 3.主成分方差可视化 4.特征变换 5.数据分类结果 6.完整代码总结: 1.认识P ...