cart树剪枝

当前子树的损失函数：

$C_a(T) = C(T) + a|T|$, 其中$C(T)$为对训练数据的预测误差，$|T|$为树的叶子结点数目，反映模型的复杂度。对固定的$a$,一定存在使损失函数$C_a(T)$最小的子树，将其表示为$T_a$, 极端情况，当 $a = 0$时，整体树是最优的，当$a -> \infty $时，根节点组成的单节点树是最优的。

对应于每一个参数 $\alpha$ ，剪枝后的子树是唯一的。在算法中，给定参数 $\alpha$ ，找寻损失函数最小的子树 $T_{\alpha}$ ，也就是说 $<\alpha,T_{\alpha}>$ 是一一对应的！并不存在一个 $\alpha$ 对应于多个子树。CART剪枝算法中将用到该基本假设。因为当$a$大的时候，最优子树$T_a$偏小，当$a$小的时候，最优子树$T_a$偏大。

从最宏观的角度去考虑的话，就是利用 $\alpha$ 生成 $T_{\alpha}$ 。CART剪枝算法的核心思想就是说，一个复杂的决策树，不管多复杂，都能生成有限个数的子树，我们记作 $\{T_0,T_1,...,T_n\}$ ，那么我们只要找寻到对应于每一个子树的 $\alpha$ ，即得到对应的子树！没错，抽象一下，从【有限个数的 $T_\alpha$ 】中找寻对应的【 $\alpha$ 】

当 $\alpha =0$ 或者充分小：
$C_{\alpha}(T_t) < C_{\alpha}(t)$
决策树叶结点越多，不确定性越低。

当增大 $\alpha$ 时，总有那么一个点，能够使得：
$C_{\alpha}(T_t) = C_{\alpha}(t)$

当继续增大 $\alpha$ 时，
$C_{\alpha}(T_t) > C_{\alpha}(t)$
所以我们只要取 $\alpha_1 = \frac{C(t)-C(T_t)}{\vert T_t\vert-1}$ 时，当且仅当 $\alpha \ge \alpha_1$ 时，剪枝必然发生。

剪枝已经发生，此时，对应于每一个子结点t会生成不同的 $\alpha$ 我们记作 $\alpha(t)$ ，由此得： $C_{\alpha}(t) = C(t)+\alpha(t)$
剪枝的决策树什么时候最优？对于当前参数 $\alpha(t)$ 而言，能够找到这样的t，使得
$\min_{t}\{C(t)+\alpha(t)\}$
然而在这里为了能够求得 $\alpha$ 的一个序列，直接最小化了
$\min_{t}(\frac{C(t)-C(T_t)}{\vert T_t\vert-1})$
找的 $\alpha$ 即找到了子结点t，即完成了剪枝，即找到了最优子树 $T_1$

有了上述的步骤，为了得到决策树 $T_0$ 的所有子序列，直接递归下去，直到根节点即可。在这一过程中，不断地增加 $\alpha$ 的值，产生新的区间。

采用交叉验证法在子树序列中选取最优子树。

https://www.zhihu.com/question/22697086

cart树剪枝的更多相关文章

CART树
算法概述 CART(Classification And Regression Tree)算法是一种决策树分类方法. 它采用一种二分递归分割的技术,分割方法采用基于最小距离的基尼指数估计函数,将当前的 ...
决策树--CART树详解
1.CART简介 CART是一棵二叉树,每一次分裂会产生两个子节点.CART树分为分类树和回归树. 分类树主要针对目标标量为分类变量,比如预测一个动物是否是哺乳动物. 回归树针对目标变量为连续值的情况 ...
机器学习中的那些树——决策树（三、CART 树）
前言距上篇文章已经过了9个月 orz..趁着期末复习,把博客补一补.. 在前面的文章中介绍了决策树的 ID3,C4.5 算法.我们知道了 ID3 算法是基于各节点的信息增益的大小 \(\operat ...
对权值线段树剪枝的误解--以HDU6703为例
引子对hdu6703,首先将问题转化为"询问一个排列中大于等于k的值里,下标超过r的最小权值是多少" 我们采用官方题解中的做法:权值线段树+剪枝对(a[i],i)建线段树,查询 ...
CART树 python小样例
决策树不断将数据切分成小数据集,直到所有目标变量完全相同,或者数据不能再切分为止,决策时是一种贪心算法,它要在给定的时间内做出最佳选择,但并不关心能否达到最优树回归优点:可以对复杂和非线性的数据建 ...
Codeforces 444 C. DZY Loves Colors (线段树+剪枝)
题目链接:http://codeforces.com/contest/444/problem/C 给定一个长度为n的序列,初始时ai=i,vali=0(1≤i≤n).有两种操作: 将区间[L,R]的值 ...
HDOJ：6356-Glad You Came（线段树剪枝）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6356 解题心得: 现在深深的知道了算法复杂度的重要了,这个题算复杂度的时候还要把一些常数也算出来,不然 ...
LibreOJ #6190. 序列查询（线段树+剪枝）
莫队貌似是过不了的,这题是我没见过的科技... 首先区间按右端点排序,然后一个扫描线,扫到某个区间右端点时候计算答案,线段树上节点的信息并不需要明确定义,我们只要求线段树做到当前扫到now时,查询[L ...
HDU4391(线段树+剪枝)
Paint The Wall Time Limit: 20000/10000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) ...

随机推荐

AHB2reg接口转换
assign mcu_xxx_addr = (rd_after_wr_reg || reg_valid_write_trans) ? haddr_reg[ADDR_WIDTH+:] : haddr[A ...
【实验吧】Once More&&【笔记】 PHP 函数漏洞总结
<?php if (isset ($_GET['password'])) { if (ereg ("^[a-zA-Z0-9]+$", $_GET['password']) = ...
http协议工作原理（转）
WWW是以Internet作为传输媒介的一个应用系统,WWW网上最基本的传输单位是Web网页.WWW的工作基于客户机/服务器计算模型,由Web 浏览器(客户机)和Web服务器(服务器)构成,两者之间 ...
项目-开发手机app
一. 安装Hbuilder,和夜神安卓模拟器注:夜神模拟器,如过windows中安装了hyper-v,需要卸载,不然会死机二. Hbuilder简介官网:http://www.dcloud.i ...
java 移位操作
http://blog.csdn.net/javazejian/article/details/51181320 java的移位操作
luogu1129 [ZJOI2007]矩阵游戏
其实,只用考虑某一行能否放到某一行就行了 #include <iostream> #include <cstring> #include <cstdio> usin ...
python基础-异常和模块
异常的定义 #encoding=utf-8 import sys try: 1/0 print "never executed!" except ZeroDivisionError ...
Codeforces Round #401 (Div. 2) 离翻身就差2分钟
Codeforces Round #401 (Div. 2) 很happy,现场榜很happy,完全将昨晚的不悦忘了.终判我校一片惨白,小董同学怒怼D\E,离AK就差一个C了,于是我AC了C题还剩35 ...
Java&Android代码规范
项目中直接导入Square的代码风格文件.(不导入Google的原因是Square同时提供了Java和Android两套统一风格,Google只提供了一套) Square Code Styles Go ...
【Luogu】2114起床困难综合征（位运算贪心）
题目链接这题真是恶心死我了. 由于位运算每一位互不干涉,所以贪心由大到小选择每一位最优的解,但是要判断一下边界,如果选择该解使得原数>m则不能选择. 代码如下 #include<cstd ...

cart树剪枝

cart树剪枝的更多相关文章

随机推荐

热门专题