CART（分类回归树）

1.简单介绍

线性回归方法可以有效的拟合所有样本点（局部加权线性回归除外）。当数据拥有众多特征并且特征之间关系十分复杂时，构建全局模型的想法一个是困难一个是笨拙。此外，实际中很多问题为非线性的，例如常见到的分段函数，不可能用全局线性模型来进行拟合。

树回归将数据集切分成多份易建模的数据，然后利用线性回归进行建模和拟合。这里介绍较为经典的树回归CART(classification and regression trees，分类回归树)算法。

2.分类回归树基本流程

构建树：

1.找到[最佳待切分特征]

2.若不能再切分，则将该节点存为[叶子节点]并返回

3.按照最佳待切分特征将数据集切分成左右子树（这里为了方便，假设大于特征值则为左，小于则归为右）

4.对左子树进行[构建树]

5.对右子树进行[构建树]

最佳待切分特征：

1.遍历特征

1.1遍历特征所有特征值

1.1.1计算按该特征值进行数据集切分的[误差]

2.选择误差最小的特征及其相应值作为最佳待切分特征并返回

基于回归树的预测：

1.判断当前回归树是否为叶子节点，如果是则[预测]，如果不是则执行2

2.将测试数据相应特征上的特征值与当前回归树进行比较，如果测试数据特征值大，则判别当前回归树的左子树是否为叶子节点，如果不是叶子节点则进行[基于回归树的预测]，如果是叶子节点，则[预测]；反之，判别当前回归树的右子树是否为叶子节点，如果不是叶子节点则进行[基于回归树的预测]，如果是叶子节点，则[预测]

3.分类回归树的实践说明

误差、叶子节点和预测三者有相关的关联关系，一种相对简单的是误差采用的是y值均方差，叶子节点相应的建立为该节点下所有样本的y值平均值，预测的时候根据判断返回该叶子节点下y值平均值即可。

在进行最佳待切分特征选取的时候，一般还有两个参数，一个是允许的误差下降值，一个是切分最小样本数。对于允许误差下降值，在实际过程中，需要在分割之后其误差减少应该至少大于该bound；对于切分最小样本数，也就是说切分后的子树中包含的样本数应该多于该bound。其实这两种策略都是为了避免过拟合。

4树剪枝

通过在最佳待切分特征选取时进行参数设定来避免过拟合，这其实是一种预剪枝的行为；而在回归树建立后，再进行剪枝，则是一种后剪枝的行为。

后剪枝的过程如下：

如果存在任一子集是一棵树，则在该子集中递归剪枝

计算当前两个叶子节点合并后的误差

计算不合并的误差

比较合并前后误差，如果合并后的误差降低，则对叶子节点进行合并

5模型树

之前讲到误差、叶子节点和预测三者具备关联关系，当建立叶子节点是基于模型的，则构建了相应的模型树。这里可以使用之前的线性回归模型，建立相应的叶子节点。这样误差计算采用的将是线性回归中的误差，而预测则是基于该叶子节点拟合其样本后的参数。

6编程实现

这里createTree负责进行树的构建；chooseBestSplit函数负责进行最佳带切特征的选取，而ops参数则是进行了两个bound的设定；prune进行了相关后剪枝。

这里regErr、regLeaf、regTreeEval是基于简单均值计算的误差、叶子节点和预测；而modelErr、modelLeaf和modelTreeEval（+linearSolve）则是基于线性回顾模型的误差、叶子节点和预测。

数据集链接:http://pan.baidu.com/share/link?shareid=3744521160&uk=973467359 密码:9ivd

CART（分类回归树）的更多相关文章

机器学习技法-决策树和CART分类回归树构建算法
课程地址:https://class.coursera.org/ntumltwo-002/lecture 重要!重要!重要~ 一.决策树(Decision Tree).口袋(Bagging),自适应增 ...
决策树的剪枝，分类回归树CART
决策树的剪枝决策树为什么要剪枝?原因就是避免决策树“过拟合”样本.前面的算法生成的决策树非常的详细而庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的.因此用这个决策树来 ...
机器学习之分类回归树(python实现CART)
之前有文章介绍过决策树(ID3).简单回顾一下:ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的.按照某种特征切分数据后,该特征在以后切分数据集时就不再使用,因此存在切分 ...
连续值的CART（分类回归树）原理和实现
上一篇我们学习和实现了CART(分类回归树),不过主要是针对离散值的分类实现,下面我们来看下连续值的cart分类树如何实现思考连续值和离散值的不同之处: 二分子树的时候不同:离散值需要求出最优的两个 ...
利用CART算法建立分类回归树
常见的一种决策树算法是ID3,ID3的做法是每次选择当前最佳的特征来分割数据,并按照该特征所有可能取值来切分,也就是说,如果一个特征有四种取值,那么数据将被切分成4份,一旦按某特征切分后,该特征在之后 ...
CART决策树（分类回归树）分析及应用建模
一.CART决策树模型概述(Classification And Regression Trees) 决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节 ...
分类回归树（CART）
概要本部分介绍 CART,是一种非常重要的机器学习算法. 基本原理 CART 全称为 Classification And Regression Trees,即分类回归树.顾名思义,该算法既 ...
秒懂机器学习---分类回归树CART
秒懂机器学习---分类回归树CART 一.总结一句话总结: 用决策树来模拟分类和预测,那些人还真是聪明:其实也还好吧,都精通的话想一想,混一混就好了用决策树模拟分类和预测的过程:就是对集合进行归类 ...
分类-回归树模型（CART）在R语言中的实现
分类-回归树模型(CART)在R语言中的实现 CART模型 ,即Classification And Regression Trees.它和一般回归分析类似,是用来对变量进行解释和预测的工具,也是数据 ...

随机推荐

Oracle ASM diskgroup在主机重启后启动失败
环境:RHEL 6.4 + Oracle 11.2.0.3 + ASM单实例 1.重启主机后,+DATA diskgroup启动不成功,现象如下: [grid@JY-DB ~]$ crsctl sta ...
web前端学习笔记(CSS固定宽度布局)
一.单列布局: 这是最简单的一种布局方式,之所以给出该示例,还是为了保证本篇博客的完整性. <html xmlns="http://www.w3.org/1999/xhtml" ...
【Android】Android ObjectAnimator动画初识、模仿
ObjectAnimator: ObjectAnimator的概念这里就不解释了,直接从代码中说明,以下是模仿Persicope的加载动画,简单的几行代码即可实现,当然我也是模仿的,更好的实现思路还请 ...
JVM的GC概述
JVM的GC概述 GC即垃圾回收,是指jvm用于释放那些不再使用的对象所占用的内存.在充分理解了垃圾收集算法和执行过程后,才能有效的优化它的性能. 有些垃圾收集专用于特殊的应用程序.比如,实时应用程序 ...
OpenJudge 666:放苹果 // 瞎基本DP
666:放苹果总时间限制: 1000ms 内存限制: 65536kB 描述把M个同样的苹果放在N个同样的盘子里,允许有的盘子空着不放,问共有多少种不同的分法?(用K表示)5,1,1和1 ...
【转载】各浏览器CSS兼容问题
CSS对浏览器的兼容性有时让人很头疼,或许当你了解当中的技巧跟原理,就会觉得也不是难事,从网上收集了IE7,6与Fireofx的兼容性处理方法并整理了一下.对于web2.0的过度,请尽量用xhtml ...
将BootstrapJS和AngularJS结合使用以及为什么不用jQuery
原文网址链接:http://ourjs.com/detail/54e18c51232227083e000034Bootstrap 和 Angular 都是人们大量使用的工具.在很多项目中,它们需要 ...
[DBW]一个小巧的Class方案
(function(){ function Extend(func,proto){ func.prototype.__proto__=proto.prototype; Object.definePro ...
cros解决跨域
Go学习笔记之基础数据类型
http://studygolang.com/articles/1348 1 整数在 Go 语言中,如果不加特殊前缀,都是10进制表示,例如:“100” 整数可以直接用指数形式,例如:“1E9”,意 ...

CART（分类回归树）

CART（分类回归树）的更多相关文章

随机推荐

热门专题