统计学习方法:CART算法
作者:桂。
时间:2017-05-13 14:19:14
链接:http://www.cnblogs.com/xingshansi/p/6847334.html
、
前言
内容主要是CART算法的学习笔记。
CART算法是一个二叉树问题,即总是有两种选择,而不像之前的ID3以及C4.5B可能有多种选择。CART算法主要有回归树和分类树,二者常用的准则略有差别:回归树是拟合问题,更关心拟合效果的好坏,此处用的是均方误差准则; 分类树是分类问题,更像是离散变量的概率估计,用与熵类似的Gini系数进行度量。
一、CART算法——回归树
因为是回归问题,只要抓住两个要点就好:
1)如何切分;
2)切分后的不同区域,如何取值;
先来分析一下一次划分的操作:
A-回归树切分
选择第j个变量
和它的取值s,作为切分变量和切分点,并定义两个区域:

通过寻找最小均方误差点,实现切分:

B-回归树的输出值
对固定输入变量j找到最优切分点s,并定义各自区域均值为输出变量:

C-回归树举例
看一下习题中的例子:

数据的切分点分别为:1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5
从公式

可以看出输出值c就是对应类别内y的均值。
当切分点选择s = 2.5时,区域R1有:

c1 = (4.5+4.75)/2=4.625
区域R2有:
同样c2 = 7.17
从而计算出s = 2.5对应的估计误差:

不同的s切分点,对应的估计误差不同,最后选择最小误差对应的切分点,这就完成了一次切分:

此时的c1,c2分别对应两类输出值。
假设s=6.5处实现了第一次划分,第二次就是分别在子区域进一步划分,如将:

进行二次切分,步骤思路与上面完全一致。
总结一下CART回归树的算法思路:
二、CART算法——分类树
A-基尼系数
CART分类树不再是基于信息增益,而是引入了Gini系数,给出基尼系数定义:
二分问题中Gini系数与熵之半的对比:

可以看出基尼系数与熵的特性类似,也是不确定性(信息量)的一种量度。
一方面,如果对于样本集合D,基尼系数:

其中
是D中属于第k类的样本子集,K是类的个数。
如果D被特征A划分为D1、D2两部分,这个时候就是统计均值,D的基尼系数:

B-CART决策树生成
CART决策树的生成,抓住两个基本要点:
1)基尼系数计算,确定二叉树;
2)确定决策树层次结构
举例说明:

分别以
表示年龄、有工作、有自己的房子、信贷情况。
对于A1是分为中年、老年、青年,计算基尼系数

A1、A3都可以,选择A1,,即青年是一类,非青年(中年、老年)是一类,
有工作、有自己的房子,都是二分,可以不用切分。信贷情况A4:

最小,故选为最优切分点。
至此,完成了基尼系数计算以及二叉树划分。下面确定决策树层次结构:



由小到大,A3为最优切分点,依次在A1,A2,A4选择,故选择A2为次优切分点......依次类推。

给出决策树生成算法:
主要分两步走:
1)计算各种情况的基尼系数,划分每个节点的二叉树;
2)根据基尼系数的大小,确定二叉树不同节点的层次结构,形成决策树。
三、CART树剪枝
回归树(拟合问题)与决策树都存在过拟合问题,防止过拟合(过渡细化)都需要剪枝的操作。
先来看看剪枝用到的准则函数:

关于C(T)之前文章有分析,它是叶节点特性的度量,C4.3里它是熵的均值,CART决策树里它是基尼系数的概率均值,原理类似。多一个正则项,就是稀疏性约束。
ID3、C4.5算法中的剪枝原理是给定α,事实上很难一次给出理想的α。CART剪枝不再给定一个α,然后选择最优决策树,而是通过设定不同的α,通过交叉验证选择最优CART树,也就是:
训练集:得到不同的子树;
测试集:交叉验证选择最优树.
从有限个子树
中计算最优子树,最优子树由验证集得出的测试误差决定,哪个最小就是哪个。
这里就引出了一个问题,每次剪哪一个节点呢?先看分析剪枝的两个极端情况:
1)完全没剪:

2)只剩根节点:

在α较小或者为0时,有:

在α取+∞大时,有:

α是连续变量,因此总有临界点:

为了不混淆变量,重新定义:

α大于g(t)就是该剪。简而言之:
对于同一棵树的结点,α都是一样的,当α从0开始缓慢增大(或者从+∞慢慢减小),总会有某棵子树该剪,其他子树不该剪的情况,即α超过了某个结点的g(t),但还没有超过其他结点的g(t)。这样随着alpha不断增大,不断地剪枝,就得到了n+1棵子树,接下来只要用独立数据集测试这n+1棵子树,试试哪棵子树的误差最小 就知道那棵是最好的方案了。
给出CART剪枝算法:
原书的算法勘误:
(4)修改为:
(6)修改为:
参考:
- 李航《统计学习方法》
统计学习方法:CART算法的更多相关文章
- paper 85:机器统计学习方法——CART, Bagging, Random Forest, Boosting
本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest B ...
- 统计学习方法——CART, Bagging, Random Forest, Boosting
本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest B ...
- 统计学习五:3.决策树的学习之CART算法
全文引用自<统计学习方法>(李航) 分类与回归树(classification and regression tree, CART)模型是由Breiman等人于1984年提出的另一类决策树 ...
- 统计学习方法笔记--EM算法--三硬币例子补充
本文,意在说明<统计学习方法>第九章EM算法的三硬币例子,公式(9.5-9.6如何而来) 下面是(公式9.5-9.8)的说明, 本人水平有限,怀着分享学习的态度发表此文,欢迎大家批评,交流 ...
- 统计学习方法c++实现之六 支持向量机(SVM)及SMO算法
前言 支持向量机(SVM)是一种很重要的机器学习分类算法,本身是一种线性分类算法,但是由于加入了核技巧,使得SVM也可以进行非线性数据的分类:SVM本来是一种二分类分类器,但是可以扩展到多分类,本篇不 ...
- 《统计学习方法》笔记九 EM算法及其推广
本系列笔记内容参考来源为李航<统计学习方法> EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计或极大后验概率估计.迭代由 (1)E步:求期望 (2)M步:求极大 组成,称 ...
- Adaboost算法的一个简单实现——基于《统计学习方法(李航)》第八章
最近阅读了李航的<统计学习方法(第二版)>,对AdaBoost算法进行了学习. 在第八章的8.1.3小节中,举了一个具体的算法计算实例.美中不足的是书上只给出了数值解,这里用代码将它实现一 ...
- 决策树模型 ID3/C4.5/CART算法比较
决策树模型在监督学习中非常常见,可用于分类(二分类.多分类)和回归.虽然将多棵弱决策树的Bagging.Random Forest.Boosting等tree ensembel 模型更为常见,但是“完 ...
- 03机器学习实战之决策树CART算法
CART生成 CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支.这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有 ...
随机推荐
- java实验二实验报告
一.实验内容 1. 初步掌握单元测试和TDD 2. 理解并掌握面向对象三要素:封装.继承.多态 3. 初步掌握UML建模 4. 熟悉S.O.L.I.D原则 5. 了解设计模式 二.实验过程(本次试验都 ...
- 使用python快速搭建web服务器
命令:python -m SimpleHTTPServer 8088 参考:https://www.cnblogs.com/harry-xiaojun/p/6739003.html https://w ...
- 20145214 《网络对抗技术》 Web安全基础实践
20145214 <网络对抗技术> Web安全基础实践 1.实验后回答问题 (1)SQL注入攻击原理,如何防御 SQL注入攻击就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的 ...
- 《Spring1之第五次站立会议》
<第五次站立会议> 昨天:试着做了一下主框架里的在线人数的显示代码: 今天:向小伙伴们请教了我代码的错误的解决方法以及对TCP/IP协议进行了相关的了解. 遇到的问题:虽然基本原理不难理解 ...
- 福大软工1816 · 评分结果 · Alpha冲刺答辩总结
作业地址:https://edu.cnblogs.com/campus/fzu/Grade2016SE/homework/2462 作业提交准则 按时交 - 有分 晚交 - 0分 迟交一周以上 - 倒 ...
- vue router 几种方式对比 (转载)
<div id="app"> <h1>Hello App!</h1> <p> <!-- 使用 router-link 组件来导 ...
- 30行js让你的rem弹性布局适配所有分辨率(含竖屏适配)(转载)
用rem来实现移动端的弹性布局是个好主意!用法如下: CSS @media only screen and (max-width: 320px), only screen and (max-devic ...
- 简单复利计算java板
一.要求: 1.客户说:帮我开发一个复利计算软件. 2如果按照单利计算,本息又是多少呢? 3.假如30年之后要筹措到300万元的养老金,平均的年回报率是3%,那么,现在必须投入的本金是多少呢? 4.利 ...
- PAT 1069 微博转发抽奖
https://pintia.cn/problem-sets/994805260223102976/problems/994805265159798784 小明 PAT 考了满分,高兴之余决定发起微博 ...
- 减小Delphi 2010/delphi XE编译出来的文件大小
1.禁用RTTI 禁用的方法很简单,就是要在工程(dpr文件中.Delphi2010下项目文件是dproj文件,但dpr文件仍然是默认的编写代码的项目文件)的Uses语句前添加下面的定义就可以了: { ...





