1 基于 CART 的回归

1.1 定义概述

CART 假设决策树是二叉树，因此回归树的生成式递归构建二叉树决策的过程。其核心思想是通过对特征空间分层预测，每个空间的观测值的均值即为该空间内所有观测值的预测值。一般采用“自上而下”的贪婪方法：递归二叉分裂（recursive binary splitting）。最优分裂仅仅限于某一步进程，而不是针对全局去选择能够在未来进程中构建出更好的树的分类点。

1.2 建立回归树

（1）将预测变量空间分割成若干互不重叠的区域，划分遵循的原则是使得两个两份的区域的残差平方和最小。

(j.s)={x∣x(j)≤s},

（3）重复步骤（1）和（2），直到满足条件，比方当所有区域的观测值的个数都不大于5时，分裂停止。

（4）对划分的空间进行预测（用这一空间的训练集平均响应值对其预测）。

1.3 树的剪枝

树的分裂点过多，可能会导致过拟合。为了避免过拟合的方法，我们可以人为设定 RSS 的阈值，但是这样可能会使得一些初看起来不值得分裂的点在之后会有很好的分裂，也就是在下一步中 RSS 会大幅度减小。

因此，更好的策略是生成一棵大树，通过剪枝（prune）得到子树（subtree）。

采用代价复杂性剪枝（cost complexity pruning），也叫做最弱联系剪枝（weakest link pruning）。取 a 满足下式：

绝对值 T 表示树 T 的终端节点数，这种减小过拟合的方式类似于 Lasso

2 基于 CART 的分类

2.1 定义概述

分类树和回归树非常相似，区别在于分类树可以用于预测定性白那辆而非定量变量。对于分类树，其给定观测值被预测为它所属区域内训练集中最常出现的类。可以选用分类错误率代替 RSS 作为分类指标，但是这个指标对于分类错误率不敏感，因此实践中采用基尼系数或者互熵。

2.2 分类指标

基尼系数（Gini index）定义如下：

其中，k 是类别数目，代表第 m 个区域的训练集中的第 k 类所占的比例。G 的值接近 0 或 1。因此基尼系数被视为衡量节点的纯度指标。

互熵（cross-entropy）定义如下：

基尼系数和互熵在数值上是非常接近的。

3 优缺点概述

与传统方法比较，决策树有以下的优缺点：

（1）解释性有时候好于线性回归，小规模树方便解释

（2）接近人的决策

（3）直接处理定性预测变量，而不需要创建哑变量

（4）一般预测准确性无法达到其他回归和分类的水平

参考资料：《统计学习导论——基于R的应用》

基于CART的回归和分类任务的更多相关文章

【R语言学习笔记】 Day1 CART 逻辑回归、分类树以及随机森林的应用及对比
1. 目的:根据人口普查数据来预测收入(预测每个个体年收入是否超过$50,000) 2. 数据来源:1994年美国人口普查数据,数据中共含31978个观测值,每个观测值代表一个个体 3. 变量介绍: ...
matlab 基于 libsvm工具箱的svm分类遇到的问题与解决
最近在做基于无线感知的身份识别这个工作,在后期数据处理阶段,需要使用二分类的方法进行训练模型.本身使用matlab做,所以看了一下网上很多都是使用libsvm这个工具箱,就去下载了,既然用到了想着就把 ...
学界 | 华为诺亚方舟实验室提出新型元学习法 Meta-SGD ，在回归与分类任务中表现超群
学界 | 华为诺亚方舟实验室提出新型元学习法 Meta-SGD ,在回归与分类任务中表现超群机器之心发表于机器之心订阅 499 广告关闭 11.11 智慧上云云服务器企业新用户优先购,享双11同等 ...
Factorization Machines 学习笔记（三）回归和分类
近期学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对随意的实值向量进行预測.其主要长处包含: 1) 可用于高度稀疏数据场景:2) 具有线性的计算复杂度.本文 ...
Sklearn中的回归和分类算法
一.sklearn中自带的回归算法 1. 算法来自:https://my.oschina.net/kilosnow/blog/1619605 另外,skilearn中自带保存模型的方法,可以把训练完 ...
matlab-逻辑回归二分类（Logistic Regression）
逻辑回归二分类今天尝试写了一下逻辑回归分类,把代码分享给大家,至于原理的的话请戳这里 https://blog.csdn.net/laobai1015/article/details/7811321 ...
《转》Logistic回归多分类问题的推广算法--Softmax回归
转自http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92 简介在本节中,我们介绍Softmax回归模型,该模型是log ...
基于Spark Mllib的文本分类
基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题,其主要目标是通过对已有语料库文本数据训练得到分类模型,进而对新文本进行类别标签的预测.这在很多领域都有现实的应用场景,如新闻网站 ...
02-15 Logistic回归(鸢尾花分类)
目录 Logistic回归(鸢尾花分类) 一.导入模块二.获取数据三.构建决策边界四.训练模型 4.1 C参数与权重系数的关系五.可视化更新.更全的<机器学习>的更新网站,更有p ...

随机推荐

CSS知识点（二）
七.CSS的继承性和层叠性继承性面向对象语言都会存在继承的概念,在面向对象语言中,继承的特点:继承了父类的属性和方法.那么我们现在主要研究css,css就是在设置属性的.不会牵扯到方法的层面. 继 ...
消费Restful的web服务(三)
构架工程创建一个springboot工程,去消费RESTFUL的服务.这个服务是 http:///gturnquist-quoters.cfapps.io/api/random ,它会随机返回Jso ...
Linux c++ time different
下面这个函数可以得到微秒级别: #include<time.h> int clock_gettime(clockid_t clk_id,struct timespec *tp); 函数&q ...
zabbix3.4.7安装在centos 7.4上
Centos 7.4 安装Zabbix 3.4 一.安装环境 1 [root@juny-18 ~]# cat /etc/redhat-release 2 3 CentOS Linux release ...
vue项目如何打包前后端不分离发布手把手教学apache、nginx
vue项目如何不分离发布 1.首先yarn build 我用了vue-cli脚手架,bulid后的dist文件夹里的index.html有加版本号,那么为什么需要加版本号呢? a.回滚 b.解决浏览器 ...
Regex Password Validation
You need to write regex that will validate a password to make sure it meets the follwing criteria: A ...
2.python函数编程-filter函数
fileter功能主要使用在需要对数据进行多种操作,并对数据进行过滤的操作. 普通函数实现: movie = ['sb_alex', 'wupei', 'tiger', 'goosb','xxfd', ...
learning ddr DLL-off mode
第三组通信一班 030 IPv6 RIPng (PT)
实验拓扑地址规划设备接口 IPV6 地址/掩码 PC0 / 2001:DB8:30:2:201:42FF:FE8A:7688/64 PC1 / 2001:DB8:30:1:230:A3FF:F ...
《Python》模块和包
一.模块 1.什么是模块: 一个模块就是一个包含了Python定义和声明的文件,文件名就是模块名字加上.py的后缀. 但其实import加载的模块分为四个通用类别: 1.使用Python编写的代码(. ...

基于CART的回归和分类任务