paper 85：机器统计学习方法——CART, Bagging, Random Forest, Boosting

本文从统计学角度讲解了CART（Classification And Regression Tree）, Bagging(bootstrap aggregation), Random Forest Boosting四种分类器的特点与分类方法，参考材料为密歇根大学Ji Zhu的pdf与组会上王博的讲解。

CART（Classification And Regression Tree）

Breiman, Friedman, Olshen & Stone (1984), Quinlan (1993)

思想：递归地将输入空间分割成矩形

优点：可以进行变量选择，可以克服missing data，可以处理混合预测

缺点：不稳定

example:

对于下面的数据，希望分割成红色和绿色两个类，原本数据生成是这样的：

Red class: x1^2+x2^2>=4.6

Green class: otherwise

经过不断分割可以得到最后的分类树：

那么怎么分割才是最好的呢？即怎样将输入空间分割成矩形是最佳策略呢？这里一般采用三中评价标准策略：

分裂时，找到使不纯度下降最快的分裂变量和分裂点。

从结果可以看出CART可以通过变量选择迭代地建立一棵分类树，使得每次分类平面能最好地将剩余数据分为两类。
classification tree非常简单，但是经常会有noisy classifiers. 于是引入ensemble classifiers: bagging, random forest, 和boosting。

一般的， Boosting > Bagging > Classification tree(single tree)

Bagging (Breiman1996): 也称bootstrap aggregation

Bagging的策略：

- 从样本集中用Bootstrap采样选出n个样本

- 在所有属性上，对这n个样本建立分类器（CART or SVM or ...）

- 重复以上两步m次，i.e.build m个分类器（CART or SVM or ...）

- 将数据放在这m个分类器上跑，最后vote看到底分到哪一类

Fit many large trees to bootstrap resampled versions of the training data, and classify by majority vote.

下图是Bagging的选择策略，每次从N个数据中采样n次得到n个数据的一个bag，总共选择B次得到B个bags，也就是B个bootstrap samples.

Random forest(Breiman1999):

随机森林在bagging基础上做了修改。

- 从样本集中用Bootstrap采样选出n个样本，预建立CART

- 在树的每个节点上，从所有属性中随机选择k个属性，选择出一个最佳分割属性作为节点

- 重复以上两步m次，i.e.build m棵CART

- 这m个CART形成Random Forest

随机森林可以既可以处理属性为离散值的量，比如ID3算法，也可以处理属性为连续值的量，比如C4.5算法。

这里的random就是指

1. Bootstrap中的随机选择子样本

2. Random subspace的算法从属性集中随机选择k个属性，每个树节点分裂时，从这随机的k个属性，选择最优的

结果证明有时候Random Forest比Bagging还要好。今天微软的Kinect里面就采用了Random Forest，相关论文Real-time Human Pose Recognition in Parts from Single Depth Images是CVPR2011的best paper。

Boosting(Freund & Schapire 1996):

Fit many large or small trees to reweighted versions of the training data. Classify by weighted majority vote.

首先给个大致的概念，boosting在选择hyperspace的时候给样本加了一个权值，使得loss function尽量考虑那些分错类的样本（i.e.分错类的样本weight大）。

怎么做的呢？

- boosting重采样的不是样本，而是样本的分布，对于分类正确的样本权值低，分类错误的样本权值高（通常是边界附近的样本），最后的分类器是很多弱分类器的线性叠加（加权组合），分类器相当简单。

AdaBoost和RealBoost是Boosting的两种实现方法。general的说，Adaboost较好用，RealBoost较准确。

下面是AdaBoost进行权值设置与更新的过程：

以下是几个算法的性能比较：

对于多类分类（Multi-class），generalization~是类似的过程：

比如对数据进行K类分类，而不通过每次二类分类总共分K-1次的方法，我们只需要每个弱分类器比random guessing好（i.e. 准确率>1/K）

多类分类算法流程:

多类分类器loss function的设计：

===============补充===============

数据挖掘的十大算法，以后可以慢慢研究：

C4.5

K-Means

SVM

Apriori

PageRank

AdaBoost

kNN

NaiveBayes

CART

===============总结===============

Boosting可以进行变量选择，所以最开始的component可以是简单变量。

Boosting可能会overfit，因此在比较早的时候就停下来是正则化boosting的一个方法。

期待更多朋友一起补充……

Reference：

1. http://cos.name/2011/12/stories-about-statistical-learning/

2. WIKI_Boosting

3. WIKI_Bagging (Bootstrap_aggregating)

4. WIKI_CART

paper 85：机器统计学习方法——CART, Bagging, Random Forest, Boosting的更多相关文章

统计学习方法——CART, Bagging, Random Forest, Boosting
本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest B ...
7. Bagging & Random Forest
通过前面集成学习的介绍我们知道,欲得到泛化性能强的集成学习器,集成中个体学习器应尽量相互独立:虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能具有较大差异. 1. Bagging 自助采样 ...
统计学习方法 | 第1章统计学习方法概论 | np.random.rand()函数
np.random.rand()函数语法: np.random.rand(d0,d1,d2……dn) 注:使用方法与np.random.randn()函数相同作用: 通过本函数可以返回一个或一组服 ...
bagging，random forest，boosting（adaboost、GBDT），XGBoost小结
Bagging 从原始样本集中抽取训练集.每轮从原始样本集中使用Bootstraping(有放回)的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中).共进行 ...
机器学习方法（六）：随机森林Random Forest，bagging
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 前面机器学习方法(四)决策树讲了经典 ...
统计学习方法：CART算法
作者:桂. 时间:2017-05-13 14:19:14 链接:http://www.cnblogs.com/xingshansi/p/6847334.html . 前言内容主要是CART算法的学 ...
随机森林（Random Forest），决策树，bagging， boosting（Adaptive Boosting，GBDT）
http://www.cnblogs.com/maybe2030/p/4585705.html 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 ...
Bootstrap,Bagging and Random Forest Algorithm
Bootstrap Method:在统计学中,Bootstrap从原始数据中抽取子集,然后分别求取各个子集的统计特征,最终将统计特征合并.例如求取某国人民的平均身高,不可能测量每一个人的身高,但却可以 ...
统计学习方法 --- 感知机模型原理及c++实现
参考博客 Liam Q博客和李航的<统计学习方法> 感知机学习旨在求出将训练数据集进行线性划分的分类超平面,为此,导入了基于误分类的损失函数,然后利用梯度下降法对损失函数进行极小化,从而 ...

随机推荐

Qt通过QToolTip显示浮动信息
QToolTip类的应用十分简单,其QToolTip类中全都是静态方法,如果要显示浮动信息的话使用该函数即可: void QToolTip::showText ( const QPoint & ...
【Java 基础篇】【第七课】组合
我所理解的组合就是在一个类当中又包含了另一个类的对象. 这样的方式就是组合吧: 电池是一个类,有电量手电筒需要电池看代码吧: // 电池类 class Battery { // 充电 public ...
EntityFramework更新数据
1.TryUpdateModel 使用很方便,但实际更新数据的过程还是先select,再update.另外发现一个问题,对于input的type类型file的字段,无法使用TryUpdateModel ...
转：[ASP.NET]重構之路系列v4 – 簡單使用interface之『你也會IoC』
前言上次v3版本,我們將Entity, Service, Dao, Utility都放到了類別庫裡面,讓我們可以輕鬆的在不同專案中用同一份組件.雖然文章沒有獲得太多的讚賞,不過相信那一定是太多人會這 ...
[LeetCode]题解（python）：081 - Search in Rotated Sorted Array II
题目来源 https://leetcode.com/problems/search-in-rotated-sorted-array-ii/ Follow up for "Search in ...
Sort---hdu5884（优先队列+二分）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5884 题意:有n个有序序列,每个序列有ai个元素,现在有一个程序每次可以归并最多k个序列,最终把所有的 ...
block iOS 块
block 是个很陌生的东西啊.以前没有学会,现在再看它,还是觉得很稀奇古怪. 无奈,之后硬着头皮学了.. //有参返回值格式: 返回值类型 (^变量名)(参数类型及个数) = ^(形参列表){ 代 ...
std::map的clear()没有用?
昨天晚上,我徒弟跑过来讲,他的程序的内存占用居高不下,愿意是std::map的clear()没有效果.于是我让他用erase(begin,end); 试试也不行. 代码如下: void release ...
24C02 Twr
连续写24C02,只有第一次能够成功,后面写都失败了.这次调整写的时间间隔.调成了5ms,才成功. 查看datasheet,发现有一个tWR参数.表示写的最小时间间隔.这个时间应该是内部写入所需要的时 ...
[开源]STM32F103RBT6最小系统，LEDx2，KEYx4
STM32F103RBT6最小系统,调试通过,可以SWD模式下载程序,支持串口,一键下载. stm32f103rbt6最小系统链接:http://pan.baidu.com/s/1qYCHeHY 密码 ...

paper 85：机器统计学习方法——CART, Bagging, Random Forest, Boosting

paper 85：机器统计学习方法——CART, Bagging, Random Forest, Boosting的更多相关文章

随机推荐

热门专题