bagging,random forest,boosting(adaboost、GBDT),XGBoost小结
Bagging
- 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping(有放回)的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(我们这里假设k个训练集之间是相互独立的,事实上不是完全独立)
 - 每次使用一个训练集得到一个模型,k个训练集共得到k个模型。但是是同种模型。(注:k个训练集虽然有重合不完全独立,训练出来的模型因为是同种模型也是不完全独立。这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)
 - 对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。(所有模型的重要性相同) 
 
随机森林Random Forest
- 从原始训练数据集中,应用bootstrap方法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类回归树,每次未被抽到的样本组成了K个袋外数据。
 - 设有n个特征,则在每一棵树的每个节点处随机抽取m个特征,通过计算每个特征蕴含的信息量,特征中选择一个最具有分类能力的特征进行节点分裂。
 - 每棵树最大限度地生长,不做任何剪裁
 - 将生成的多棵树组成随机森林,用随机森林对新的数据进行分类,分类结果按树分类器投票多少而定。
 
Boosting
Boosting有很多种,比如AdaBoost(Adaptive Boosting), Gradient Boosting等。 
AdaBoost
GBDT
 
XGBoost
 
Boosting,Bagging这两种框架算法的异同点:
- 样本选择上:  
Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。 - 样例权重: 
Bagging:使用均匀取样,每个样例的权重相等
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。 - 预测函数: 
Bagging:所有预测函数的权重相等。
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。 - 并行计算: 
Bagging:各个预测函数可以并行生成
Boosting:理论上各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。计算角度来看,两种方法都可以并行。bagging, random forest并行化方法显而意见。boosting有强力工具stochastic gradient boosting - bagging是减少variance(减小过拟合),而boosting是减少bias(增加学习能力) 
单一模型往往对噪声敏感从而形成高方差,bagging可以降低对数据敏感性。
在机器学习中,我们用训练数据集去训练(学习)一个model(模型),通常的做法是定义一个Loss function(误差函数),通过将这个Loss(或者叫error)的最小化过程,来提高模型的性能(performance)。然而我们学习一个模型的目的是为了解决实际的问题(或者说是训练数据集这个领域(field)中的一般化问题),单纯地将训练数据集的loss最小化,并不能保证在解决更一般的问题时模型仍然是最优,甚至不能保证模型是可用的。这个训练数据集的loss与一般化的数据集的loss之间的差异就叫做generalization error。而generalization error又可以细分为Bias和Variance两个部分。
即error=Bias+Variance 
RF, GBDT, XGB区别
bagging,random forest,boosting(adaboost、GBDT),XGBoost小结的更多相关文章
- paper 85:机器统计学习方法——CART, Bagging, Random Forest, Boosting
		
本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest B ...
 - 统计学习方法——CART, Bagging, Random Forest, Boosting
		
本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest B ...
 - Decision Tree、Random Forest、AdaBoost、GBDT
		
原文地址:https://www.jianshu.com/p/d8ceeee66a6f Decision Tree 基本思想在于每次分裂节点时选取一个特征使得划分后得到的数据集尽可能纯. 划分标准 信 ...
 - 7. Bagging & Random Forest
		
通过前面集成学习的介绍我们知道,欲得到泛化性能强的集成学习器,集成中个体学习器应尽量相互独立:虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能具有较大差异. 1. Bagging 自助采样 ...
 - 集成学习小结(RF、adaboost、xgboost)
		
目录 回顾监督学习的一些要素 集成学习(学什么) bagging boosting 梯度提升(怎么学) GBDT Xgboost 几种模型比较 Xgboost 与 GBDT xgboost 和 LR ...
 - 机器学习总结(一) Adaboost,GBDT和XGboost算法
		
一: 提升方法概述 提升方法是一种常用的统计学习方法,其实就是将多个弱学习器提升(boost)为一个强学习器的算法.其工作机制是通过一个弱学习算法,从初始训练集中训练出一个弱学习器,再根据弱学习器的表 ...
 - 随机森林(Random Forest),决策树,bagging, boosting(Adaptive Boosting,GBDT)
		
http://www.cnblogs.com/maybe2030/p/4585705.html 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 ...
 - Ensemble Learning 之 Bagging 与 Random Forest
		
Bagging 全称是 Boostrap Aggregation,是除 Boosting 之外另一种集成学习的方式,之前在已经介绍过关与 Ensemble Learning 的内容与评价标准,其中“多 ...
 - Random Forest 与 GBDT 的异同
		
曾经在看用RF和GBDT的时候,以为是非常相似的两个算法,都是属于集成算法,可是细致研究之后,发现他们根本全然不同. 以下总结基本的一些不同点 Random Forest: bagging (你懂得. ...
 
随机推荐
- js回调函数的理解
			
js回调函数(callback)理解 Mark! 讲之前说一句 function say(){ alert(,,,,,,,,) } var say=function (){ alert(,,,,,,, ...
 - CI,CD理解
			
一.什么是CI,CD  当我们在谈论现代的软件编译和发布流程的时候,经常会听到CI 和CD这样的缩写短语.CI很容易理解,就是持续集成.  但是CD既可以指代码持续交付,也可理解为代码持续部署.C ...
 - G1垃圾收集器堆内存划分与角色分派【纯理论】
			
接着上一次[https://www.cnblogs.com/webor2006/p/11123522.html]G1学习继续开启理论之旅.. G1的设计规划是要替换掉CMS[理想化的] G1在某些方面 ...
 - Gym - 102012H  Rikka with A Long Colour Palette N线段K色贪心染色
			
给你数轴上的N条线段和K种颜色 K和N1e5 要你把这N条线段染色 使得有K种不同颜色的线段长度最长 首先很容易想到被至少K段线段覆盖的区间是一定有贡献的 接下来就是怎么染色的问题 我们把这N个区间的 ...
 - 并发编程大师系列之:线程的定义和中断 interrupt
			
1.启动线程的三种方式: 1.1继承Thread类 public static class UseThread extends Thread { public void run() { System. ...
 - unsafe包的学习和使用
			
Go语言之unsafe包介绍及使用 unsafe内容介绍 type ArbitraryType int type Pointer *ArbitraryType func Sizeof(x Arbitr ...
 - list获取所有上级
			
/// <summary> /// 获取所有上级 /// </summary> /// <param name="list"></para ...
 - js中的数据类型以及转换
			
Js中的数据类型 Js中的数据类型一共有六种,即number,string,boolean,underfine,null,object. 一,number Number数据类型指的是数字,可以为整型, ...
 - sql server 很好的基础练习 <学生表-老师表-课程表-选课表>
			
表结构 --学生表tblStudent(编号StuId.姓名StuName.年龄StuAge.性别StuSex) --课程表tblCourse(课程编号CourseId.课程名称CourseName. ...
 - js图片上传 的方法
			
先规划出框架 <div id="AQA" style="width:300px; height:200px; background-color:aquamarine ...