GBDT XGBOOST的区别与联系

Xgboost是GB算法的高效实现，xgboost中的基学习器除了可以是CART（gbtree）也可以是线性分类器（gblinear）。

传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。

传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。

xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和

列抽样（column subsampling）。xgboost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是xgboost异于传统gbdt的一个特性。

xgboost工具支持并行。

Shrinkage（缩减），相当于学习速率（xgboost中的eta）。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

　　首先xgboost是Gradient Boosting的一种高效系统实现，并不是一种单一算法。

　　xgboost里面的基学习器除了用tree(gbtree)，也可用线性分类器(gblinear)。而GBDT则特指梯度提升决策树算法。
　　xgboost相对于普通gbm的实现，可能具有以下的一些优势：

显式地将树模型的复杂度作为正则项加在优化目标
公式推导里用到了二阶导数信息，而普通的GBDT只用到一阶
允许使用column(feature) sampling来防止过拟合，借鉴了Random Forest的思想，sklearn里的gbm好像也有类似实现。

　　4.实现了一种分裂节点寻找的近似算法，用于加速和减小内存消耗。
　　5.节点分裂算法能自动利用特征的稀疏性。
　　6.data事先排好序并以block的形式存储，利于并行计算
　　7.cache-aware, out-of-core computation，这个我不太懂。。
　　8.支持分布式计算可以运行在MPI，YARN上，得益于底层支持容错的分布式通信框架rabit。

工作中用得比较多，区别在于：
1. 在Loss function中做approximate，把泰勒展开限制为1阶和2阶偏导，gbdt是1阶；
2. penalty function Omega主要是对树的叶子数和叶子分数做惩罚，这点确保了树的简单性；
3. 快，非常快，最新版本支持spark，4000多万样本，70个dimension，200棵树的训练也就1小时不到；

GBDT XGBOOST的区别与联系的更多相关文章

RF,GBDT,XGBoost,lightGBM的对比
转载地址:https://blog.csdn.net/u014248127/article/details/79015803 RF,GBDT,XGBoost,lightGBM都属于集成学习(Ensem ...
RF/GBDT/XGBoost/LightGBM简单总结(完结)
这四种都是非常流行的集成学习(Ensemble Learning)方式,在本文简单总结一下它们的原理和使用方法. Random Forest(随机森林): 随机森林属于Bagging,也就是有放回抽样 ...
GBDT && XGBOOST
GBDT && XGBOOST Outline Introduction GBDT Model XGBOOST Model ...
机器学习算法中GBDT和XGBOOST的区别有哪些
首先xgboost是Gradient Boosting的一种高效系统实现,并不是一种单一算法.xgboost里面的基学习器除了用tree(gbtree),也可用线性分类器(gblinear).而GBD ...
机器学习之——集成算法，随机森林，Bootsing，Adaboost,Staking，GBDT,XGboost
集成学习集成算法随机森林(前身是bagging或者随机抽样)(并行算法) 提升算法(Boosting算法) GBDT(迭代决策树) (串行算法) Adaboost (串行算法) Stacking ...
机器学习 GBDT+xgboost 决策树提升
目录 xgboost CART(Classify and Regression Tree) GBDT(Gradient Boosting Desicion Tree) GB思想(Gradient Bo ...
gbdt xgboost 贼难理解！
https://www.zybuluo.com/yxd/note/611571 https://zhuanlan.zhihu.com/p/29765582 gbdt 在看统计学习方法的时候理解很吃力 ...
RF 和 GBDT联系和区别
1.RF 原理用随机的方式建立一个森林,森林里面有很多的决策树,随机森林的每一棵决策树之间是没有关联的.在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看 ...
机器学习相关知识整理系列之三：Boosting算法原理，GBDT&XGBoost
1. Boosting算法基本思路提升方法思路:对于一个复杂的问题,将多个专家的判断进行适当的综合所得出的判断,要比任何一个专家单独判断好.每一步产生一个弱预测模型(如决策树),并加权累加到总模型中 ...

随机推荐

HDU - 2089 不要62 (暴力或数位DP)
Description 杭州人称那些傻乎乎粘嗒嗒的人为62(音:laoer). 杭州交通管理局常常会扩充一些的士车牌照.新近出来一个好消息.以后上牌照,不再含有不吉利的数字了.这样一来.就能够消除个别 ...
Android NDK开发-1-环境搭建
1.NDK介绍 Android NDK 是在SDK前面又加上了“原生”二字,即Native Development Kit,因此又被Google称为“NDK”.众所周知,Android程序运行在Dal ...
Linux-Oracle
1.使用Oracle登录,或者其他用户登录,切换到Oracle账户下: 2.登录后在Oracle主目录后使用vi创建.bashrc文件: 3.在文件中输入如下参数: export ORACLE_SID ...
经典 MapReduce框架（MRv1）
在 MapReduce 框架中,作业执行受两种类型的进程控制: 一个称为 JobTracker 的主要进程,它协调在集群上运行的所有作业,分配要在 TaskTracker 上运行的 map 和 red ...
【RF库测试】Variable Should not Exist & variable should exist
Variable Should not Exist variable should exist
说说M451的例程库的说明
Directory Information Document Driver reference manual and reversion history. Library Driv ...
iOS 9 分屏多任务：入门（中文版）
本文转载至 http://www.cocoachina.com/ios/20150714/12555.html 本文由钢铁侠般的卿哥(微博)翻译自苹果官方文档:Adopting Multitaskin ...
预装的Office2016，文件图标表显示以及新建失败问题解决方法
新购买笔记本电脑,预装的office2016 学生版启动激活后,会出现文件图标异常, 文件的类型为: ms-resource:Strings/FtaDisplayName.docx (.docx) ...
SQL 根据日期精确计算年龄
SQL 根据日期精确计算年龄第一种: 一张人员信息表里有一人生日(Birthday)列,跟据这个列,算出该人员的年龄 datediff(year,birthday,getdate()) 例:birt ...
web基础----->模板引擎Velocity的使用（一）
Velocity 是一个基于 Java 的模板引擎框架,提供的模板语言可以使用在 Java 中定义的对象和变量上.今天我们就学习一下Velocity的用法. Velocity的第一个例子项目的主体是 ...

GBDT XGBOOST的区别与联系

GBDT XGBOOST的区别与联系的更多相关文章

随机推荐

热门专题