LightGBM和XGBoost的区别？

首先声明，LightGBM是针对大规模数据（样本量多，特征多）时，对XGBoost算法进行了一些优化，使得速度有大幅度提高，但由于优化方法得当，而精度没有减少很多或者变化不大，理论上还是一个以精度换速度的目的。如果数据量不大，那就对XGBoost没有什么优势了。

我认为有这几点：

1.GOSS(Gradient-based One-Side Sampling),基于梯度的单侧采样，对训练样本的采样。

如原始训练数据100w，高梯度数据有1w，那么会计算 1w+随机选择b%*余下的99w数据，然后把后部分数据进行加倍（*（1-a)/b),基于这些数据来得到特征的切分点。

2.EFB(Exclusive Feature Bundling),排斥特征整合，通过对某些特征整合来降低特征数量。

上面两点是在原论文中多次提到的，主要的不同。

参考原论文：https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf

其它的我认为还有两点：

3.查找连续变量切分点的方法

XGBoost默认使用的是pre-sorted algorithm,即先将连续变量排序，然后从前向后计算每个切分点后的信息增益，这样算法复杂度是#data*#feature。好像也可以支持使用histogram。

LightGBM使用的是histogram-based algorithms，即将连续值先bin成k箱,然后再求切分点，每次计算切分点的复杂度是#k*#feature,但这样会有一些精度损失。但由于，a粗精度可以相当于正则化的效果，防止过拟合。b单棵树的精度可能会差一些，但在gbdt框架下，总体的效果不一定差。c在gbdt中决策树是弱模型，精度不高影响也不大。

4.树的生长方式

XGBoost是level(depdh)-wise,即左右子树都是一样深的，要生长一块生长，要停一块停。

LightGBM是leaf-wise,即可能左右子树是不一样深的，即使左子树已经比右子树深很多，但只要左子树的梯度划分仍然比右子树占优，就继续在左子树进行划分。

5、对类别特征的支持

实际上大多数机器学习工具都无法直接支持类别特征，一般需要把类别特征，转化到多维的0/1 特征，降低了空间和时间的效率。而类别特征的使用是在实践中很常用的。基于这个考虑，LightGBM 优化了对类别特征的支持，可以直接输入类别特征，不需要额外的0/1 展开。并在决策树算法上增加了类别特征的决策规则。在 Expo 数据集上的实验，相比0/1 展开的方法，训练速度可以加速 8 倍，并且精度一致。据我们所知，LightGBM 是第一个直接支持类别特征的 GBDT 工具。
参考：https://blog.csdn.net/friyal/article/details/82756777

lightGBM原理

LightGBM和XGBoost的区别？的更多相关文章

随机森林RF、XGBoost、GBDT和LightGBM的原理和区别
目录 1.基本知识点介绍 2.各个算法原理 2.1 随机森林 -- RandomForest 2.2 XGBoost算法 2.3 GBDT算法(Gradient Boosting Decision T ...
LightGBM大战XGBoost，谁将夺得桂冠？
引言如果你是一个机器学习社区的活跃成员,你一定知道提升机器(Boosting Machine)以及它们的能力.提升机器从AdaBoost发展到目前最流行的XGBoost.XGBoost实际上已经 ...
GBDT XGBOOST的区别与联系
Xgboost是GB算法的高效实现,xgboost中的基学习器除了可以是CART(gbtree)也可以是线性分类器(gblinear). 传统GBDT以CART作为基分类器,xgboost还支持线性分 ...
机器学习算法中GBDT和XGBOOST的区别有哪些
首先xgboost是Gradient Boosting的一种高效系统实现,并不是一种单一算法.xgboost里面的基学习器除了用tree(gbtree),也可用线性分类器(gblinear).而GBD ...
RF,GBDT,XGBoost,lightGBM的对比
转载地址:https://blog.csdn.net/u014248127/article/details/79015803 RF,GBDT,XGBoost,lightGBM都属于集成学习(Ensem ...
XGBoost、LightGBM、Catboost总结
sklearn集成方法 bagging 常见变体(按照样本采样方式的不同划分) Pasting:直接从样本集里随机抽取的到训练样本子集 Bagging:自助采样(有放回的抽样)得到训练子集 Rando ...
机器学习-树模型理论（GDBT，xgboost，lightBoost，随机森林）
tree based ensemble algorithms 主要介绍以下几种ensemble的分类器(tree based algorithms) xgboost lightGBM: 基于决策树算法 ...
xgboost gbdt特征点分烈点
lightGBM与XGBoost的区别:(来源于:http://baijiahao.baidu.com/s?id=1588002707760744935&wfr=spider&for= ...
L2R 三：常用工具包介绍之 XGBoost与LightGBM
L2R最常用的包就是XGBoost 和LightGBM,xgboost因为其性能及快速处理能力,在机器学习比赛中成为常用的开源工具包, 2016年微软开源了旗下的lightgbm(插句题外话:微软的人 ...

随机推荐

VMWare WorkStation15--Win10下开机启动虚拟机
参考 https://www.cnblogs.com/qmfsun/p/6284236.html http://www.cnblogs.com/eliteboy/p/7838091.html VMWa ...
Servlet详细教程
Servlet简介 servlet是Server Applet的简称,翻译过来就是服务程序．好吧,这么说你可能还是不太懂,简单的讲,这个servlet是运行在服务器上的一个小程序,用来处理服务器请求的 ...
AT1983 BBQ Hard 解题报告
题意求\(\sum_{i=1}^{n} \sum_{j=i+1}^{n} \dbinom{a_i+a_j}{a_i+b_i+a_j+b_j}\) 解法考虑\(\dbinom{a_i+a_j}{a_ ...
VC++ DLL 3 动态链接库
前面先介绍了静态链接库的方式提供了函数结构的方法,现在就来说下,如果用非MFC的动态链接库要怎么实现,这个过程稍微复杂一点点,但是基本也都是一个套路下来. 1.新建一个工程: 2.编写cpp文件和头文 ...
delphi 单例模式
unit Singleton; (* 单例模式适用于辅助类, 一般伴随于单元的生命周期 *) interface uses SysUtils; type TSingleton = class publ ...
postman批量接口测试注意事项
1.使用cvs文件导入文件后最后行出现\r符号用文本打开删除最后一行空白行 2.打印cvs文件中的接口调用的参数 Pre-request Script: var beginDate=data.b ...
可塑性|Exosomes
五流解释肿瘤发源于不同组织如果不从各种组织出发,则不能有正确的解决方法. Hallmarks of cancer LncRNAs操作流 Exosomes ,它的基本故事是平衡流,但是具体内涵是操作流 ...
深入分析Java反射(四)-动态代理
动态代理的简介 Java动态代理机制的出现,使得Java开发人员不用手工编写代理类,只要简单地指定一组接口及委托类对象,便能动态地获得代理类.代理类会负责将所有的方法调用分派到委托对象上反射执行,在分 ...
Spring Cloud Alibaba 教程 | Nacos（三）
使用Nacos作为配置中心前面我们已经介绍过滤Nacos是一个更易于构建云原生应用的动态服务发现.配置管理和服务管理平台.所以它可以作为注册中心和配置中心,作为注册中心Nacos可以让我们灵活配置多 ...
InnoDB和MyISAM区别总结
原来是MyISAM类型不支持事务处理等高级处理,而InnoDB类型支持. MyISAM类型的表强调的是性能,其执行数度比InnoDB类型更快,但是不提供事务支持,而InnoDB提供事务支持已经外部键等 ...

LightGBM和XGBoost的区别？

LightGBM和XGBoost的区别？的更多相关文章

随机推荐

热门专题