XGBoost与LightGBM对比分析（转）

尊重原创

来源： https://blog.csdn.net/a790209714/article/details/78086867

XGBoost的四大改进:

①改进残差函数

不用Gini作为残差，用二阶泰勒展开+树的复杂度（正则项）

带来如下好处：

1.可以控制树的复杂度

2.带有关于梯度的更多信息，获得了二阶导数

3.可以用线性分类器

②采用预排序

因为每一次迭代中，都要生成一个决策树，而这个决策树是残差的决策树，所以传统的不能并行

但是陈天奇注意到，每次建立决策树，在分裂节点的时候，比如选中A特征，就要对A进行排序，再计算残差，这个花很多时间

于是陈天奇想到，每一次残差计算好之后，全部维度预先排序，并且此排序是可以并行的，并行排序好后，对每一个维度，计算一次最佳分裂点，求出对应的残差增益

于是只要不断选择最好的残差作为分裂点就可以。

也就是说，虽然森林的建立是串行的没有变，但是每一颗树枝的建立就变成是并行的了，带来的好处：

1.分裂点的计算可并行了，不需要等到一个特征的算完再下一个了

2.每层可以并行：

当分裂点的计算可以并行，对每一层，比如分裂了左儿子和右儿子，那么这两个儿子上分裂哪个特征及其增益也计算好了

同时：

③Shrinkage（缩减）

相当于学习速率（XGBoost中的eta）。XGBoost在进行完一次迭代时，会将叶子节点的权值乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。（GBDT也有学习速率）

④列抽样

XGBoost借鉴了随机森林的做法，支持列抽样，不仅防止过拟合，还能减少计算。

LightGBM，3点优化：

①采用基于Histogram的决策树算法

把每个特征做转化成int，并用这个int作为直方图的index，如果某一个特征值的值为ki，就在直方图横轴=ki的地方，增加1的高度

最后根据直方图进行分裂

带来的好处：

1.不用计算分裂增益

2.只消耗很少的内存，解决xgboost为了排序需要把特征都加进内存需要巨大的空间

②带深度限制的Leaf-wise的叶子生长策略。

直接找到分裂增益最大的叶子，按层优先不断分裂

1.提高精度降低误差

2.减少Level-wise非常非常的无用叶子的分裂

3.因为特征的访问顺序相同，就可以提高cache优化，意味着CPU可以为下一次会采用的特征预先做预读取

③用histogram 做差加速

一个容易观察到的现象：一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到

也就是说下一次分裂的时候不需要计算分裂增益，直接计算一个大儿子，另一个小儿子的直方图就是父亲减去大儿子的差

1.进一步优化

XGBoost与LightGBM对比分析（转）的更多相关文章

XGBoost、LightGBM的详细对比介绍
sklearn集成方法集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是: bagging 基本思想独立的训练一些基学习器 ...
rf, xgboost和GBDT对比；xgboost和lightGbm
1. RF 随机森林基于Bagging的策略是Bagging的扩展变体,概括RF包括四个部分:1.随机选择样本(放回抽样):2.随机选择特征(相比普通通bagging多了特征采样):3.构建决策树:4 ...
XGBoost、LightGBM、Catboost总结
sklearn集成方法 bagging 常见变体(按照样本采样方式的不同划分) Pasting:直接从样本集里随机抽取的到训练样本子集 Bagging:自助采样(有放回的抽样)得到训练子集 Rando ...
Stacking：Catboost、Xgboost、LightGBM、Adaboost、RF etc
python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&am ...
浅谈C++之冒泡排序、希尔排序、快速排序、插入排序、堆排序、基数排序性能对比分析之后续补充说明（有图有真相）
如果你觉得我的有些话有点唐突,你不理解可以想看看前一篇<C++之冒泡排序.希尔排序.快速排序.插入排序.堆排序.基数排序性能对比分析>. 这几天闲着没事就写了一篇<C++之冒泡排序. ...
wait、notify、sleep、interrupt对比分析
对比分析Java中的各个线程相关的wait().notify().sleep().interrupt()方法方法简述 Thread类 sleep:暂停当前正在执行的线程:(类方法) yield:暂停 ...
Android和Linux应用综合对比分析
原文地址:http://www.cnblogs.com/beer/p/3325242.html 免责声明: 当时写完这篇调查报告,给同事看了后,他觉得蛮喜欢,然后想把这篇文章修改一下,然后往期刊上发表 ...
GitHub & Bitbucket & GitLab & Coding 的对比分析
目前基于 Git 做版本控制的代码托管平台有很多种,比较流行的服务有 Github.Bitbucket. GitLab. Coding,他们各自有什么特点,个人使用者和开发团队又该如何选择? 在这篇文 ...
ArrayList和LinkedList的几种循环遍历方式及性能对比分析(转)
主要介绍ArrayList和LinkedList这两种list的五种循环遍历方式,各种方式的性能测试对比,根据ArrayList和LinkedList的源码实现分析性能结果,总结结论. 通过本文你可以 ...

随机推荐

PreparedStatement的execute误解
boolean execute() throws SQLException在此 PreparedStatement 对象中执行 SQL 语句,该语句可以是任何种类的 SQL 语句.一些特别处理过的语 ...
js & enter
js & enter keycode function (e) { if (e.which === 13 || e.keyCode === 13) { //code to execute he ...
CRM 建设方案(01)：CRM基础
CRM 客户关系管理系统基础客户关系管理简称CRM(Customer Relationship Management).CRM概念引入中国已有数年,其字面意思是客户关系管理,但其深层的内涵却有着许多 ...
【JavaScript】JAVA-表格里的c:foreach使用及数字总计
两步:1.上图 2.上代码 <div class="group-accordion" collapsible="true" active="tr ...
Unity3D for VR 学习(6): 再次温故知新-3D数学
一年前,系统学习过3D数学,并记录了一篇博客<C#程序员整理的Unity 3D笔记(十):Unity3D的位移.旋转的3D数学模型>. 一年后,再次温习之. 坐标系:Unity3D使用左手 ...
洛谷 P4585 [FJOI2015]火星商店问题解题报告
P4585 [FJOI2015]火星商店问题题目描述火星上的一条商业街里按照商店的编号\(1,2,\dots,n\) ,依次排列着\(n\)个商店.商店里出售的琳琅满目的商品中,每种商品都用一个非 ...
bzoj3173: [Tjoi2013]最长上升子序列（fhqtreap）
这题用fhqtreap可以在线. fhqtreap上维护以i结尾的最长上升子序列,数字按从小到大加入, 因为前面的数与新加入的数无关, 后面的数比新加入的数小, 所以新加入的数对原序列其他数的值没有影 ...
【HEOI 2018】林克卡特树
转载请注明出处:http://www.cnblogs.com/TSHugh/p/8776179.html 先说60分的.思路题解上很清晰: 问题似乎等价于选K+1条点不相交的链哎!F(x,k,0/1/ ...
python基础----文件处理
一.文件处理流程打开文件,得到文件句柄并赋值给一个变量通过句柄对文件进行操作关闭文件正趣果上果 Interesting fruit fruit 词:郭婞曲:陈粒编曲/混音/和声:燕池萧: ...
webpack 4.x使用总结
1.webpack 全局安装 npm install -g webpack 2.创建项目比如文件夹是webpackdemo cd到webpackdemo文件夹下,执行: npm init 和 npm ...

XGBoost与LightGBM对比分析（转）

XGBoost与LightGBM对比分析（转）的更多相关文章

随机推荐

热门专题