如何看待微软新开源的LightGBM?】的更多相关文章

GBDT虽然是个强力的模型,但却有着一个致命的缺陷,不能用类似mini batch的方式来训练,需要对数据进行无数次的遍历.如果想要速度,就需要把数据都预加载在内存中,但这样数据就会受限于内存的大小:如果想要训练更多的数据,就要使用外存版本的决策树算法.虽然外存算法也有较多优化,SSD也在普及,但在频繁的IO下,速度还是比较慢的. 为了能让GBDT高效地用上更多的数据,我们把思路转向分布式GBDT,然后就有了LightGBM.设计的思路主要是两点, 1.  单个机器在不牺牲速度的情况下,尽可能多…
看完一篇介绍文章后,第一个直觉就是这算法已经配得上工业级属性.日前看到微软已经公开了这一算法,而且已经发开python版本,本人觉得等hadoop+Spark这些平台配齐之后,就可以大规模宣传啦~如果R包一发我一定要第一时间学习并更新在本帖下~ 哈哈 看好它是因为支持分布式.GPU运算,而且占用内存小,这几个特制已经足以让她从学界走到工业界,之前的XGboosting更多的使用场景在学术.竞赛.之前我也有写过,感觉局限挺多: R语言︱XGBoost极端梯度上升以及forecastxgb(预测)+…
LightGBM是微软旗下DMTK推出的Gradient Boosting框架,因为其快速高效,以后或许会成为数据挖掘竞赛中的又一个大杀器.地址:https://github.com/Microsoft/LightGBM . 该项目刚开源就被受到热捧:三天之内GitHub上被star了1000+次,fork了200+次:知乎上有近千人关注“如何看待微软开源的LightGBM?”. 接下来简单介绍下这个号称“性能超越其他boosting”的学习模型及其编译和安装方法,以及开启python的ligh…
原创 2017-01-05 LightGBM 微软研究院AI头条 [导读]不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM,在三天之内GitHub上被star了1000+次,fork了200+次.知乎上有近千人关注"如何看待微软开源的LightGBM?"问题,被评价为"速度惊人","非常有启发","支持分布式","代码清晰易懂",&quo…
1. LightGBM是什么东东 不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM,在三天之内GitHub上被star了1000次,fork了200次.知乎上有近千人关注"如何看待微软开源的LightGBM?"问题,被评价为"速度惊人","非常有启发","支持分布式","代码清晰易懂","占用内存小"等. LightG…
俄罗斯搜索巨头 Yandex 昨日宣布开源 CatBoost ,这是一种支持类别特征,基于梯度提升决策树的机器学习方法. CatBoost 是由 Yandex 的研究人员和工程师开发的,是 MatrixNet 算法的继承者,在公司内部广泛使用,用于排列任务.预测和提出建议.Yandex 称其是通用的,可应用于广泛的领域和各种各样的问题. 笔者相关文章: R+工业级GBDT︱微软开源 的LightGBM(R包已经开放) R语言︱XGBoost极端梯度上升以及forecastxgb(预测)+xgbo…
LightGBM算法的特别之处 自从微软推出了LightGBM,其在工业界表现的越来越好,很多比赛的Top选手也掏出LightGBM上分.所以,本文介绍下LightGBM的特别之处. LightGBM算法在模型的训练速度和内存方面都有相应的优化. 基于树模型的boosting算法,很多算法比如(xgboost 的默认设置)都是用预排序(pre-sorting)算法进行特征的选择和分裂. 首先,对所有特征按数值进行预排序. 其次,在每次的样本分割时,用O(# data)的代价找到每个特征的最优分割…
sklearn集成方法 bagging 常见变体(按照样本采样方式的不同划分) Pasting:直接从样本集里随机抽取的到训练样本子集 Bagging:自助采样(有放回的抽样)得到训练子集 Random Subspaces:列采样,按照特征进行样本子集的切分 Random Patches:同时进行行采样.列采样得到样本子集 sklearn-bagging 学习器 BaggingClassifier BaggingRegressor 参数 可自定义基学习器 max_samples,max_feat…
### 前言 前几天在博客园看到有园友在分享关于微软的一个微服务架构的示例程序,想必大家都已经知道了,那就是[eShopOnContainers](https://github.com/dotnet-architecture/eShopOnContainers). 我们先不看项目的后缀名称 OnXXX ,因为除了 OnContainers 还有 OnAzure,OnWeb,OnKubernetes 以及 OnServiceFabric. 我们就还是来先说说 eShop 这个项目吧,eShop 是…
转载:https://www.toutiao.com/i6435866304363627010/ 笔者参加了由Quora举办的Quora Question Pairs比赛,并且获得了前1%的成绩.这是笔者Kaggle首战,所以写下此文来系统化地梳理比赛的思路,并且和大家分享我们参赛的一些心得. Quora Question Pairs是一个自然语言(NLP)比赛,比赛的题目可以简单地概括为“预测两个问句的语义相似的概率”.其中的样本如下: 打Kaggle比赛的大致套路(比赛篇) 我们队伍和其他出…