提升算法

　　XGBoost也是一个加法模型，首先其在目标函数中加入了正则化项：

　　泰勒级数

　　yi^(t)是第i个实例在第t次迭代的预测值，需要加入 f_t来最小化以下目标

　　通过泰勒二阶展开近似来快速优化目标函数

　　其中

　　即l的一阶和二阶导数。移除常数项得到：

　　定义 I_j = {i|q(x_i)=j}作为叶子结点j的实例集合。将上式展开为：

　　计算权重公式：

　　带入目标函数得（一阶和二阶导数合并成了一项）：

　　这一项算出的值就是第t棵树要优化目标函数，使其尽量小。下图展示计算过程，目标函数越小越好。

　　枚举所有可能结构的树是不可能的，通过贪心算法从叶节点开始迭代得添加分支，I_L、I_R分别是分割点左右分支的实例集，分割的损失下降定义为：

Weighted Quantile Sketch-加权分位

　　近似算法通过特征百分位点作为划分候选。使集合代表样本点的第k个特征值和二阶导数。定义排序函数：

　　上式表示特征值小于z的样本占整体的比例。目标是找到候选切分点{s_k1, s_k2, ···,s_kl}使得：

　　其中ε是近似因子，这意味着有1/ε个候选点，每个数据点权重是h_i,下式说明为什么用它做权重：

　　其中h_i即为平方损失的权重，对于大数据集，找到满足条件的候选分裂是非常重要的。以前的分位算法中没有权重，因为加权数据集没有分位数。

　　为了解决这个问题，XGBoost提出了新颖的分布式加权的分位数算法，作者理论证明它可以处理加权的数据。总的思路是提出一个支持合并和修剪操作的数据结构，每个操作都被证明保持一定的准确性水平。证明见xgboost-supp.pdf。

Sparsity-aware Split Finding

　　真实数据很多都是稀疏的数据，有很多原因：1.数据中有缺失值。2.统计中频繁出现0条目。3.人工特征工程造成，例如one-hot。为了算法稀疏感知，XGBoost每个树节点加入了默认方向，如图：

　　当数据值缺失的时候，样本被划分到默认方向，默认方向是通过学习数据获得的，其算法如下图，关键提升在于只看不缺失的实例进入I_k，所提出的算法将不存在作为缺失值处理，并学习处理缺失值的最佳方向。通过将枚举限制为恒定的解决方案，当不存在对应于用户指定的值时，也可以应用相同的算法。

　　大多数现有的树学习算法或者只是针对密集数据进行优化，或者需要特定的程序来处理有限的情况，如分类编码。 XGBoost以统一的方式处理所有的稀疏模式。更重要的是，作者的方法利用稀疏性使计算复杂度与输入中非缺失条目的数量成线性关系。下图显示了稀疏感知和对Allstate-10K数据集简单实现的比较。作者发现稀疏感知算法的运行速度比原始版本快50倍。这证实了稀疏感知算法的重要性。

参考

XGBoost原理-XGBoost A Scalable Tree Boosting System

XGBoost原理简介的更多相关文章

xgboost原理及应用
1.背景关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT 地址和xgboost导读和实战地址,希望对xgboost原理进行深入理解. 2.xgboo ...
storm 原理简介及单机版安装指南——详细版【转】
storm 原理简介及单机版安装指南本文翻译自: https://github.com/nathanmarz/storm/wiki/Tutorial 原文链接自:http://www.open-op ...
Java进阶(二十四)Java List集合add与set方法原理简介
Java List集合add与set方法原理简介 add方法 add方法用于向集合列表中添加对象. 语法1 用于在列表的尾部插入指定元素.如果List集合对象由于调用add方法而发生更改,则返回 tr ...
kafka原理简介并且与RabbitMQ的选择
kafka原理简介并且与RabbitMQ的选择 kafka原理简介,rabbitMQ介绍,大致说一下区别 Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和 ...
InheritableThreadLocal类原理简介使用父子线程传递数据详解多线程中篇（十八）
上一篇文章中对ThreadLocal进行了详尽的介绍,另外还有一个类: InheritableThreadLocal 他是ThreadLocal的子类,那么这个类又有什么作用呢? 测试代码 p ...
一文读懂机器学习大杀器XGBoost原理
http://blog.itpub.net/31542119/viewspace-2199549/ XGBoost是boosting算法的其中一种.Boosting算法的思想是将许多弱分类器集成在一起 ...
xgboost原理
出处http://blog.csdn.net/a819825294 1.序距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增.最近毕业论文与xgboost相关,于是重新写一下这篇文章 ...
Nginx 负载均衡原理简介与负载均衡配置详解
Nginx负载均衡原理简介与负载均衡配置详解 by:授客 QQ:1033553122 测试环境 nginx-1.10.0 负载均衡原理客户端向反向代理发送请求,接着反向代理根据某种负载机制 ...
Nginx 反向代理工作原理简介与配置详解
Nginx反向代理工作原理简介与配置详解 by:授客 QQ:1033553122 测试环境 CentOS 6.5-x86_64 nginx-1.10.0 下载地址:http://nginx. ...

随机推荐

关于windows下编写的shell脚本在linux下无法运行报错问题
首先,你写的shell脚本必须是正确的, 其次,无法运行的原因:因为windows下的换行是两个字节,而你上传到linux,linux下换行是两个字节,所以编译的酒不正确的,导致无法运行脚本, 这种 ...
Flutter 35: 图解自定义 View 之 Canvas (二)
小菜前几天整理了以下 Canvas 的部分方法,今天小菜继续学习 Canvas 第二部分. drawXXX drawShadow 绘制阴影 drawShadow 用于绘制阴影,第一个参数时绘制一个图形 ...
MSP432 BSL流程（UART）
升级流程 PC程序会解析脚本中的命令,根据命令码做相应的操作.数据来自于命令后的文件(当前目录下的数据文件) # cat script_P4xx_uart.txt LOG //记录日志 MODE P4 ...
Spring Cloud（一）服务的注册与发现（Eureka）
Spring Cloud是一个基于Spring Boot实现的云应用开发工具,它为基于JVM的云应用开发中涉及的配置管理.服务发现.断路器.智能路由.微代理.控制总线.全局锁.决策竞选.分布式会话和集 ...
ppp协议解析二
转:http://blog.csdn.net/yangzheng_yz/article/details/11526747 PPP(Point to Point Protocol,点对点协议)协议是为在 ...
linux中公钥和私钥的区别以及关系
导读在学习ssh章节时,一定有不少人对公钥和私钥产生过不解.在搜索公钥跟私钥的理解时,发现了这篇有趣的图解小文章,与大家共享. 1. 鲍勃有两把钥匙,一把是公钥,另一把是私钥. 2. 鲍勃把公钥送给 ...
Google 停止推出 Chrome 79
据 Google 方面表示,新版本的使用率达到了整个用户群的 50% 已经.不过值得注意的是,并非所有提供该更新的设备都已安装了该工具.初步数据显示,只有 10% 的人部署了新版本. 针对用户反馈,开 ...
idou老师教你学istio1：如何为服务提供安全防护能力
之前,已为大家介绍过 Istio 第一主打功能---连接服务. 凡是产生连接关系,就必定带来安全问题,人类社会如此,服务网格世界,亦是如此. 今天,我们就来谈谈Istio第二主打功能---保护服务. ...
CSS 中用户自定义字体 @font-face
@font-face 允许网页中使用自定义的字体,这些自定义的字体被放置在服务器上,从而让网页摆脱对访问者计算机上字体环境的依赖. 简单的说,有了@font-face,只需将字体上传到服务器端,无论访 ...
查看tensorflow Pb模型所有层的名字
代码如下: import tensorflow as tf def get_all_layernames(): """get all layers name"& ...

XGBoost原理简介

提升算法

Weighted Quantile Sketch-加权分位

Sparsity-aware Split Finding

参考

XGBoost原理简介的更多相关文章

随机推荐

热门专题