GBDT (Gradient Boosting Decision Tree)属于集成学习中的Boosting流派，迭代地训练基学习器 (base learner)，当前基学习器依赖于上一轮基学习器的学习结果。不同于AdaBoost自适应地调整样本的权值分布，GBDT是通过不断地拟合残差 (residual)来“纠错”基学习器的。

1. Gradient Boosting

Gradient Boosting Machine (GBM) 是由大牛Friedman [1,2] 提出来，基本思想非常简单：基学习器存在着分类/回归错误的情况，在下一轮基学习器学习时努力地纠正这个错误。在回归问题中，这个错误被称为残差。比如，在学习样本\((x, y)\)得到一个模型\(f\)，预测值为\(\hat{y} = f(x)\)；那么残差则为：

\[
y - \hat{y} = y- f(x)
\]

如果定义损失函数为平方损失\(\frac{1}{2}(y-f(x))^2\)，那么其梯度为

\[
\frac{\partial \frac{1}{2}(y-f(x))^2}{\partial f(x)} = f(x) - y
\]

可以发现：残差为负梯度方向。对于平方损失，每一步优化是很简单的；但是，对于其他损失函数呢？Friedman利用负梯度近似残差，将Gradient Boosting推广到一般损失函数\(L(y, x)\)。步骤如下：

计算伪残差 (pseudo-residual)，

\[
r_{im} = - \left[ \frac{\partial L(y_i, f(x_i))}{\partial f(x_i)} \right]_{f = f_{m-1}}
\]

基学习器\(h_m(x)\)拟合样本\(\{ (x_i, r_{im}) \}\)；
计算最优乘子 (multiplier) \(\gamma_m\)，使得

\[
\gamma_m = \mathop{\arg \min} \limits_{\gamma} \sum_{i} L(y_i, f_{m-1}(x) + \gamma h_m(x_i))
\]

更新模型

\begin{equation}
f_m(x) = f_{m-1}(x) + \gamma_m h_m(x)
\label{eq:update}
\end{equation}

如此迭代，直至结束或模型收敛；最后一步得到的模型\(f_M(x)\)即为GBM的最终模型。

2. GBDT

如果基学习器为决策树时，GBM则被称为GBDT。决策树本质上是对特征空间的划分\(\{ R_{jm} \}\)，因此基学习器\(h_m(x)\)可改写为
\[
h_m(x) = \sum_j b_{jm} I(x \in R_{jm})
\]
其中，\(b_{jm}\)为预测值，\(I(.)\)为指示函数。那么，式子\eqref{eq:update}可以改写为
\[
f_m(x) = f_{m-1}(x) + \sum_j \gamma_{jm} I(x \in R_{jm})
\]
GBDT的算法步骤如下图所示（图片来自于 ESL [3]）：

为了减小过拟合，通过Shrinkage的方式：

\[
f_m(x) = f_{m-1}(x) + \upsilon \cdot \gamma_m h_m(x)
\]

其中，\(\upsilon\)称之为学习率 (learning rate)。经验表明，当学习率\(\upsilon < 0.1\)时，泛化能力远远超过没有Shrinkage的模型（即\(\upsilon =1\)）。但是，低学习率同时也带来了更多的迭代次数。

3. 参考资料

[1] Friedman, Jerome H. "Greedy function approximation: a gradient boosting machine." Annals of statistics (2001): 1189-1232.
[2] Friedman, Jerome H. "Stochastic gradient boosting." Computational Statistics & Data Analysis 38.4 (2002): 367-378.
[3] Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. The elements of statistical learning. Springer, Berlin: Springer series in statistics, 2009.
[4] Cheng Li, A Gentle Introduction to Gradient Boosting.

Boosting决策树：GBDT的更多相关文章

随机森林（Random Forest），决策树，bagging， boosting（Adaptive Boosting，GBDT）
http://www.cnblogs.com/maybe2030/p/4585705.html 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 ...
机器学习之梯度提升决策树GBDT
集成学习总结简单易学的机器学习算法——梯度提升决策树GBDT GBDT(Gradient Boosting Decision Tree) Boosted Tree:一篇很有见识的文章 https:/ ...
Ensemble Learning 之 Gradient Boosting 与 GBDT
之前一篇写了关于基于权重的 Boosting 方法 Adaboost,本文主要讲述 Boosting 的另一种形式 Gradient Boosting ,在 Adaboost 中样本权重随着分类正确与 ...
[机器学习]梯度提升决策树--GBDT
概述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由 ...
Boosting算法总结（ada boosting、GBDT、XGBoost）
把之前学习xgb过程中查找的资料整理分享出来,方便有需要的朋友查看,求大家点赞支持,哈哈哈作者:tangg, qq:577305810 一.Boosting算法 boosting算法有许多种具体算法 ...
梯度提升决策树(GBDT）
1.提升树以决策树为基函数的提升方法称为提升树.决策树可以分为分类树和回归树.提升树模型可以表示为决策树的加法模型. 针对不同的问题的提升术算法的主要区别就是损失函数的不同,对于回归问题我们选用平方 ...
Bagging和Boosting 概念及区别
Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法.即将弱分类器组装成强分类器的方法. 首先介绍Boot ...
Bagging和Boosting的区别
转:http://www.cnblogs.com/liuwu265/p/4690486.html Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的 ...
Boosting和Bagging的异同
二者都是集成学习算法,都是将多个弱学习器组合成强学习器的方法. 1.Bagging (主要关注降低方差) Bagging即套袋法,其算法过程如下: A)从原始样本集中抽取训练集.每轮从原始样本集中使用 ...

随机推荐

如何用unity3d实现发送带附件的邮件
以Gmail为例.点击屏幕的Capture按钮得到当前屏幕截图,点击Send按钮将之前的截图作为附件发送邮件. using UnityEngine; using System.Collections; ...
T-SQL语句中的转换函数
书接上回前面讲了聚合函数.字符串函数今天一起来看下转换函数首先是值类型转换 ),degree) 在C#里面是convert,现在在SQL中也是他,convert(转换类型,被转换列)from ...
笔记整理：计算CPU使用率 ----linux 环境编程从应用到内核
linux 提供time命令统计进程在用户态和内核态消耗的CPU时间: [root@localhost ~]# time sleep real 0m2.001s user 0m0.001s sys 0 ...
软件工程工具学习(1)---Visio
要给15级软件工程上机了.开个系列记录软件工程开发过程中所会用到的一些工具的学习. 第一篇---软件分析与设计工具 Microsoft Visio Visio 介绍 1.Visio是一款矢量图形与图标 ...
少年，是时候换种更优雅的方式部署你的php代码了
让我们来回忆下上次你是怎么发布你的代码的: 1. 先把线上的代码用ftp备份下来 2. 上传修改了的文件 3. 测试一下功能是否正常 4. 网站500了,赶紧用备份替换回去 5. 替换错了/替换漏了 ...
SQL注入详细介绍及如何防范SQL注入式攻击
一. SQL注入攻击的简单示例. statement := "SELECT * FROM Users WHERE Value= " + a_variable + " 上面 ...
MongoDB大数据高并发读写性能测试报告
服务器大小: 单节点部署,磁盘1T,内存128G 并发导入规模: 1,多线程并发导入csv文件 2,csv文件分1万.10万.100万.200万行记录4种大小 3,每个csv对应一个collectio ...
单例模式——Java EE设计模式解析与应用
单例模式目录: 一.何为单例二.使用Java EE实现单例模式三.使用场景一.何为单例确保一个类只有一个实例,并且提供了实例的一个全局访问点 1.1 单例模式类图 ...
设计模式的征途—6.建造者（Builder）模式
建造者模式又称为生成器模式,它是一种较为复杂.使用频率也相对较低的创建型模式.建造者模式为客户端返回的不是一个简单的产品,而是一个由多个部件组成的复杂产品.因为,没有人买车会只买一个方向盘或者轮胎,大 ...
JavaScript面向对象的理解
JavaScript面向对象的理解笔记链接: http://pan.baidu.com/s/1c0hivuS 1:JavaScript 中分两种对象,函数对象和普通对象new Function() ...

Boosting决策树：GBDT

1. Gradient Boosting

2. GBDT

3. 参考资料

Boosting决策树：GBDT的更多相关文章

随机推荐

热门专题