机器学习之梯度提升树GBDT

1、基本知识点简介
2、梯度提升树GBDT算法
- 2.1 思路和原理
- 2.2 梯度代替残差建立CART回归树

1、基本知识点简介

在集成学习的Boosting提升算法中，有两大家族：第一是AdaBoost提升学习方法，另一种是GBDT梯度提升树。
传统的AdaBoost算法：利用前一轮迭代弱学习器的误差来更新训练集的权重，一轮轮迭代下去。
梯度提升树GBDT：也是通过迭代的算法，使用前向分布算法，但是其弱分类器限定了只能使用CART回归树模型。
GBDT算法原理：指通过在残差减小的梯度方向建立boosting tree（提升树），即gradient boosting tree（梯度提升树）。每次建立新模型都是为了使之前模型的残差往梯度方向下降。

2、梯度提升树GBDT算法

2.1 思路和原理

基本思路：假设前一轮迭代得到的强学习器是\(f_{t-1}(x)\)，损失函数是\(L(y, f_{t-1}(x))\)，则本轮迭代的目标是找到一个CART回归树模型的弱学习器\(h_{t}(x)\)，让本轮的损失函数\(L(y,f_{t}(x)) = L(y,f_{t-1}(x)) - h_{t}(x)\)最小。即本轮迭代找到的损失函数要使样本的损失比上一轮更小。
大牛Freidman提出用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树，第 t 轮的第 i 个样本的损失函数的负梯度表示为：
\[r_{ti} = - [\frac{\partial L(y_{i}, f(x_{i})) }{\partial f(x_{i}) }]_{f(x)=f_{t-1}(x)}\]

2.2 梯度代替残差建立CART回归树

利用\((x_{i}, r_{ti}), (i=1,2,...,m)\)（此处损失函数的负梯度代替了一般提升树的残差），我们可以拟合一棵CART回归树，得到第 t 棵回归树，其对应的叶结点区域\(R_{tj}, j=1,2,...,J\)。其中J为叶子结点的个数。

对于每一个叶子结点的样本，通过使平方误差损失函数最小，输出拟合叶子结点最好的输出值\(C_{tj}\)（CART回归树中采取的公式是每一个样本的划分单元上的所有实例\(x_{i}\)的所有输入实例对应的输出平均值，即\(\hat{c}_{m} = ave(y_{i} | x_{i} \in R_{m})\)），此处输出值为：
\[c_{tj} = arg \min\limits_{c} \sum\limits_{x_{i} \in R_{tj}} L(y_{i}, f_{t-1}(x_{i}) + c)\]
因此本轮决策树的拟合函数为：
\[h_{t}(x) = \sum\limits_{j=1}^{J} c_{tj} I(x \in R_{tj})\]
从而得到本轮的强学习器表达式为：
\[f_{t}(x) = f_{t-1}(x) + \sum\limits_{j=1}^{J} c_{tj} I(x \in R_{tj})\]
如果是GBDT分类算法，则需要改变损失函数为指数损失函数（类似为AdaBoost算法），或者对数似然损失函数（逻辑回归）。——暂时不作分析。
指数损失函数：\(L(y, f(x)) = exp(-Y(f(x)))\)
对数损失函数：\(L(Y,P(Y|X)) = -log P(Y|X)\)

参考：
1、GBDT：https://www.cnblogs.com/pinard/p/6140514.html

机器学习之梯度提升树GBDT的更多相关文章

梯度提升树(GBDT)原理小结(转载)
在集成学习值Adaboost算法原理和代码小结(转载)中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boos ...
机器学习之梯度提升决策树GBDT
集成学习总结简单易学的机器学习算法——梯度提升决策树GBDT GBDT(Gradient Boosting Decision Tree) Boosted Tree:一篇很有见识的文章 https:/ ...
scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
scikit-learn 梯度提升树(GBDT)调参笔记
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
梯度提升树(GBDT)原理小结
在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting De ...
笔记︱决策树族——梯度提升树(GBDT）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本笔记来源于CDA DSC,L2-R语言课程所 ...
梯度提升树GBDT算法
转自https://zhuanlan.zhihu.com/p/29802325 本文对Boosting家族中一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 简 ...
梯度提升树GBDT总结
提升树的学习优化过程中,损失函数平方损失和指数损失时候,每一步优化相对简单,但对于一般损失函数优化的问题,Freidman提出了Gradient Boosting算法,其利用了损失函数的负梯度在当前模 ...
机器学习（七）—Adaboost 和梯度提升树GBDT
1.Adaboost算法原理,优缺点: 理论上任何学习器都可以用于Adaboost.但一般来说,使用最广泛的Adaboost弱学习器是决策树和神经网络.对于决策树,Adaboost分类用了CART分类 ...

随机推荐

spring BeanFactory VS FactoryBean
一.FactoryBean示例 public class DateStringFactoryBean implements FactoryBean<Object> { private bo ...
selenium定位下拉框
下拉选择框(Select) <div> <p>下拉选择框框 Select</p> <select id="proAddItem_kind" ...
[js]js中函数传参判断
1,通过|| function fun(x,y){ x=x||0; y=y||1; alert(x+y); } fun(); 2.通过undefined对比 function fun(x,y){ if ...
PHP多维数组转一维
目录 1. array_column函数 2. array_walk函数 3. array_map函数 4. foreach循环 5. array_map变种参考:https://www.awaim ...
非CI执行Allure2 trends空白问题
问题描述未使用CI工具集成Aluure运行测试用例并生成Allure报告,多次执行后,trends是空白的,未展示出期望的趋势图问题原因非CI工具,是通过命令 allure serve 展示报告 ...
Java作业（一）
再此次的Java考试中发现自己的不足,无法套用HTML模板进行编程,说实话拿到的第一刻自己有些懵,不知道怎么去操作, 后来通过查询操作了一些,但是整个人还是懵懵的,不知道下一步怎么办,怎么去连接后台和 ...
POJ 1986 Distance Queries(LCA Tarjan法)
Distance Queries [题目链接]Distance Queries [题目类型]LCA Tarjan法 &题意: 输入n和m,表示n个点m条边,下面m行是边的信息,两端点和权,后面 ...
puppeteer（一）环境搭建——新Web自动化工具（同selenium）
一.简介 https://github.com/GoogleChrome/puppeteer Puppeteer是一个Node库,它提供了一个高级API来控制DevTools协议上的 Chrome或C ...
python多线程学习二
本文希望达到的目标: 多线程同步原语:互斥锁多线程队列queue 线程池threadpool 一.多线程同步原语:互斥锁在多线程代码中,总有一些特定的函数或者代码块不应该被多个线程同时执行,通常包 ...
[ Build Tools ] Repositories
仓库介绍 http://hao.jobbole.com/central-repository/ https://my.oschina.net/pingjiangyetan/blog/423380 ht ...

机器学习 之梯度提升树GBDT

1、基本知识点简介

2、梯度提升树GBDT算法

2.1 思路和原理

2.2 梯度代替残差建立CART回归树

机器学习 之梯度提升树GBDT的更多相关文章

随机推荐

热门专题

机器学习之梯度提升树GBDT

机器学习之梯度提升树GBDT的更多相关文章