【Gradient Boosted Decision Tree】林轩田机器学习技术

GBDT之前实习的时候就听说应用很广，现在终于有机会系统的了解一下。

首先对比上节课讲的Random Forest模型，引出AdaBoost-DTree(D)

AdaBoost-DTree可以类比AdaBoost-Stump模型，就可以直观理解了

1）每轮都给调整sample的权重

2）获得gt(D,ut)

3）计算gt的投票力度alphat

最后返回一系列gt的线性组合。

weighted error这个比较难搞，有没有不用动原来的模型，通过输入数据上做文章就可以达到同样的目的呢?

回想bagging的weighted策略：每轮boostrapping的时候，样本的权重体现在copy个数上。

现在从一个更一般的角度来看，给定一个weighted u，如果对数据按照u的比例大小对样本进行sampling的动作，那么最后D中的数据也体现了weighted。

这样AdaBoost-DTree的原型就出来了：

1）AdaBoost方法

2）按照给定的权重对样本进行sampling的动作，生成每棵树的训练数据

3）训练每棵树

这种方法如果不限制树的高度，是容易产生autocracy的。原因是如果把所有的资料丢进去，容易全切开。

这里产生一个疑问：为什么random forest中每棵树就不会有这种完全切开全分开的情况，甚至在decision stump那个作业的时候，会不会有某个stump给全切开了。

1）个人感觉random forest样本、特征、分支条件（b(x)）都是randomness的，完全分开的可能性极小极小

2）至于decision stump，如果真有个decision stump能一刀切开，那也就不用这么复杂的模型了

总的来说，每棵树要弱一些。

如果弱到不能再弱，树就只留下一层了，这时候decision tree就退化成了decision stump了。

接下来，林开始讲解AdaBoost方法的一些optimization view以及内在的insights，这里的一些推导大体思路记住就可以了。

AdaBoost的核心是每个样本的权重变化，所谓的insights也是从这里出发。

1）把之前讲授的AdaBoost样本权重迭代公式转换一下形式（重点是引入了alphat）：

　　unt+1 = unt * exp(-yn * alphat * gt(xn))

2）根据修改后的迭代公式，给出了每个样本在T+1轮的权重通项公式：

　　unT+1 = 1/N * exp(- yn * Σt=1,T (alphat * gt(xn)) )

　　（这里有个地方在之前提到过，一般N个样本，每个样本的初始权重系那个灯，都是1/N）

综合上面两点，unT+1 与前面T轮产生的所有gt对样本点xn的综合打分情况（Σt=1,T (alphat * gt(xn))）有关系。

林在这里点出了一个insights：可以把voting score和margin联系起来，类比SVM中的margin概念。

1）把每个gt(xn)看成是xn的一种transform，前面的alphat看成是transformed之后的权重

2）这种形式很像hard-margin SVM中的margin

我们肯定是希望yn*(voting score)越大越好，因为这代表预测值跟实际值更靠近；因此我们可以得到unT+1有可能随着T增加而变小。

顺着这种思路，AdaBoost的大方向最起码应该是unT+1越小越好，那么Σn=1,N(unt)也应该是随着AdaBoost的迭代而逐步减小的。

因此，思路就是：预测的准 → yn*(voting score)越大越好 → ΣunT+1越小越好

于是，AdaBoost的优化目标函数就可以大概给出来了。

再次请出来我们的老朋友error0/1，对比一下AdaBoost又产生了一个bound住error0/1的上界的error measure，叫“exponential error measure”

如下图：

既然目标函数大概写出来了，下面就是怎么最小化这个目标函数了。

这个任务比较麻烦，因为是Σ套着exp再套着Σ，因此需要一些前人的智慧了。

模仿gradient descent的方法，假设前面已经AdaBoost完t-1轮了，现在要求的是一个函数gt(x)（或者称为h(x)）。

再第t轮，我们沿着函数h(x)的方向走ita的步长，可以使得目标函数迅速往min的方向走。如下：

1）由于前面已经执行完了t-1轮，因此可以把式子化简一下，把一些项目合并成unt的函数形式

2）利用xn=0点的泰勒展开，进一步化简（这里为什么要用0这个位置的taylor展开呢，可以理解成h(x)只是沿着原来的Σ1,t-1(alphat*g'(xn)这个函数，挪动的了一小步；这一小步，就意味着变化很小，变化很小甚至接近0，因此就可以在0点taylor展开。不晓得这种理解是否正确，意会吧）

到此，我们利用前人的智慧已经把目标函数给大大简化了，要求的东西有俩：

1）h(x)是啥？

2）ita是啥？

这里的方法还是挺巧妙的

1）先提出来一个固定的Σunt，后面留出来的“变化的一项”

2）再分析下后面变化的这一项，如果要后面变化这一项最小，那么就是最小化Einu(h)（周边再配合上一些常系数）

因此，可以获得结论：在AdaBoost的过程中，算法A就是good gt了！

下面再看ita如何求。

核心在于EADA是怎么变成可对ita求导的形式的：

EADA = u1t*exp(-ita) + u2t*exp(ita)...

EADA1 = u1t*exp(-ita) + ut2t*0 ... （EADA1只考虑exp(-ita)的项，其余的补上0）

EADA2 = u1t*0 + u2t * exp(ita) ...（EADA2只考虑exp(+ita)的项，其余的补上0）

则，EADA = EADA1 + EADA1 = (Σunt) * ( (1-epson)exp(-ita) + epson*exp(ita) )

随后的求导步骤就是很自然的了，因此就验证了之前的结论，itat = sqrt( (1-epsont)/epsont) )就是最优的。前一次课直接给出了这个结论，并没有说为什么，这次算是给出了一个相对理论些的推导。

再往更一般的Gradient Boost推广。

推广的方式就是泛化error measure function，如下：

沿着这个思路，下面往regression的方向上平移一下。

大体的目标还是两个：

1）求解函数h(x)的形式

2）求解函数h(x)移动的幅度

先搞定h(x)的形式

regression一般用square error，直接上taylor：

1）前面一项是constant，因为yn都知道sn也都知道

2）第二项要对s求导并在sn这点取导数值

这样，看起来貌似h(x)无穷大；这样不科学，于是要添加对于h(x)的惩罚项。

再经过penalize一番折腾之后，h终于有个像模像样的形式了：即regression with residuals。

接下来再解决移动幅度的问题。

一番云雨之后，alphat也求出来了，就是一个单变量的线性回归。

把前面的铺垫都做好了之后，简练地给出了GBDT的形式：

1）利用C&RT去学{x, yn-sn}，保留这一轮学出来的树gt(x)

2）再求{gt(x), residual}线性回归，最小化目标函数求出来ita

3）更新sn

学习足够多次数后，返回组合的GBDT。

最后，林对几种经典的aggregation模型进行了汇总。

Random Forest: 代表bagging+强子模型

AdaBoost DTree 或 GBDT ：代表AdaBoost+弱子模型

AdaBoost系列的方法：把弱的拼在一起，组成一个强的G(x)；背后的insights可以理解为，利用很多弱弱的模型做了特征转换，转化后再合并在一起就变强了。

RF系列的方法：把本身很强的拼在一起，通过diversity达到regularization的效果（有的子模型往正的方向强，有的往负的方向强，多搞一些这样的模型就中和了彼此的overfitting，类似SVM large margin的效应）

【Gradient Boosted Decision Tree】林轩田机器学习技术的更多相关文章

【Kernel Logistic Regression】林轩田机器学习技术
最近求职真慌,一方面要看机器学习,一方面还刷代码.还是静下心继续看看课程,因为觉得实在讲的太好了.能求啥样搬砖工作就随缘吧. 这节课的核心就在如何把kernel trick到logistic regr ...
【Soft-Margin Support Vector Machine】林轩田机器学习技术
Hard-Margin的约束太强了:要求必须把所有点都分开.这样就可能带来overfiiting,把noise也当成正确的样本点了. Hard-Margin有些“学习洁癖”,如何克服这种学习洁癖呢? ...
【Kernal Support Vector Machine】林轩田机器学习技术
考虑dual SVM 问题:如果对原输入变量做了non-linear transform,那么在二次规划计算Q矩阵的时候,就面临着:先做转换,再做内积:如果转换后的项数很多(如100次多项式转换),那 ...
（转载）林轩田机器学习基石课程学习笔记1 — The Learning Problem
(转载)林轩田机器学习基石课程学习笔记1 - The Learning Problem When Can Machine Learn? Why Can Machine Learn? How Can M ...
机器学习技法：11 Gradient Boosted Decision Tree
Roadmap Adaptive Boosted Decision Tree Optimization View of AdaBoost Gradient Boosting Summary of Ag ...
机器学习技法笔记：11 Gradient Boosted Decision Tree
Roadmap Adaptive Boosted Decision Tree Optimization View of AdaBoost Gradient Boosting Summary of Ag ...
【Decision Tree】林轩田机器学习技法
首先沿着上节课的AdaBoost-Stump的思路,介绍了Decision Tree的路数: AdaBoost和Decision Tree都是对弱分类器的组合: 1)AdaBoost是分类的时候,让所 ...
【Random Forest】林轩田机器学习技法
总体来说,林对于random forest的讲解主要是算法概况上的:某种程度上说,更注重insights. 林分别列举了Bagging和Decision Tree的各自特点: Random Fores ...
【Matrix Factorization】林轩田机器学习技法
在NNet这个系列中讲了Matrix Factorization感觉上怪怪的,但是听完第一小节课程就明白了. 林首先介绍了机器学习里面比较困难的一种问题:categorical features 这种 ...

随机推荐

Arduino-串口函数Serial
串口是Arduino与其它设备进行通信的接口,我们需要很好的掌握它的使用.Arduino串口使用相关的函数共有10个(随着版本的升级,新版本加入了更多,具体请参见官网:http://www.ardui ...
jQuery实现网页右下角悬浮层提示
最近有同事提到类似网页右下角的消息悬浮提示框的制作.我之前也做过一个类似的例子,很简单.是仿QQ消息.现在感觉之前的那个例子只是说了实现原理,整体上给你的感觉还是太丑,今天为大家带来一个新的例子.是D ...
Android（java）学习笔记97：使用GridView以及重写BaseAdapter
1. BaseAdapter: 对于ListView.GridView.Gallery.Spinner等等,它是它们的适配器,直接继承自接口类Adapter的,使用BaseAdapter时需要重写很多 ...
DOM(四)：h5扩展方法
getElementByClassName()方法getElementByClassName()方法接收一个参数,即一个包含一或多个类名的字符串,返回带有指定类的所有元素的NodeList //取得所 ...
centos6 编译安装gcc4.8.2
12 wget http://ftp.tsukuba.wide.ad.jp/software/gcc/releases/gcc-4.8.2/gcc-4.8.2.tar.gz 13 rm -r -f g ...
gearman安装实录
花了5个小时装好了gearman,问题不断,坑爹的服务器yum还坏了,悲催. 服务器系统:centos5.3 64位 gearman版本:1.1.8 安装包(相关依赖)下载 1.gearman安装包 ...
2017.11.1 微型计算机原理与接口技术-----第七章中断系统与8237A DMA控制器
第七章微型计算机原理与接口技术-----中断系统与8237A DMA控制器 (1)数据传送的两种方式:中断方式和直接存储器存取方式(DMA):中断是微处理器与外部设备交换信息的一种方式:DMA是存储 ...
10分钟了解代理模式与java中的动态代理
前言代理模式又分为静态代理与动态代理,其中动态代理是Java各大框架中运用的最为广泛的一种模式之一,下面就用简单的例子来说明静态代理与动态代理. 场景李雷是一个唱片公司的大老板,很忙, ...
CentOS 7与 Windows双系统丢失Windows启动项及默认启动项修改
1.Windows启动项消失的原因: 在安装Win7.8/10系统+CentOS7双系统后,默认会将mbr(Main Boot Record)改写为grub2,默认的CentOS7无法识别Wind ...
前端jQuery之文档操作
1.文档操作内部插入 A.append(B) 吧B添加到A的后面 A.appendTo(B) 吧A添加到B的后面 A.prepend(B) 吧B添加到A的前面 A.prependTo(B) 吧A添加到 ...

【Gradient Boosted Decision Tree】林轩田机器学习技术

【Gradient Boosted Decision Tree】林轩田机器学习技术的更多相关文章

随机推荐

热门专题