Boosting

将一些表现效果一般(可能仅仅优于随机猜测)的模型通过特定方法进行组合来获得一个表现效果较好的模型。抽象地说,模型的训练过程是对一任意可导目标函数的优化过程。

Adaptive boost

通过组合一系列表现一般的模型获得了一个表现优秀的模型,其中,每个新的模型都会基于前一个模型的表现结果进行调整(adaptive)

  • D1->D2->D3,为D1中错误分类点增加权重,从而得到D2,再对D2中的错误分类点增加权重,从而得到D3.
  • combine(D1,D2,D3)->D4

    基分类器最常见的是决策树,在每一轮提升相应错分类点的权重可以被理解为调整错分类点的observation
    probability。

Gradient boosting

Gradient Descent + Boosting,通过反复地选择一个指向负梯度方向的函数,该算法可被看做在函数空间里
对目标函数进行优化。可以说 AdaBoost 是 Gradient Boosting 的一个特例或者Gradient Boosting是对
AdaBoost进行推广。
和 AdaBoost 相同,Gradient Boosting也是重复选择一个表现一般的模型并且每次基于先前模型的表现进行
调整,不同之处在于,AdaBoost 是通过提升错分数据点的权重来定位模型的不足而 Gradient Boosting 是通
过算梯度(gradient)来定位模型的不足,即通过负梯度改进模型。

gradient boosting的损失函数可以是square loss,absolute loss等,square loss的缺点是异常值
的鲁棒性差。
gradient boosting可以用于回归、分类等问题,对于分类问题,它的基分类器一般是决策树,即
GBDT(gradient boosting decision tree)。

GBDT算法基树采用CART回归树,树节点的划分指标是平方损失函数,叶子节点的值是落在该叶子节点所有样本的目标均值。树与树之间的Boosting逻辑是:新树拟合的目标是上一课树的损失函数的负梯度的值。GBDT最终的输出结果是将样本在所有树上的叶子值相加。

GBDT V.S. LR

从决策边界来说,线性回归的决策边界是一条直线,逻辑回归的决策边界根据是否使用核函数可
以是一条直线或者曲线,而GBDT的决策边界可能是很多条线。
GBDT的基分类器是CART 树,并不一定总是好于线性回归或逻辑回归。

XGBoost

eXtreme Gradient Boosting,专注于快速计算和模型表现。
XGboost的工具支持并行化、分布式计算、去中心化计算、cache优化等。

XGBoost V.S. GBDT

  • 传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到
    了一阶和二阶导数。损失函数函数都是可自定义的,但 XGBoost 需要自定义损失函数二阶可导。
  • 传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2
    正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。
  • 基模型拟合差异, XGBoost 是拟合 -g/(h+r),GBDT是拟合-g。
  • xgboost在代价函数里加入了正则项,用于控制模型的复杂度,防止过拟合。
  • xgboost借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算。
  • 缺失值的处理。对于特征的缺失值,xgboost可以自动学习出它的分裂方向。
  • 特征粒度上的并行。决策树之间串行,决策树内计算最佳分裂点时(对特征值排序)并行。xgboost
    在训练之前,预先对数据进行了排序,然后保存为block结构,后面的迭代中重复地使用这个 结构,
    它在减小了重复计算的同时,可以多线程计算特征增益。

未完待续

Reference

参考1,medium
参考2,知乎

从boosting谈起的更多相关文章

  1. 从决策树学习谈到贝叶斯分类算法、EM、HMM --别人的,拷来看看

    从决策树学习谈到贝叶斯分类算法.EM.HMM     引言 最近在面试中,除了基础 &  算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全 ...

  2. 机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

    版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...

  3. 从决策树学习谈到贝叶斯分类算法、EM、HMM

    从决策树学习谈到贝叶斯分类算法.EM.HMM                (Machine Learning & Recommend Search交流新群:172114338) 引言 log ...

  4. 模型组合(Model Combining)之Boosting与Gradient Boosting

    版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...

  5. 集成学习算法汇总----Boosting和Bagging(推荐AAA)

     sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...

  6. 随机森林(Random Forest),决策树,bagging, boosting(Adaptive Boosting,GBDT)

    http://www.cnblogs.com/maybe2030/p/4585705.html 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 ...

  7. GBDT(Gradient Boosting Decision Tree) 没有实现仅仅有原理

                阿弥陀佛.好久没写文章,实在是受不了了.特来填坑,近期实习了(ting)解(shuo)到(le)非常多工业界经常使用的算法.诸如GBDT,CRF,topic model的一些算 ...

  8. [转]Boosting

    1 Boosting算法的起源 Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数.Boosting是一种提高任意给定 ...

  9. boosting、adaboost

    1.boosting Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数.他是一种框架算法,主要是通过对样本集的操作获 ...

随机推荐

  1. 跟我学SpringCloud | 第十篇:服务网关Zuul高级篇

    SpringCloud系列教程 | 第十篇:服务网关Zuul高级篇 Springboot: 2.1.6.RELEASE SpringCloud: Greenwich.SR1 如无特殊说明,本系列教程全 ...

  2. 使Toast弹出不重叠的封装

    一.问题 在频繁弹出toast的时候,弹出后出现延迟重叠的现象. 二.解决 Toast通常由makeTextT()方法实例化,如何不想要toast弹出时重叠,那么只需在应用中保持一个Toast对象即可 ...

  3. 什么是JS跨域请求

    这里说的js跨域是指通过js在不同的域之间进行数据传输或通信,比如用ajax向一个不同的域请求数据,或者通过js获取页面中不同域的框架中(iframe)的数据.只要协议.域名.端口有任何一个不同,都被 ...

  4. CSU 1808:地铁(Dijkstra)

    http://acm.csu.edu.cn/csuoj/problemset/problem?pid=1808 题意:…… 思路:和之前的天梯赛的一题一样,但是简单点. 没办法直接用点去算.把边看成点 ...

  5. HDU 6011:Lotus and Characters(贪心)

    http://acm.hdu.edu.cn/showproblem.php?pid=6011 题意:共有n种字符,每种字符有一个val和一个cnt,代表这个字符的价值和数量.可以制造的总价值是:第一个 ...

  6. Git使用小技巧之挑拣合并

    先想想一个情况,现在我们有一个功能急需要发布到线上,但是这个功能相关的代码所在的测试分(test)支有很多不应该发布的代码,那么这个时候我们就需要将与这个代码相关的提交选择性的合并到master上并发 ...

  7. django基础知识之POST属性:

    POST属性 QueryDict类型的对象 包含post请求方式的所有参数 与form表单中的控件对应 问:表单中哪些控件会被提交? 答:控件要有name属性,则name属性的值为键,value属性的 ...

  8. 对http请求进行过滤处理,转换成接收着需要的格式

    需要在Global.asax的Application中进行初始化处理 这样:GlobalConfiguration.Configuration.MessageHandlers.Add(new Defa ...

  9. 快速掌握mongoDB(二)——聚合管道和MapReduce

    上一节简单介绍了一下mongoDB的增删改查操作,这一节将介绍其聚合操作.我们在使用mysql.sqlserver时经常会用到一些聚合函数,如sum/avg/max/min/count等,mongoD ...

  10. 快速掌握mongoDB(五)——通过mongofiles和C#驱动操作GridFS

    1 GridFS简介 当前Bson能存储的最大尺寸是16M,我们想把大于16M的文件存入mongoDB中怎么办呢?mongoDB提供的GridFS就是专门做这个的.使用GridFS存储大文件时,文件被 ...