1. RF

随机森林基于Bagging的策略是Bagging的扩展变体，概括RF包括四个部分：1、随机选择样本（放回抽样）；2、随机选择特征（相比普通通bagging多了特征采样）；3、构建决策树；4、随机森林投票（平均）。在构建决策树的时候，RF的每棵决策树都最大可能的进行生长而不进行剪枝；在对预测输出进行结合时，RF通常对分类问题使用简单投票法，回归任务使用简单平均法。　　

RF的重要特性是不用对其进行交叉验证或者使用一个独立的测试集获得无偏估计，它可以在内部进行评估，也就是说在生成的过程中可以对误差进行无偏估计，由于每个基学习器只使用了训练集中约63.2%的样本，剩下约36.8%的样本可用做验证集来对其泛化性能进行“包外估计”。

2. GBDT

基于Boosting，GBDT与传统的Boosting区别较大，它的每一次计算都是为了减少上一次的残差，而为了消除残差，我们可以在残差减小的梯度方向上建立模型,所以说，在GradientBoost中，每个新的模型的建立是为了使得之前的模型的残差往梯度下降的方法，与传统的Boosting中关注正确错误的样本加权有着很大的区别。
　　在GradientBoosting算法中，关键就是利用损失函数的负梯度方向在当前模型的值作为残差的近似值，进而拟合一棵CART回归树。 GBDT的会累加所有树的结果，而这种累加是无法通过分类完成的，因此GBDT的树都是CART回归树，而不是分类树（尽管GBDT调整后也可以用于分类但不代表GBDT的树为分类树）。

3. GBDT VS XGBOOST

1. 传统GBDT以CART作为基分类器，特指梯度提升决策树算法，而XGBoost还支持线性分类器（gblinear），这个时候XGBoost就相当于带L1正则和L2正则项的 logistics回归（分类问题）或者线性回归（回归问题）
2. 传统的GBDT只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。
3. xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统的GBDT的一个特性

4.LightGBM

lightGBM 是微软开发的一个GBDM开源实现，其相比Xgboost有如下优势（摘自LightGBM官方网站）
1. 速度和内存使用的优化
LightGBM 利用基于 histogram 的算法，通过将连续特征（属性）值分段为 discrete bins 来加快训练的速度并减少内存的使用，相比于xgboost的pre-sort算法，复杂度从O(N)降到O(bin)
2. 基于直方图的稀疏优化
对于稀疏的特征仅仅需要 O(2 * #non_zero_data) 来建立直方图
3. 准确率的优化
Leaf-wise (Best-first) 的决策树生长策略
大部分决策树的学习算法通过 level(depth)-wise 策略生长树

xgboost与LightGBM的区别

xgboost和lightgbm是gbdt的优秀工程实现及优化改进。

切分算法（切分点的选取）
占用的内存更低，只保存特征离散化后的值，而这个值一般用8位整型存储就足够了，内存消耗可以降低为原来的1/8
LightGBM直接支持类别特征
决策树生长策略不同

1.下列关于分类器的说法中不正确的是（）

正确答案: C 你的答案: D (错误)

SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，属于结构风险最小化

Naive Bayes是一种特殊的Bayes分类器，其一个假定是每个变量相互独立。

Xgboost是一种优秀的集成算法，其优点包括速度快、对异常值不敏感、支持自定义损失函数等等

随机森林中列采样的过程保证了随机性，所以就算不剪枝，也不容易出现过拟合。

GBDT核心在于每一棵树学的是之前所有树的结论和的残差，残差是一个加预测值后能得到真实值得累加量，xgboost和GBDT差不多，不过还支持线性分类器

xgboost可以自定损失函数，速度很快，但是对异常值很敏感

2. 下列哪一项符合GDBT的算法描述

从样本集中用Bootstrap采样选出n个样本, 在所有属性上对这n个样本建立分类器,重复建立m个分类器，最终投票分类

从样本集中用Bootstrap采样选出n个样本，预建立CART，在树的每个节点上，从所有属性中随机选择k个属性，选择出一个最佳分割属性作为节点，重复建立m棵树，最终投票分类

对于输入的一个样本实例，首先会赋予一个初值，然后会遍历每一棵决策树，每棵树都会对预测值进行调整修正，最后得到预测的结果

每一颗树始终拟合到目前为止的残差

解析：A 是bagging的描述， B是rf随机森林的描述， D比较模糊【只有当目标函数是square error时才是对的，通常我们会采用这个loss func，正确的应该是gradient的方向】

rf, xgboost和GBDT对比；xgboost和lightGbm的更多相关文章

随机森林RF、XGBoost、GBDT和LightGBM的原理和区别
目录 1.基本知识点介绍 2.各个算法原理 2.1 随机森林 -- RandomForest 2.2 XGBoost算法 2.3 GBDT算法(Gradient Boosting Decision T ...
GBDT、XGBOOST、LightGBM调参数
总的认识: LightGBM > XGBOOST > GBDT 都是调参数比较麻烦. GBDT分类的最佳调参数的讲解: Gradient Boosting Machine(GBM)调参 ...
RF、GBDT、XGBOOST常见面试算法整理
1. RF(随机森林)与GBDT之间的区别相同点: 1)都是由多棵树组成的 2)最终的结果都是由多棵树一起决定不同点: 1) 组成随机森林的树可以是分类树也可以是回归树,而GBDT只由回归树组 ...
一步一步理解GB、GBDT、xgboost
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类.回归.排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的.本文尝试一步一步梳理GB.GBDT.xgboost,它们 ...
机器学习算法总结(四)——GBDT与XGBOOST
Boosting方法实际上是采用加法模型与前向分布算法.在上一篇提到的Adaboost算法也可以用加法模型和前向分布算法来表示.以决策树为基学习器的提升方法称为提升树(Boosting Tree).对 ...
机器学习（八）—GBDT 与 XGBOOST
RF.GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性. 根据个体学习器的生成方式,目前 ...
GB、GBDT、XGboost理解
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类.回归.排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的.本文尝试一步一步梳理GB.GBDT.xgboost,它们 ...
Boosting算法总结（ada boosting、GBDT、XGBoost）
把之前学习xgb过程中查找的资料整理分享出来,方便有需要的朋友查看,求大家点赞支持,哈哈哈作者:tangg, qq:577305810 一.Boosting算法 boosting算法有许多种具体算法 ...
机器学习总结（一） Adaboost,GBDT和XGboost算法
一: 提升方法概述提升方法是一种常用的统计学习方法,其实就是将多个弱学习器提升(boost)为一个强学习器的算法.其工作机制是通过一个弱学习算法,从初始训练集中训练出一个弱学习器,再根据弱学习器的表 ...

随机推荐

Struts2之上传
单文件上传上传页面 <%@ page language="java" contentType="text/html; charset=UTF-8" pa ...
UML类图及类之间关系
1.UML基本介绍 UML:统一建模语言,是一种用于软件系统分析和设计的语言工具 2.UML图 UML图分类: 用例图静态结构图:类图,对象图,包图,组件图,部署图动态行为图:交互图,状态图,活动 ...
ubuntu离线安装mysql
一:ubuntu离线安装mysql 转载来源:https://blog.csdn.net/liuhuoxingkong/article/details/80696574 参考文章:https://ww ...
deque(双向队列)基本用法
deque(双向队列)基本用法阅读体验:https://zybuluo.com/Junlier/note/1297030 简单介绍就是可以两头插元素,两头删元素的数据结构那么具体的STL操作(只 ...
Cannot modify header information - headers already sent by出错的原因
<?php ob_start(); setcookie("username","送家",time()+3600); echo "the user ...
Python自学第一天
Python #-*- coding:utf8 -*-(Python文件开头添加)用来解决中文编码问题注:Python3以上文件不用加一.变量:变量有数字.字母和下划线组成 1.不能以数字开头 2 ...
G a+b+c+d=?
G a+b+c+d=? 链接:https://ac.nowcoder.com/acm/contest/338/G来源:牛客网题目描述 This is a very simple problem! Y ...
android 完全退出应用程序（经过严格验证）
今天解决了如何彻底结束Android应用程序的方法.网上有很多的参考方法,什么finish():android.os.Process.killProcess(android.os.Process.my ...
jquery实现表单验证与页面加载之后执行渲染
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
系统INIT 启动脚本的结构/etc/rc.d/init.d/*

rf, xgboost和GBDT对比；xgboost和lightGbm

xgboost与LightGBM的区别

正确答案: C 你的答案: D (错误)

rf, xgboost和GBDT对比；xgboost和lightGbm的更多相关文章

随机推荐

热门专题