更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/

scikit-learn库之梯度提升树

本文主要介绍梯度提升树的两个模型GradientBoostingClassifierGradientBoostingRegressor,这两个模型调参包括两部分,第一部分是Bagging框架,第二部分是CART决策树的参数。本文会详解介绍GradientBoostingClassifier模型,然后会对比着讲解GradientBoostingRegressor模型。

接下来将会讨论上述两者的区别,由于是从官方文档翻译而来,翻译会略有偏颇,有兴趣的也可以去scikit-learn官方文档查看https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble

一、GradietBoostingClassifier

1.1 使用场景

GradientBoostingClassifier模型主要用于解决分类问题。

1.2 参数

  • loss:损失函数,str类型。分类梯度提升树默认为'deviance'。

    • 对于分类提升树,可以选择'deviance'对数似然损失函数和'exponential'指数损失函数。一般推荐使用默认的'deviance',如果使用'exponential'二分类时等同于AdaBoost算法。默认为'deviance'。
    • 对于回归提升树可以选择'ls'均方误差、'lad'绝对损失、'lad'绝对损失、'hub'Huber损失、'quantile'分位数损失。数据噪声不多,使用默认的'ls';噪音较多,使用'huber';对训练集分段预测,使用'quantile'。使用'huber'和'quantile'的时候需要指定参数alpha。默认为'ls'。
  • learning_rate:权重缩减系数,float类型。这个参数是正则化项的参数\(\lambda\)。较小的\(\lambda\)需要更多的迭代次数,即learning_rate和n_estimators需要一起调参。默认为1。
  • n_estimators::弱学习器个数,int类型。弱学习器的个数,也可以说是弱学习的最大迭代次数,如果n_estimators过大,容易过拟合;如果n_estimators过小,容易欠拟合。默认为10。
  • subsample:子采样,float类型。subsample取值范围为\((0,1]\),这里的子采样是不放回抽样,如果取值为1,则使用全部样本,如果取值小于去,只有训练一部分样本,使用该参数可以减小方差,防止过拟合,但是会增加样本拟合的偏差,一般取值在\([0.5,0.8]\)。默认为1.0。
  • criterion:特征选择,str类型。criterion='gini'表示基尼指数;criterion='entropy'表示信息增益,推荐使用'gini'。默认为'gini'。
  • splitter:特征划分点选择,str类型。默认为'friedman_mse'。
  • min_samples_split:内部节点划分需要最少样本数,float类型。限定子树继续划分的条件,如果某节点的样本数少于min_samples_split,则会停止继续划分子树。如果样本数量过大,建议增大该值,否则建议使用默认值。默认为2。
  • min_samples_leaf:叶子节点最少样本数float类型。如果在某次划分叶子节点数目小于样本数,则会和兄弟节点一起剪枝。如果样本数量过大,建议增大该值,否则建议使用默认值。默认为1。
  • min_weight_fraction_leaf:叶子节点最小的样本权重和,float类型。该参数限制了叶子节点所有样本权重和的最小值,如果小于该值,则会和兄弟节点一起剪枝。如果样本有角度的缺失值,或者样本的分布偏差较大,则可以考虑权重问题。默认为0。
  • max_depth:最大深度,int类型。限制决策树的深度。默认为3。
  • max_leaf_nodes:最大叶子节点数,int类型。限制最大叶子节点数,可以防止树过深,因此可以防止过拟合。默认为None。
  • min_impurity_decrease:节点减小不纯度,float类型。如果某节点划分会导致不纯度的减少大于min_impurity_decrease,则停止该节点划分。默认为0。
  • min_impurity_split:节点划分最小不纯度,float类型。如果某节点的不纯度小于min_impurity_split,则停止该节点划分,即不生成叶子节点。默认为1e-7(0.0000001)。
  • class_weight:类别权重,dict类型或str类型。对于二元分类问题可以使用class_weight={0:0.9,1:0.1},表示0类别权重为0.9,1类别权重为0.1,str类型即为'balanced',模型将根据训练集自动修改不同类别的权重。默认为None。
  • init:初始弱学习器,弱学习器类型。对应前向分步算法中的\(f_0(x)\),除非对数据有先验知识,否则不用管这个参数。可选参数。
  • random_state:随机数种子,int类型。random_state=None,不同时刻产生的随机数据是不同的;random_state=int类型,相同随机数种子不同时刻产生的随机数是相同的。默认为None。
  • max_features:划分的最大特征数,str、int、float类型。max_depth='log2'表示最多考虑\(log_2n\)个特征;max_depth={'sqrt','auto'}表示最多考虑\(\sqrt{n}\)个特征;max_depth=int类型,考虑\(|int类型|\)个特征;max_depth=float类型,如0.3,则考虑\(0.3n\)个特征,其中\(n\)为样本总特征数。默认为None,样本特征数不大于50推荐使用默认值。
  • verbose:日志冗长度,int类型。verbose=0,不输出训练过程;verbose=1,输出部分训练过程;verbose>1,输出所有的训练过程。默认为0。
  • max_leaf_nodes:最大叶子节点数,int类型。限制最大叶子节点数,可以防止树过深,因此可以防止过拟合。默认为None。
  • warm_start:热启动,bool类型。如果为True,则基于上一个随机森林添加决策树;如果为False,则重新生成一个随机森林。默认为False。
  • presort:数据是否排序,bool类型。样本量较小,presort=True,即让样本数据排序,节点划分速度更快;样本量较大,presort=True,让样本排序反而会增加训练模型的时间。通常使用默认值。默认值为False。
  • validation_fraction:预留数据,float类型。取值范围为\([0,1]\),预留多少比例的数据做验证。默认为0.1。
  • n_iter_no_change:停止训练,int类型。可以在设置一个参数控制算法,在验证分数没有提高的时候提早结束。默认为None。
  • tol:损失停止训练,float类型。设置一个值在损失在某个区间内没有改善时停止算法。默认为1e-4。

1.3 属性

  • estimators_:list类型。所有决策树集合。
  • feature_importances_:array类型。特征重要度。
  • oob_improvement_:array类型。袋外样本对前一次迭代损失的改善程度。
  • train_score_:array类型。袋内样本训练数据的偏差。
  • loss_:返回损失函数。
  • init_:返回初始弱学习器。
  • estimators_:ndarray类型。弱学习器集。

1.4 方法

  • apply(X[, check_input]):返回每个样本预测的叶子节点索引。
  • decision_function(X):决策函数关于样本X的值。
  • fit(X,y):把数据放入模型中训练模型。
  • get_params([deep]):返回模型的参数,可以用于Pipeline中。
  • predict(X):预测样本X的分类类别。
  • predict_log_proba(X):返回样本X在各个类别上对应的对数概率。
  • predict_proba(X):返回样本X在各个类别上对应的概率。
  • score(X,y):基于报告决定系数\(R^2\)评估模型。
  • set_prams(**params):创建模型参数。
  • staged_decision_function(X):返回每个阶段样本X的决策函数值。
  • staged_predict(X):返回每个阶段样本X的预测值。
  • staged_predict_proba(X):返回每个阶段样本X在各个类别上对应的概率。

二、GradietBoostingClassifier

GradientBoostingClassifier较于GradientBoostingClassifier模型主要用于解决回归问题,不同之处在于处理预测值的方法不同和使用的损失函数的不同。

04-07 scikit-learn库之梯度提升树的更多相关文章

  1. 【Spark机器学习速成宝典】模型篇07梯度提升树【Gradient-Boosted Trees】(Python版)

    目录 梯度提升树原理 梯度提升树代码(Spark Python) 梯度提升树原理 待续... 返回目录 梯度提升树代码(Spark Python) 代码里数据:https://pan.baidu.co ...

  2. 梯度提升树(GBDT)原理小结

    在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting De ...

  3. 梯度提升树(GBDT)原理小结(转载)

    在集成学习值Adaboost算法原理和代码小结(转载)中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boos ...

  4. 梯度提升树GBDT算法

    转自https://zhuanlan.zhihu.com/p/29802325 本文对Boosting家族中一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 简 ...

  5. GBDT(梯度提升树)scikit-klearn中的参数说明及简汇

    1.GBDT(梯度提升树)概述: GBDT是集成学习Boosting家族的成员,区别于Adaboosting.adaboosting是利用前一次迭代弱学习器的误差率来更新训练集的权重,在对更新权重后的 ...

  6. GBDT(梯度提升树) 原理小结

    在之前博客中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简 ...

  7. 梯度提升树GBD

    转自 http://blog.csdn.net/u014568921/article/details/49383379 另外一个很容易理解的文章 :http://www.jianshu.com/p/0 ...

  8. scikit-learn 梯度提升树(GBDT)调参小结

    在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...

  9. 笔记︱决策树族——梯度提升树(GBDT)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本笔记来源于CDA DSC,L2-R语言课程所 ...

随机推荐

  1. Spring@Autowired java.lang.NullPointerException 空指针

    在使用@Autowired注解注入出现的空指针  java.lang.NullPointerException  可能存在的错误原因: 1.注解的扫描有问题 在xml配置了这个标签后,spring可以 ...

  2. Java常见面试题-1

    问: 1 面向对象的特征有哪些方面? 2 访问修饰符public,private,protected,以及不写(默认)时的区别? 3  String 是最基本的数据类型吗? 对象类型 基本类型 4  ...

  3. SpringCloud学习笔记(3):使用Feign实现声明式服务调用

    简介 Feign是一个声明式的Web Service客户端,它简化了Web服务客户端的编写操作,相对于Ribbon+RestTemplate的方式,开发者只需通过简单的接口和注解来调用HTTP API ...

  4. 你真的了解Grid布局吗?

    Grid网格布局 概述:Grid将容器划分为一个个网格,通过任意组合不同的网格,做出你想想要的布局 Grid与flex布局相似,将整个Grid分为了容器与子项(格子) Grid容器的三个重要的概念: ...

  5. Python二元操作符

    def quiz_message(grade): outcome = 'failed' if grade<50 else 'passid' print ('grade', grade, 'out ...

  6. Git使用(二)版本库创建及文件修改

    一.创建版本库 1.安装完成后,在开始菜单里找到“Git”->“Git Bash”,蹦出一个类似命令行窗口的东西,就说明Git安装成功! 安装完成后,还需要最后一步设置,在命令行输入: $ gi ...

  7. Android-隐藏app图标以及隐式启动

    隐藏APP桌面图标 <activity android:name=".LaunchActivity"> <intent-filter> <action ...

  8. HBase 超详细介绍

    1-HBase的安装 HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到 ...

  9. Elasticsearch(8) --- 聚合查询(Metric聚合)

    Elasticsearch(8) --- 聚合查询(Metric聚合) 在Mysql中,我们可以获取一组数据的 最大值(Max).最小值(Min).同样我们能够对这组数据进行 分组(Group).那么 ...

  10. [Leetcode] 第309题 最佳买卖股票时机含冷冻期

    一.题目描述 给定一个整数数组,其中第 i 个元素代表了第 i 天的股票价格 .​ 设计一个算法计算出最大利润.在满足以下约束条件下,你可以尽可能地完成更多的交易(多次买卖一支股票): 你不能同时参与 ...