更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：https://www.cnblogs.com/nickchen121/

scikit-learn库之梯度提升树

本文主要介绍梯度提升树的两个模型GradientBoostingClassifier和GradientBoostingRegressor，这两个模型调参包括两部分，第一部分是Bagging框架，第二部分是CART决策树的参数。本文会详解介绍GradientBoostingClassifier模型，然后会对比着讲解GradientBoostingRegressor模型。

接下来将会讨论上述两者的区别，由于是从官方文档翻译而来，翻译会略有偏颇，有兴趣的也可以去scikit-learn官方文档查看https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble

一、GradietBoostingClassifier

1.1 使用场景

GradientBoostingClassifier模型主要用于解决分类问题。

1.2 参数

loss：损失函数，str类型。分类梯度提升树默认为'deviance'。
- 对于分类提升树，可以选择'deviance'对数似然损失函数和'exponential'指数损失函数。一般推荐使用默认的'deviance'，如果使用'exponential'二分类时等同于AdaBoost算法。默认为'deviance'。
- 对于回归提升树可以选择'ls'均方误差、'lad'绝对损失、'lad'绝对损失、'hub'Huber损失、'quantile'分位数损失。数据噪声不多，使用默认的'ls'；噪音较多，使用'huber'；对训练集分段预测，使用'quantile'。使用'huber'和'quantile'的时候需要指定参数alpha。默认为'ls'。
learning_rate：权重缩减系数，float类型。这个参数是正则化项的参数\(\lambda\)。较小的\(\lambda\)需要更多的迭代次数，即learning_rate和n_estimators需要一起调参。默认为1。
n_estimators：：弱学习器个数，int类型。弱学习器的个数，也可以说是弱学习的最大迭代次数，如果n_estimators过大，容易过拟合；如果n_estimators过小，容易欠拟合。默认为10。
subsample：子采样，float类型。subsample取值范围为\((0,1]\)，这里的子采样是不放回抽样，如果取值为1，则使用全部样本，如果取值小于去，只有训练一部分样本，使用该参数可以减小方差，防止过拟合，但是会增加样本拟合的偏差，一般取值在\([0.5,0.8]\)。默认为1.0。
criterion：特征选择，str类型。criterion='gini'表示基尼指数；criterion='entropy'表示信息增益，推荐使用'gini'。默认为'gini'。
splitter：特征划分点选择，str类型。默认为'friedman_mse'。
min_samples_split：内部节点划分需要最少样本数，float类型。限定子树继续划分的条件，如果某节点的样本数少于min_samples_split，则会停止继续划分子树。如果样本数量过大，建议增大该值，否则建议使用默认值。默认为2。
min_samples_leaf：叶子节点最少样本数float类型。如果在某次划分叶子节点数目小于样本数，则会和兄弟节点一起剪枝。如果样本数量过大，建议增大该值，否则建议使用默认值。默认为1。
min_weight_fraction_leaf：叶子节点最小的样本权重和，float类型。该参数限制了叶子节点所有样本权重和的最小值，如果小于该值，则会和兄弟节点一起剪枝。如果样本有角度的缺失值，或者样本的分布偏差较大，则可以考虑权重问题。默认为0。
max_depth：最大深度，int类型。限制决策树的深度。默认为3。
max_leaf_nodes：最大叶子节点数，int类型。限制最大叶子节点数，可以防止树过深，因此可以防止过拟合。默认为None。
min_impurity_decrease：节点减小不纯度，float类型。如果某节点划分会导致不纯度的减少大于min_impurity_decrease，则停止该节点划分。默认为0。
min_impurity_split：节点划分最小不纯度，float类型。如果某节点的不纯度小于min_impurity_split，则停止该节点划分，即不生成叶子节点。默认为1e-7(0.0000001)。
class_weight：类别权重，dict类型或str类型。对于二元分类问题可以使用class_weight={0:0.9,1:0.1}，表示0类别权重为0.9，1类别权重为0.1，str类型即为'balanced'，模型将根据训练集自动修改不同类别的权重。默认为None。
init：初始弱学习器，弱学习器类型。对应前向分步算法中的\(f_0(x)\)，除非对数据有先验知识，否则不用管这个参数。可选参数。
random_state：随机数种子，int类型。random_state=None，不同时刻产生的随机数据是不同的；random_state=int类型，相同随机数种子不同时刻产生的随机数是相同的。默认为None。
max_features：划分的最大特征数，str、int、float类型。max_depth='log2'表示最多考虑\(log_2n\)个特征；max_depth={'sqrt','auto'}表示最多考虑\(\sqrt{n}\)个特征；max_depth=int类型，考虑\(|int类型|\)个特征；max_depth=float类型，如0.3，则考虑\(0.3n\)个特征，其中\(n\)为样本总特征数。默认为None，样本特征数不大于50推荐使用默认值。
verbose：日志冗长度，int类型。verbose=0，不输出训练过程；verbose=1，输出部分训练过程；verbose>1，输出所有的训练过程。默认为0。
max_leaf_nodes：最大叶子节点数，int类型。限制最大叶子节点数，可以防止树过深，因此可以防止过拟合。默认为None。
warm_start：热启动，bool类型。如果为True，则基于上一个随机森林添加决策树；如果为False，则重新生成一个随机森林。默认为False。
presort：数据是否排序，bool类型。样本量较小，presort=True，即让样本数据排序，节点划分速度更快；样本量较大，presort=True，让样本排序反而会增加训练模型的时间。通常使用默认值。默认值为False。
validation_fraction：预留数据，float类型。取值范围为\([0,1]\)，预留多少比例的数据做验证。默认为0.1。
n_iter_no_change：停止训练，int类型。可以在设置一个参数控制算法，在验证分数没有提高的时候提早结束。默认为None。
tol：损失停止训练，float类型。设置一个值在损失在某个区间内没有改善时停止算法。默认为1e-4。

1.3 属性

estimators_：list类型。所有决策树集合。
feature_importances_：array类型。特征重要度。
oob_improvement_：array类型。袋外样本对前一次迭代损失的改善程度。
train_score_：array类型。袋内样本训练数据的偏差。
loss_：返回损失函数。
init_：返回初始弱学习器。
estimators_：ndarray类型。弱学习器集。

1.4 方法

apply(X[, check_input])：返回每个样本预测的叶子节点索引。
decision_function(X)：决策函数关于样本X的值。
fit(X,y)：把数据放入模型中训练模型。
get_params([deep])：返回模型的参数，可以用于Pipeline中。
predict(X)：预测样本X的分类类别。
predict_log_proba(X)：返回样本X在各个类别上对应的对数概率。
predict_proba(X)：返回样本X在各个类别上对应的概率。
score(X,y)：基于报告决定系数\(R^2\)评估模型。
set_prams(**params)：创建模型参数。
staged_decision_function(X)：返回每个阶段样本X的决策函数值。
staged_predict(X)：返回每个阶段样本X的预测值。
staged_predict_proba(X)：返回每个阶段样本X在各个类别上对应的概率。

二、GradietBoostingClassifier

GradientBoostingClassifier较于GradientBoostingClassifier模型主要用于解决回归问题，不同之处在于处理预测值的方法不同和使用的损失函数的不同。

04-07 scikit-learn库之梯度提升树的更多相关文章

【Spark机器学习速成宝典】模型篇07梯度提升树【Gradient-Boosted Trees】（Python版）
目录梯度提升树原理梯度提升树代码(Spark Python) 梯度提升树原理待续... 返回目录梯度提升树代码(Spark Python) 代码里数据:https://pan.baidu.co ...
梯度提升树(GBDT)原理小结
在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting De ...
梯度提升树(GBDT)原理小结(转载)
在集成学习值Adaboost算法原理和代码小结(转载)中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boos ...
梯度提升树GBDT算法
转自https://zhuanlan.zhihu.com/p/29802325 本文对Boosting家族中一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 简 ...
GBDT(梯度提升树)scikit-klearn中的参数说明及简汇
1.GBDT(梯度提升树)概述: GBDT是集成学习Boosting家族的成员,区别于Adaboosting.adaboosting是利用前一次迭代弱学习器的误差率来更新训练集的权重,在对更新权重后的 ...
GBDT（梯度提升树）原理小结
在之前博客中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简 ...
梯度提升树GBD
转自 http://blog.csdn.net/u014568921/article/details/49383379 另外一个很容易理解的文章 :http://www.jianshu.com/p/0 ...
scikit-learn 梯度提升树(GBDT)调参小结
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn ...
笔记︱决策树族——梯度提升树(GBDT）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本笔记来源于CDA DSC,L2-R语言课程所 ...

随机推荐

简单粗暴详细讲解javascript实现函数柯里化
函数柯里化(黑人问号脸)???Currying(黑人问号脸)???妥妥的中式翻译既视感:下面来一起看看究竟什么是函数柯里化: 维基百科的解释是:把接收多个参数的函数变换成接收一个单一参数(最初函数的第 ...
LeetCode - 字符串数字相乘与相加
43. 字符串相乘给定两个以字符串形式表示的非负整数 num1 和 num2,返回 num1 和 num2 的乘积,它们的乘积也表示为字符串形式. 示例 1: 输入: num1 = "2& ...
SpringMVC 视图解析器 InternalResourceViewResolver
我们在使用SpringMVC的时候,想必都知道,为了安全性考虑,我们的JSP文件都会放在WEB-INF下, 但是我们在外部是不可以直接访问/WEB-INF/目录下的资源对吧, 只能通过内部服务器进行转 ...
搭建自己的技术博客系列（二）把 Hexo 博客部署到 GitHub 上
1.在GitHub上建一个新仓库
IDEA中输出syso的快捷键设置
1. 2. 3. 4. 5.上图中的第三步会出现警告,那个红色的字,点击Define,选择Java 6.之后点击Apply和OK即可
Oracle 实用SQL
start with connect by prior 递归查询用法 select * from 表名 aa start with aa.id = 'xxx' connect by prior aa. ...
解决The mysql extension is deprecated and will be removed
今天打开网站突然发现报错:“PHP Deprecated: mysql_connect(): The mysql extension is deprecated and will be remove ...
FreeSql （二十四）Linq To Sql 语法使用介绍
原本不支持 IQueryable 主要出于使用习惯的考虑,如果继承 IQueryable,编写代码的智能总会提示出现一堆你不想使用的方法(对不起,我有强迫症),IQueryable 自身提供了一堆没法 ...
Windows 7 上怎样打开SQL Server 配置管理器
场景在Windows 7 上打开 SQL Server 的配置管理器. 实现右击电脑--管理在计算机管理--服务和应用程序-SQL Server 配置管理器注: 博客首页: https://b ...
charles 界面
本文参考:charles 界面没有用过,先留个记号,以后再来看 profiles contain a complete copy of all your configuration settings ...

04-07 scikit-learn库之梯度提升树