XGBOOST的威力不用赘述,反正我是离不开它了。

具体XGBOOST的原理可以参见之前的文章《比XGBOOST更快--LightGBM介绍》

今天说下如何调参。

  1. bias-variance trade-off

xgboost一共有几十个参数:

http://xgboost.readthedocs.io/en/latest/parameter.html

中文版解释:

http://blog.csdn.net/zc02051126/article/details/46711047

文艺青年的调参一般这样的:

1. 设定参数{parm},评判指标{metrics};

2. 根据{metrics}在验证集上的大小,确定树的棵树n_estimators;

3. 采用参数{parm}、n_estimators,训练模型,并应用到测试集

一个字:糙!(kuai)

数据挖掘师的调参一般这样的:

  1. 设定基础参数{parm0},基础评判指标{metrics0};

  2. 在训练集上做cross-validation,做训练集/交叉验证集上偏差/方差与树棵树的关系图;

  3. 判断模型是过拟合 or 欠拟合,更新相应参数{parm1};

  4. 重复2、3步,确定树的棵树n_estimators;

  5. 采用参数{parm1}、n_estimators,训练模型,并应用到测试集;

数据集大小:70000*100,随机准确率 0.17%

在设置了基础参数,设定了树的范围后,可以看到模型在训练集和交叉验证集上的效果是这样子滴:

阴影部分,表示的是模型的方差

从上图,可以得出以下几个结论:

- 验证集上偏差最小&方差最小:n_estimators=66

- 训练集和验证集误差较大:过拟合-----模型过于复杂

- 方差较大----模型过于复杂

这符合下面这个图

以上特征,都表明我们需要降低模型复杂程度,有哪些参数可以调整呢:

- 直接降低模型复杂度

max_depth、min_child_weight、gamma

- 随机化

subsample、colsample_bytree

- 正则化

lambda、alpha

通过,grid-search,再调整了以上的参数后,如下图。最佳trade-off点的variance从0.361降低到0.316,auc_mean从0.8312降低到0.8308。

P-R的提升还是比较明显的:

还有,先粗调,再微调

-- 降低learning_rate,当然同时,提高n_estimators

2. 非平衡数据集怎么办

-- 想办法弄到更多的数据

-- 想办法把数据弄平衡

-- 利用smote等算法来过采样/欠采样

-- 设置weight(初始化DMatrix时)

-- 使用更好的metrics:auc、f1

-- min_child_weight 设的小一点

-- scale_pos_weight = 0值的样本数量/1值的样本数量

-- max_delta_step

-- 自定义评价函数

xgb.train(params, dtrain, num_rounds, watchlist, feval=misclassified, maximize=False)

def misclassified(pred_probs, dtrain):
labels = dtrain.get_label() # obtain true labels
preds = pred_probs > 0.5 # obtain predicted values
return 'misclassified', np.sum(labels != preds)

对数据感兴趣的小伙伴,欢迎交流,微信公共号:一白侃数

论XGBOOST科学调参的更多相关文章

  1. xgboost使用调参

    欢迎关注博主主页,学习python视频资源 https://blog.csdn.net/q383700092/article/details/53763328 调参后结果非常理想 from sklea ...

  2. xgboost&lightgbm调参指南

    本文重点阐述了xgboost和lightgbm的主要参数和调参技巧,其理论部分可见集成学习,以下内容主要来自xgboost和LightGBM的官方文档. xgboost Xgboost参数主要分为三大 ...

  3. xgboost 并行调参

    Parallelism When Cross Validating XGBoost Models This raises the question as to how cross validation ...

  4. xgboost 完全调参指南

    http://www.2cto.com/kf/201607/528771.html xgboost: https://www.analyticsvidhya.com/blog/2016/03/comp ...

  5. Xgboost调参总结

    一.参数速查 参数分为三类: 通用参数:宏观函数控制. Booster参数:控制每一步的booster(tree/regression). 学习目标参数:控制训练目标的表现. 二.回归 from xg ...

  6. xgboost的sklearn接口和原生接口参数详细说明及调参指点

    from xgboost import XGBClassifier XGBClassifier(max_depth=3,learning_rate=0.1,n_estimators=100,silen ...

  7. xgboost入门与实战(实战调参篇)

    https://blog.csdn.net/sb19931201/article/details/52577592 xgboost入门与实战(实战调参篇) 前言 前面几篇博文都在学习原理知识,是时候上 ...

  8. XGBOOST应用及调参示例

    该示例所用的数据可从该链接下载,提取码为3y90,数据说明可参考该网页.该示例的“模型调参”这一部分引用了这篇博客的步骤. 数据前处理 导入数据 import pandas as pd import ...

  9. xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度?

    问题: 用xgboost/gbdt在在调参的时候把树的最大深度调成6就有很高的精度了.但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高.用RandomFore ...

随机推荐

  1. python之List排序

    sorted() #coding:utf-8 #sorted Ascending 升序 L = [12,23,43,3,65,34,21,3645] print(sorted(L)) >> ...

  2. kubeadm搭建kubernetes集群之三:加入node节点

    在上一章<kubeadm搭建kubernetes集群之二:创建master节点>的实战中,我们把kubernetes的master节点搭建好了,本章我们将加入node节点,使得整个环境可以 ...

  3. vps上搭建jupyter notebook远程服务

    安装anaconda 使用如下命令下载: wget https://repo.continuum.io/archive/Anaconda3-5.0.0.1-Linux-x86_64.sh 如果非roo ...

  4. django-xhtml2pdf的使用(加入图片,指定字体,设置样式)

    新博客地址:http://muker.net/django-xhtml2pdf.html 这里仅仅讨论直接利用html生成pdf这种最常见也最简单的情况. 1.要利用html生成带中文的pdf要指定中 ...

  5. 每天一个linux命令:【转载】pwd命令

    Linux中用 pwd 命令来查看”当前工作目录“的完整路径. 简单得说,每当你在终端进行操作时,你都会有一个当前工作目录. 在不太确定当前位置时,就会使用pwd来判定当前目录在文件系统内的确切位置. ...

  6. BZOJ2595 Wc2008 游览计划 【斯坦纳树】【状压DP】*

    BZOJ2595 Wc2008 游览计划 Description Input 第一行有两个整数,N和 M,描述方块的数目. 接下来 N行, 每行有 M 个非负整数, 如果该整数为 0, 则该方块为一个 ...

  7. 通过Java Api与HBase交互

    HBase提供了Java Api的访问接口,掌握这个就跟Java应用使用RDBMS时需要JDBC一样重要,本文将继续前两篇文章中blog表的示例,介绍常用的Api. import java.io.IO ...

  8. scrapy 的基本命令

    scrapy stratproject projectname  ##创建一个项目 scrapy genspider myspidername fider  ##创建一个spider文件 scrapy ...

  9. Sprint第一个冲刺(第三天)

    一.Sprint介绍 今天我们完成了简单登录界面及美化的任务,完成了此次整个Sprint的百分之十五. 下面是实验截图: 二.Sprint周期 看板: 燃尽图:

  10. ASP.NET导入导出Excel方法大全

    本文介绍下,C#实现的可以导出与导入excel的代码一例,有需要的朋友,参考下吧. C#实现导出与导入excel.代码1: 复制代码 代码示例:#region  导出Excel  /// <su ...