Xgboost的sklearn接口参数说明

 from xgboost.sklearn import XGBClassifier

 model=XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,

        colsample_bytree=1, gamma=0, learning_rate=0.1, max_delta_step=0,

        max_depth=3, min_child_weight=1, missing=None, n_estimators=100,

        n_jobs=1, nthread=None, objective='binary:logistic', random_state=0,

        reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,

        silent=True, subsample=1)

1、通用参数（控制Xgboost的宏观功能）

booster: [default=gbtree]

gbtree: tree-based models，树模型做为基分类器
gblinear: linear models，线性模型做为基分类器

silent：[default=True]

silent=True时，不输出中间过程（默认）
silent=Flase时，输出中间过程

nthread：[default=None]

主要用于并行计算，系统的内核数需要作为变量。如果希望运行所有的内核，就不需要设置该参数，程序会自己检测到该值。

n_jobs：[default=1]

线程数目

2、Booster参数（控制每一步的Booster(tree\regression))

有两种booster可以选择，但是tree booster的效果比 linear booster效果好太多，因此linear booster很少用到。

learning_rate:[default=0.1]

原名eta，学习率，控制每次迭代更新权重时的步长。值越小，训练的越慢。取值范围：[0，1]。典型值为0.01~0.2

n_estimators：[default=100]

估计器的数量

min_child_weight：[default=1]

拆分节点权重和阈值
如果节点的样本权重和小于该阈值，就不再进行拆分。在线性回归模型中，这个是指建立每个模型所需要的最小样本数。
值越大，算法越保守。取值范围为：[0,∞]
用于防止过拟合问题：较大的值能防止过拟合，过大的值会导致欠拟合问题
需要通过CV调参

max_depth：[default=3]

每个基本学习器树的最大深度，用于防止过拟合问题。通过CV调参。典型值：3~10

gamma：[default=0]

损失阈值，在树的一个叶节点上进一步分裂所需的最小损失减少量，gamma值越大，算法越保守。取值范围为：[0,∞]

max_delta_step：[default=0]

每棵树的最大权重估计。如果它的值被设置为0，意味着没有约束；如果它被设置为一个正值，能够权重的变化将会变得相对保守。通常这个参数不会被使用，但如果是极度不平衡的逻辑回归将会有所帮助。把它范围设置为1-10之间也许能控制更新。取值范围为：[0,∞]

subsample：[default=1]

随机选取一定比例的样本来训练树。设置为0.5，则意味着XGBoost将从整个样本集合中随机的抽取出50%子样本建立树模型，这能够防止过拟合。
取值范围为：(0,1]。减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。典型值：0.5-1。

colsample_bytree：[default=1]

指的是每棵树随机选取的特征的比例，取值范围（0，1]。

colsample_bylevel: [default=1]

指的是树的每个层级分裂时子样本的特征所占的比例，这个一般很少用。因为subsample和colsample_bytree组合做的事与之类似。

reg_alpha：[default=0]

权重的L1正则化项(和Lasso regression类似)。这个主要是用在数据维度很高的情况下，可以提高运行速度。

reg_lambda：[default=1]

权重的L2正则化项(和Ridge regression类似)。这个参数是用来控制XGBoost的正则化部分的。虽然大部分数据科学家很少用到这个参数，但是这个参数在减少过拟合上还是可以挖掘出更多用处的。

scale_pos_weight：[default=1]

处理样本不平衡问题。在样本高度不平衡时，将参数设置大于0，可以加快算法收敛。

3、学习目标参数

objective：指的是需要被最小化的损失函数。

“reg:linear” 线性回归
“reg:logistic” 逻辑回归
“binary:logistic” 二分类的逻辑回归，返回的是预测概率（不是类别）
“binary:logitraw” 二分类的逻辑回归，返回的结果为w^Tx
“count:poisson” 计数问题的poisson回归，输出结果为poisson分布。在poisson回归中，max_delta_step的缺省值为0.7。(used to safeguard optimization)
“multi:softmax” 采用softmax目标函数处理多分类问题，需要多设置一个参数num_class（类别个数），返回预测的类别(不是概率)。
“multi:softprob” 和multi:softmax参数类似，但是输出结果是每个样本属于各个类别的概率。
“rank:pairwise” set XGBoost to do ranking task by minimizing the pairwise loss

seed：[default=None]

随机数种子，设置它可以复现随机数据的结果，也可以用于调整参数。

4、其他

base_score: [default=0.5]

所有实例的初始预测得分，整体偏倚。

missing：[default=None]

在数据中，标注为缺失值的表示。如果为None，则默认为np.nan

random_state：[default=0]

Xgboost的sklearn接口参数说明的更多相关文章

xgboost的sklearn接口和原生接口参数详细说明及调参指点
from xgboost import XGBClassifier XGBClassifier(max_depth=3,learning_rate=0.1,n_estimators=100,silen ...
xgboost与sklearn的接口
xgb使用sklearn接口(推荐) XGBClassifier from xgboost.sklearn import XGBClassifier clf = XGBClassifier( sile ...
【机器学习】集成学习之xgboost的sklearn版XGBClassifier使用教程
XGBClassifier是xgboost的sklearn版本.代码完整的展示了使用xgboost建立模型的过程,并比较xgboost和randomForest的性能. # -*- coding: u ...
keras开发成sklearn接口
我们可以通过包装器将Sequential模型(仅有一个输入)作为Scikit-Learn工作流的一部分,相关的包装器定义在keras.wrappers.scikit_learn.py中: 这里有两个包 ...
lightgbm的sklearn接口和原生接口参数详细说明及调参指点
class lightgbm.LGBMClassifier(boosting_type='gbdt', num_leaves=31, max_depth=-1, learning_rate=0.1, ...
Python机器学习笔记：XgBoost算法
前言 1,Xgboost简介 Xgboost是Boosting算法的其中一种,Boosting算法的思想是将许多弱分类器集成在一起,形成一个强分类器.因为Xgboost是一种提升树模型,所以它是将许多 ...
Xgboost建模
xgboost参数选择较高的学习速率(learning rate).一般情况下,学习速率的值为0.1.但是,对于不同的问题,理想的学习速率有时候会在0.05到0.3之间波动.选择对应于此学习速率的理 ...
XGBoost使用篇（未完成）
1.截止到本文(20191104)sklearn没有集成xgboost算法,需要单独安装xgboost库,然后导入使用 xgboost官网安装说明 Pre-built binary wheel for ...
kaggle竞赛-保险转化-homesite
时间格式的转化查看数据类型查看DataFrame的详细信息填充缺失值 category 数据类型转化模型参数设定结论该项目是针对kaggle中的homesite进行的算法预测,使用xgbo ...

随机推荐

PHP：json_encode 保持中文不被转为ASCII码
echo json_encode(array('黄河之水天上来'),JSON_UNESCAPED_UNICODE);
技术总监Sycx的故事
其实我在各种演讲里,线下吹牛里面无数次提及过他,讲过他的故事,但是总还是没有任何一次认认真真的详细讲过,所以,今天就讲讲他的故事吧. Sycx是福建漳州人,我经常开玩笑说,你生于一个著名的骗子之乡,为 ...
POJ3111(最大化平均值)
K Best Time Limit: 8000MS Memory Limit: 65536K Total Submissions: 8458 Accepted: 2163 Case Time ...
[转] CentOS系统目录学习
最近初学Linux 对linux的目录产生了很多疑问,看到这篇文章,让我顿时对目录有了一个清晰的认识!推荐给大家! ------------------------------------------ ...
第二章深入分析Java I/O的工作机制（待续）
Java的I/O类库的基本架构磁盘I/O工作机制网络I/O工作机制 NIO的工作方式 I/O调优设计模式解析之适配器模式设计模式解析之装饰器模式适配器模式与装饰器模式的区别
问题：css 自动换行；结果：CSS控制文本自动换行
CSS控制文本自动换行 CSS控制文本自动换行,阅读CSS控制文本自动换行,1.你定死表格的宽度,即给表格一个宽度值(是数值,不是百分比) 2.强制不换行div{//white-space:不换行; ...
ABP模块配置
介绍我们知道ABP中模块的配置都是通过模块的Configuration属性来设置的.例如在模块的生命周期方法中可以进行一系列的配置审计 MQ Redis....也可以替换一些ABP默认配置通常我 ...
docker 笔记（6）搭建本地registry
转:http://blog.csdn.net/felix_yujing/article/details/51564739 新版 registry v2对镜像存储格式进行了重新设计,并且和旧版还不兼容. ...
Python的安装以及路径的设置（python的下载地址：www.python.org）
在有的Python版本中在安装时,我们的可以再安装时选择Python路径的自动配备在选择python的安装程序的时候,我们尽量选择python的2.版本,因为随着Python的更新,Python的数 ...
solr-用mmseg4j配置同义词索引和检索（IKanlyzer需要修改源码适应solr接口才能使用同义词功能）
概念说明:同义词大体的意思是指,当用户输入一个词时,solr会把相关有相同意思的近义词的或同义词的term的语段内容从索引中取出,展示给用户,提高交互的友好性(当然这些同义词的定义是要在配置文件中事先 ...

Xgboost的sklearn接口参数说明

Xgboost的sklearn接口参数说明的更多相关文章

随机推荐

热门专题