xgboost参数及调参

常规参数General Parameters

booster[default=gbtree]:选择基分类器，可以是：gbtree,gblinear或者dart。gbtree和draf基于树模型，而gblinear基于线性模型。
slient[default=0]：是否有运行信息输出，设置为1则没有运行信息输出。
nthread[default to maximum number of threads available if not set]：线程数，默认使用能使用的最大线程数。

模型参数Booster Parameters

eta[default=0.3]:收缩参数，也即学习率。用于更新叶节点权重时，乘该系数，避免步长过大。参数值越大，越可能无法收敛。把eta设置的小一些，小的学习率可以使后面的学习更加仔细。
min_child_weight[default=1]:每个叶子里面的h的和至少是多少，这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数越小，越容易过拟合。
max_depth[default=6]:每棵树的最大深度，该参数设置越大，越容易过拟合。
max_leaf_nodes:最大叶节点数，和max_depth类似。
gamma[default=0]:后剪枝时，用于控制是否后剪枝。
max_delta_step[default=0]:该参数可以使得更新更加平缓，如果取0表示没有约束，如果取正值则使得更新步骤更加保守，防止更新时迈的步子太大。
subsample[default=1]:样本随机样本，该参数越大，越容易过拟合，但设置过大也会造成过拟合。
colsample_bytree[default=1]:列采样，对每棵树生成时用的特征进行列采样，一般设置为0.5-1
lambda[default=1]:模型的L2正则化参数，参数越大，越不容易过拟合。
alpha[default=0]:模型的L1正则化参数，参数越大，越不容易过拟合。
scale_pos_weight[default=1]:如果取值大于0，在类别样本偏斜时，有助于快速收敛。

学习任务参数(Learning Task Parameters)

objective[default=reg:linear]:定义最小化损失函数类型，常用参数：

binary:logistic –二元分类的逻辑回归模型，返回预测概率(p(y=1|x,w))
multi:softmax –使用softmax objective的多类分类模型，返回预测的分类。这里需要设置一个额外的num_class参数，表示类的个数。
multi:softprob –与softmax相同，但是返回每个数据点属于每个类的预测概率。

eval_metric[default according to objective]:用于衡量验证数据的参数，即是各评价标准，常用参数如下:

rmse – root mean square error
mae – mean absolute error
logloss – negative log-likelihood
error – Binary classification error rate (0.5 threshold)
merror – Multiclass classification error rate
mlogloss – Multiclass logloss
auc: Area under the curve

seed[default=0]:随机种子，用于产生可复现的结果。

这里，xgboost与sklearn的命名风格有点区别，如：

eta->learning_rate
lambda->reg_lambda
alpha->reg_alpha

参数调优

import必要的库

 #Import libraries:

 import pandas as pd

 import numpy as np

 import xgboost as xgb

 from xgboost.sklearn import XGBClassifier

 from sklearn import cross_validation, metrics   #Additional     scklearn functions

 from sklearn.grid_search import GridSearchCV   #Perforing grid search

 import matplotlib.pylab as plt

 %matplotlib inline

 from matplotlib.pylab import rcParams

 rcParams['figure.figsize'] = 12, 4

 train = pd.read_csv('train_modified.csv')

 target = 'Disbursed'

 IDcol = 'ID'

注意，这里import两种XGBoost：

xgb-直接引用xgboost，接下来会用到其中的‘cv’函数。
XGBClassifier-是xgboost的sklearn包。这个包允许我们使用Grid Search和并行处理。

参考链接：http://blog.csdn.net/u010657489/article/details/51952785

xgboost参数及调参的更多相关文章

【Python机器学习实战】决策树与集成学习（七）——集成学习（5）XGBoost实例及调参
上一节对XGBoost算法的原理和过程进行了描述,XGBoost在算法优化方面主要在原损失函数中加入了正则项,同时将损失函数的二阶泰勒展开近似展开代替残差(事实上在GBDT中叶子结点的最优值求解也是使 ...
XGBoost和LightGBM的参数以及调参
一.XGBoost参数解释 XGBoost的参数一共分为三类: 通用参数:宏观函数控制. Booster参数:控制每一步的booster(tree/regression).booster参数一般可以调 ...
XGBOOST应用及调参示例
该示例所用的数据可从该链接下载,提取码为3y90,数据说明可参考该网页.该示例的“模型调参”这一部分引用了这篇博客的步骤. 数据前处理导入数据 import pandas as pd import ...
xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度？
问题: 用xgboost/gbdt在在调参的时候把树的最大深度调成6就有很高的精度了.但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高.用RandomFore ...
xgboost的遗传算法调参
遗传算法适应度的选择: 机器学习的适应度可以是任何性能指标 —准确度,精确度,召回率,F1分数等等.根据适应度值,我们选择表现最佳的父母(“适者生存”),作为幸存的种群. 交配: 存活下来的群体中的父 ...
lgb参数及调参
1 参数含义 max_depth: 设置树的最大深度,默认为-1,即不限制最大深度,它用于限制过拟合 num_leave: 单颗树的叶子数目,默认为31 eval_metric: 评价指标,可以用lg ...
XGBoost参数调优完全指南（附Python代码）
XGBoost参数调优完全指南(附Python代码):http://www.2cto.com/kf/201607/528771.html https://www.zhihu.com/question/ ...
xgboost&lightgbm调参指南
本文重点阐述了xgboost和lightgbm的主要参数和调参技巧,其理论部分可见集成学习,以下内容主要来自xgboost和LightGBM的官方文档. xgboost Xgboost参数主要分为三大 ...
Python中Gradient Boosting Machine(GBM）调参方法详解
原文地址:Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain 原文翻译与校对 ...

随机推荐

Linux中特别要注意用户与文件权限的问题
1.在使用Linux中,肯定会涉及不同用户的切换,但是如果不合理切换的话,会造成很多应用启动不了,所以这时候要多多使用ll看一下文件目录的权限问题,因为如果习惯用root启动程序,然后切换普通用户继续 ...
python request爬取百度贴吧
import requests import os import shutil import time class PostBarSpider(object): def __init__(self, ...
云主机CentOS 7新环境命令行搭建node工程步骤
1.用Node官网提供的命令安装node https://nodejs.org/en/download/package-manager/#debian-and-ubuntu-based-linux-d ...
Java InputStream、String、File相互转化 --- good
String --> InputStreamByteArrayInputStream stream = new ByteArrayInputStream(str.getBytes()); Inp ...
eCognition学习记录
作者:朱金灿来源:http://blog.csdn.net/clever101 昨天公司从外面请了人讲解eCognition的最新进展及项目二次开发应用情况.我做了大致下面记录: 1. eCogn ...
apt-get install 的参数（add-apt-repository）
apt-get install 是 ubuntu 下的软件安装命令. sudo apt-get -y install: -y:yes,在命令行交互提示中,直接输入 yes: 1. 使用 add-apt ...
GammaRay is a tool to poke around in a Qt-application（确实很多功能）
GammaRay is a tool to poke around in a Qt-application and also to manipulate the application to some ...
eclipes 常用的快捷键，修改字体
内容辅助键 Alt+/ 自动补齐main方法 main 然后 Alt+/ 自动补齐输出语句 syso 然后 Alt+/ 格式化Ctrl+Shift+f 代码区域右键 -- Source – Fo ...
Scala Control Structures
Scala之Control Structures 一.前言前面学习了Scala的Numbers,接着学习Scala的Control Structures(控制结构). 二.Control Struc ...
一言不合就写socket的post和get请求（拼内容，然后发出去即可）
一言不合就写socket的post和get请求.写个桌面程序,利用java写get和post请求.测试成功: SocketReq.java package com.test.CipherIndex; ...

xgboost参数及调参

常规参数General Parameters

模型参数Booster Parameters

学习任务参数(Learning Task Parameters)

参数调优

xgboost参数及调参的更多相关文章

随机推荐

热门专题