XGBoost模型的参数调优

XGBoost算法在实际运行的过程中，可以通过以下要点进行参数调优：

（1）添加正则项：

　　　　在模型参数中添加正则项，或加大正则项的惩罚力度，即通过调整加权参数，从而避免模型出现过拟合的情况。

（2）控制决策树的层数:

通过叶子结点数目控制决策树的层数，视乎样本量大小决定，对于１０万以下

的样本，一般在１到４之间，而针对更大的样本量，可以尝试更深的决策树层数
发掘隐藏在数据里的一些规律或模式。
（３）设定叶子结点包含的最少样本数目:

从而防止出现过小的叶子结点，降低预测
（４）增加算法迭代次数:

可有效提高训练集的预测精度，但若迭代次数过多容易造成
成过拟合
（５）通过收缩步长和列采样的方法来避免过拟合:

收缩步长即在每一次迭代的过程中，

对拟合的残差乘以一个收缩系数，从而限制当前迭代过程的学习步长；列
采样即本次迭代参与优化的特征维度并不是所有的维度，而是通过采样得到的
维度，更少的选择会让算法不容易将训练集的残差拟合得过好，从而造成过拟
合；
（６）通过交叉验证的方法:

来确定模型参数，从而达到预测准确率与防止过拟合之
间的平衡。交叉验证（Cross-validation）的本质思想是把在某种意义下将原始数
据进行分组，一部分做为训练集，另一部分做为验证集，首先用训练集对分类
器进行训练，再利用验证集来测试训练得到的模型，以此来做为评价分类器的
性能指标。常用的交叉验证方法是Ｋ折交叉验证，即将样本分为Ｋ个互不相交
的子样本，一个单独的子样本被保留作为验证模型的数据，其他Ｋ－１个样本用
来训练。交叉验证重复Ｋ次，每个子样本验证一次，平均Ｋ次的得到结果来确定最
终模型使用的参数。

XGBoost模型的参数调优的更多相关文章

JVM内存模型及参数调优
堆.栈.方法区概念区别 1.堆堆内存用于存放由new创建的对象和数组.在堆中分配的内存,由java虚拟机自动垃圾回收器来管理.根据垃圾回收机制的不同, Java堆有可能拥有不同的结构,最为常见的就是 ...
【Spark调优】内存模型与参数调优
[Spark内存模型] Spark在一个executor中的内存分为3块:storage内存.execution内存.other内存. 1. storage内存:存储broadcast,cache,p ...
【Spark调优】提交job资源参数调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...
【Spark调优】Shuffle原理理解与参数调优
[生产实践经验] 生产实践中的切身体会是:影响Spark性能的大BOSS就是shuffle,抓住并解决shuffle这个主要原因,事半功倍. [Shuffle原理学习笔记] 1.未经优化的HashSh ...
从信用卡欺诈模型看不平衡数据分类（1）数据层面：使用过采样是主流，过采样通常使用smote，或者少数使用数据复制。过采样后模型选择RF、xgboost、神经网络能够取得非常不错的效果。（2）模型层面：使用模型集成，样本不做处理，将各个模型进行特征选择、参数调优后进行集成，通常也能够取得不错的结果。（3）其他方法：偶尔可以使用异常检测技术，IF为主
总结:不平衡数据的分类,(1)数据层面:使用过采样是主流,过采样通常使用smote,或者少数使用数据复制.过采样后模型选择RF.xgboost.神经网络能够取得非常不错的效果.(2)模型层面:使用模型 ...
【转】XGBoost参数调优完全指南（附Python代码）
xgboost入门非常经典的材料,虽然读起来比较吃力,但是会有很大的帮助: 英文原文链接:https://www.analyticsvidhya.com/blog/2016/03/complete-g ...
XGBoost参数调优完全指南（附Python代码）
XGBoost参数调优完全指南(附Python代码):http://www.2cto.com/kf/201607/528771.html https://www.zhihu.com/question/ ...
XGBoost参数调优完全指南
简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧.XGBoost算法现在已经成为很多数据工程师的重要武器.它是一种十分精致的算法,可以处理各种不规则的数据.构造一个使用XGBoost ...
xgboost 参数调优指南
一.XGBoost的优势 XGBoost算法可以给预测模型带来能力的提升.当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势: 1 正则化标准GBDT ...

随机推荐

c/c++ 二叉排序树
c/c++ 二叉排序树概念: 左树的所有节点的值(包括子节点)必须小于中心节点,右树所有节点的值(包括子节点)必须大于中心节点. 不允许有值相同的节点. 二叉排序树的特点: 中序遍历后,就是从小到大 ...
IIS 部署问题 404
在部署IIS环境中,偶尔会遇到 404 错误,就算以前遇到过,也因为时间久了导致大概知道是什么错了,具体解决方案觉忘了,所以留下一个记录,留给自己,也是给大家一点提醒.(注:错误信息也懒得截图了,希望 ...
June.19 2018, Week 25th Tuesday
True love is visible not to the eyes but to the heart. 真爱不靠眼睛看,要用心感受. True love is visible not to th ...
Linux中“!"的神奇用法
前言实际上,不起眼的“!”在linux中有着很多让你惊叹的妙用.本文就来细数那些“!”的神奇用法. 执行上一条命令例如,在执行完上面一条命令后,可以使用下面的方式再次执行上一条命令: $ wher ...
ubuntu中利用qtcreator引用opencv249及采起采集卡的共享库
opencv Link:https://github.com/opencv/opencv CqUsbCam link:https://github.com/niuxiaobaoer/CqUsbCam_ ...
修改mysql默认端口
最初,我将mysql端口改成了3307,现在需要将其改3306端口,已改好,做个记录首先:借助资源监视器,找到对应的端口,查看对应的Pid,然后打开任务管理器,点击服务,找到对应的服务器,将其服务停 ...
机器学习算法总结(二)——决策树（ID3, C4.5, CART）
决策树是既可以作为分类算法,又可以作为回归算法,而且在经常被用作为集成算法中的基学习器.决策树是一种很古老的算法,也是很好理解的一种算法,构建决策树的过程本质上是一个递归的过程,采用if-then的规 ...
008_使用pyenv进行py开发环境管理
一. 安装Python 绝大多数Python入门书籍,都会介绍如何安装Python,然而,本书要介绍一种全新的安装方式.使用pyenv来安装并管理我们的环境. pyenv简介由于Python的依赖是 ...
SQLAlchemy中的自引用
SQLALCHEMY采用adjacency list pattern来表示类的自引用. 例如,对于类Node自引用: class Node(Base): __tablename__='node' id ...
java可重入锁reentrantlock
public class ReentrantDemo { //重入锁保护临界区资源count,确保多线程对count操作的安全性 /*public static ReentrantLock rtlo ...

XGBoost模型的参数调优

XGBoost模型的参数调优的更多相关文章

随机推荐

热门专题