XGBoost模型的参数调优

XGBoost算法在实际运行的过程中，可以通过以下要点进行参数调优：

（1）添加正则项：

　　　　在模型参数中添加正则项，或加大正则项的惩罚力度，即通过调整加权参数，从而避免模型出现过拟合的情况。

（2）控制决策树的层数:

通过叶子结点数目控制决策树的层数，视乎样本量大小决定，对于１０万以下

的样本，一般在１到４之间，而针对更大的样本量，可以尝试更深的决策树层数
发掘隐藏在数据里的一些规律或模式。
（３）设定叶子结点包含的最少样本数目:

从而防止出现过小的叶子结点，降低预测
（４）增加算法迭代次数:

可有效提高训练集的预测精度，但若迭代次数过多容易造成
成过拟合
（５）通过收缩步长和列采样的方法来避免过拟合:

收缩步长即在每一次迭代的过程中，

对拟合的残差乘以一个收缩系数，从而限制当前迭代过程的学习步长；列
采样即本次迭代参与优化的特征维度并不是所有的维度，而是通过采样得到的
维度，更少的选择会让算法不容易将训练集的残差拟合得过好，从而造成过拟
合；
（６）通过交叉验证的方法:

来确定模型参数，从而达到预测准确率与防止过拟合之
间的平衡。交叉验证（Cross-validation）的本质思想是把在某种意义下将原始数
据进行分组，一部分做为训练集，另一部分做为验证集，首先用训练集对分类
器进行训练，再利用验证集来测试训练得到的模型，以此来做为评价分类器的
性能指标。常用的交叉验证方法是Ｋ折交叉验证，即将样本分为Ｋ个互不相交
的子样本，一个单独的子样本被保留作为验证模型的数据，其他Ｋ－１个样本用
来训练。交叉验证重复Ｋ次，每个子样本验证一次，平均Ｋ次的得到结果来确定最
终模型使用的参数。

XGBoost模型的参数调优的更多相关文章

JVM内存模型及参数调优
堆.栈.方法区概念区别 1.堆堆内存用于存放由new创建的对象和数组.在堆中分配的内存,由java虚拟机自动垃圾回收器来管理.根据垃圾回收机制的不同, Java堆有可能拥有不同的结构,最为常见的就是 ...
【Spark调优】内存模型与参数调优
[Spark内存模型] Spark在一个executor中的内存分为3块:storage内存.execution内存.other内存. 1. storage内存:存储broadcast,cache,p ...
【Spark调优】提交job资源参数调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...
【Spark调优】Shuffle原理理解与参数调优
[生产实践经验] 生产实践中的切身体会是:影响Spark性能的大BOSS就是shuffle,抓住并解决shuffle这个主要原因,事半功倍. [Shuffle原理学习笔记] 1.未经优化的HashSh ...
从信用卡欺诈模型看不平衡数据分类（1）数据层面：使用过采样是主流，过采样通常使用smote，或者少数使用数据复制。过采样后模型选择RF、xgboost、神经网络能够取得非常不错的效果。（2）模型层面：使用模型集成，样本不做处理，将各个模型进行特征选择、参数调优后进行集成，通常也能够取得不错的结果。（3）其他方法：偶尔可以使用异常检测技术，IF为主
总结:不平衡数据的分类,(1)数据层面:使用过采样是主流,过采样通常使用smote,或者少数使用数据复制.过采样后模型选择RF.xgboost.神经网络能够取得非常不错的效果.(2)模型层面:使用模型 ...
【转】XGBoost参数调优完全指南（附Python代码）
xgboost入门非常经典的材料,虽然读起来比较吃力,但是会有很大的帮助: 英文原文链接:https://www.analyticsvidhya.com/blog/2016/03/complete-g ...
XGBoost参数调优完全指南（附Python代码）
XGBoost参数调优完全指南(附Python代码):http://www.2cto.com/kf/201607/528771.html https://www.zhihu.com/question/ ...
XGBoost参数调优完全指南
简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧.XGBoost算法现在已经成为很多数据工程师的重要武器.它是一种十分精致的算法,可以处理各种不规则的数据.构造一个使用XGBoost ...
xgboost 参数调优指南
一.XGBoost的优势 XGBoost算法可以给预测模型带来能力的提升.当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势: 1 正则化标准GBDT ...

随机推荐

设置SSH免密码登录
1.cd .ssh 2.执行下面的命令,三次回车. ssh-keygen -t rsa cat id_rsa.pub >> authorized_keys 3.发送公钥 scp .ssh/ ...
Linux 小知识翻译 - 「BitTorrent」
这次聊聊「BitTorrent」. (也就是下片子的 BT) BitTorrent是文件传输的一种.它可以在服务端负担很小的情况下高速的传输文件. BitTorrent最大的特点就是服务端可以将文件的 ...
C语言汉诺塔问题
//凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 汉诺塔是由三根杆子A,B,C组成的.A杆上有n个(n>1)穿孔圆盘,盘的尺寸由下到上依次变小.要求按 ...
Eric Chen Mock Interview
Given an array with integers. Find two non-overlapping subarrays A and B, which |SUM(A) - SUM(B)| is ...
ansys19.0安装破解教程(图文详解)
ansys19.0是一款非常著名的大型通用有限元分析(FEA)软件.该软件能够与多数计算机辅助设计软件接口,比如Creo, NASTRAN.Algor.I-DEAS.AutoCAD等,并能实现数据的共 ...
ubuntu使用遇到的问题
1．不适当操作,改了sudoers的权限 scdev@scdev1005:~$ sudo vim /etc/profilesudo: /etc/sudoers is owned by uid 1000 ...
从n个数里面选择m个数
从n个数里面选择m个数 #include<iostream> #include<vector> using namespace std; vector<int> s ...
Django-rest-framework 接口实现 rest_framework 中有已经定义好的工具类 mixins generics viewsets
rest_framework.mixins 请求业务的 5 种实现 mixin(混合类):不能单独使用,和其它类搭配起来使用(利用了Python支持多继承) rest_framework.mix ...
为什么一定要学习linux系统？
为什么一定要学习linux系统? linux诞生了这么多年,以前还喊着如何能取代windows系统,现在这个口号已经小多了,任何事物发展都有其局限性都有其天花板.就如同在国内再搞一个社交软件取代腾讯一 ...
I/O 机制的介绍（Linux 中直接 I/O 机制的介绍）
IO连接的建立方式 1.缓存IO.流式IO: 2.映射IO.块式IO: 3.直接IO. IO的方式: 同步.异步.定时刷新: MMAP与内核空间 mmap使用共享用户空间与内核空间实现: 直接 I/O ...

XGBoost模型的参数调优

XGBoost模型的参数调优的更多相关文章

随机推荐

热门专题