lightgbm 学习笔记

首先是配置文件参数。参考自https://lightgbm.apachecn.org/#/docs/6

配置参数实在是太多了，大家还是去原文档查表吧orz

参数名	可选参数	作用
config=	自填，string类型	配置文件的路径
task=	`train`, `predict`, `convert_model`	训练；预测；转化为if-else 模型
	`regression`, `regression_l1`, `huber`, `fair`, `poisson`, `quantile`, `quantile_l2；` `binary`, `multiclass`, `multiclassova`,； `xentropy`, `xentlambda；` `lambdarank`	回归分类交叉熵 lambdarank：标签是离散的整数，且数值越高品质越好。
boosting=	`gbdt`, `rf`, `dart`, `goss`	提升器：梯度提升决策树；随机森林；dart；基于梯度的单面采样
data=	自填	训练数据
valid=	自填，支持多组测试数据一起输入，输入时用‘,’隔开	测试数据
num_iterations=	自填，int类型，默认100	迭代次数
num_leaves=	自填，double型，默认31	单棵树的叶子数
tree_learner=	`serial`, `feature`, `data`, `voting`	决定是否并行学习：不并发；按特征并行学习；按数据并行学习；按投票并行学习。
num_threads=	`自填，整数，默认OpenMP_default`	LightGBM 的线程数，按cpu的核数填。4核就填4.
device=	cpu,gpu	选择使用哪种设备训练模型
learning_rate=	自填，double型，默认0.1	学习率
max_depth=	`自填，整数，默认-1（无限制）`	单棵树的最大深度限制，用于处理过拟合。数值越大拟合能力越强
min_data_in_leaf=	`自填，整数，默认20`	一个叶子中的最小数据量。用于处理过拟合。数值越小拟合能力越强
min_sum_hessian_in_leaf	`自填，duoble型，默认1e-3`	和叶子的纯度有关，用于处理过拟合，越小拟合能力越强
feature_fraction=	`自填，double型，默认1，数值范围（0,1]`	训练前随机保留的特征比例。每次迭代都会重新选择。类似dropout.数值越大拟合能力越强,可以防止过拟合
feature_fraction_seed=	`自填，整型，默认2。`	feature_fraction的随机种子
bagging_fraction=	自填，double型，默认1，数值范围（0,1]	每次从训练随机抽取的样本比例（不放回抽样）数值越大拟合能力越强。可以用来处理过拟合
bagging_freq=	自填，double型，默认0（禁用）	每次bagging_freq次迭代重新抽样，生成新的训练集。
bagging_seed=	自填，整型，默认3。	bagging 随机数种子
early_stopping_round=	自填，整型，默认0（禁用）。	如果一个验证集的度量在 `early_stopping_round` 次循环中没有提升, 将提前停止训练
min_split_gain=	自填，double型，默认0（禁用）	执行切分的最小增益
min_data_per_group=	default=`100`, type=int	每个categorical_feature组的最小数据量。
max_cat_threshold=	default=`32`, type=int	categorical_feature的足底啊类别数
cat_smooth=	default=`10`, type=double	这可以降低噪声categorical_feature中的影响, 尤其是对数据很少的类别
input_model=	自填，string类型	要导入模型的路径
is_unbalance=	default=`false`, type=bool	只适用于二分问题，推荐在样本不平衡时使用。

度量函数metric：太多了不列了参考

定义标签，特征名和类别特征：

train_data = lgb.Dataset(data, label=label, feature_name=['c1', 'c2', 'c3'], categorical_feature=['c3'])

label 要学习的类别标签，feature_name按列赋特征名，

指定哪些列为categorical_feature（如职业：学生，教师。这样的特征是categorical_feature）。

categorical_featured的隔室

用数字做索引, e.g. categorical_feature=0,1,2 意味着 column_0, column_1 和 column_2 是分类特征
为列名添加前缀 name:, e.g. categorical_feature=name:c1,c2,c3 意味着 c1, c2 和 c3 是分类特征
Note: 只支持分类与 int type. 索引从 0 开始. 同时它不包括标签栏
Note: 负值的值将被视为 missing values

数据接口

LightGBM Python 模块能够使用以下几种方式来加载数据:

libsvm/tsv/csv txt format file（libsvm/tsv/csv 文本文件格式）
Numpy 2D array, pandas object（Numpy 2维数组, pandas 对象）
LightGBM binary file（LightGBM 二进制文件）

指定权重

train_data = lgb.Dataset(data, label=label, weight=w) 或者 train_data = lgb.Dataset(data, label=label) train_data.set_weight(w)

train_data = lgb.Dataset(data, label=label, weight=w)

每行数据的训练权重？

参数的设置

参数可以通过字典设置

param = {'num_leaves':31, 'num_trees':100, 'objective':'binary'}
param['metric'] = 'auc'

调参说明

https://lightgbm.apachecn.org/#/docs/7

缺失值的处理

LightGBM 通过默认的方式来处理缺失值，你可以通过设置 use_missing=false 来使其无效。
LightGBM 通过默认的的方式用 NA (NaN) 去表示缺失值，你可以通过设置 zero_as_missing=true 将其变为零。
当设置 zero_as_missing=false （默认）时，在稀疏矩阵里 (和LightSVM) ，没有显示的值视为零。
当设置 zero_as_missing=true 时， NA 和 0 （包括在稀疏矩阵里，没有显示的值）视为缺失。

lightgbm 学习笔记的更多相关文章

学习笔记之Data Science
Data science - Wikipedia https://en.wikipedia.org/wiki/Data_science Data science, also known as data ...
CTR预估模型演变及学习笔记
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] [再啰嗦一下]如果你对智能推荐感兴趣,欢迎先浏览我的另一篇随笔:智能推荐算法演 ...
js学习笔记：webpack基础入门（一）
之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...
PHP-自定义模板-学习笔记
1. 开始这几天,看了李炎恢老师的<PHP第二季度视频>中的“章节7:创建TPL自定义模板”,做一个学习笔记,通过绘制架构图.UML类图和思维导图,来对加深理解. 2. 整体架构图 ...
PHP-会员登录与注册例子解析-学习笔记
1.开始最近开始学习李炎恢老师的<PHP第二季度视频>中的“章节5:使用OOP注册会员”,做一个学习笔记,通过绘制基本页面流程和UML类图,来对加深理解. 2.基本页面流程 3.通过UM ...
2014年暑假c#学习笔记目录
2014年暑假c#学习笔记一.C#编程基础 1. c#编程基础之枚举 2. c#编程基础之函数可变参数 3. c#编程基础之字符串基础 4. c#编程基础之字符串函数 5.c#编程基础之ref.ou ...
JAVA GUI编程学习笔记目录
2014年暑假JAVA GUI编程学习笔记目录 1.JAVA之GUI编程概述 2.JAVA之GUI编程布局 3.JAVA之GUI编程Frame窗口 4.JAVA之GUI编程事件监听机制 5.JAVA之 ...
seaJs学习笔记2 – seaJs组建库的使用
原文地址:seaJs学习笔记2 – seaJs组建库的使用我觉得学习新东西并不是会使用它就够了的,会使用仅仅代表你看懂了,理解了,二不代表你深入了,彻悟了它的精髓. 所以不断的学习将是源源不断. 最 ...
CSS学习笔记
CSS学习笔记 2016年12月15日整理 CSS基础 Chapter1 在console输入escape("宋体") ENTER 就会出现unicode编码显示"%u ...

随机推荐

图解HTTP总结（3）——HTTP报文内的HTTP信息
HTTP通信过程包括从客户端发往服务端的请求及从服务器端返回客户端的响应. 用于HTTP协议交互的信息被称为HTTP报文.客户端的HTTP报文叫做请求报文,服务器端的叫做响应报文.HTTP报文本身是多 ...
./vi: line 2: mkdir: command not found
当前两天博主在写脚本的时候,运行脚本时候总是出现此消息,很郁闷, 开始我以为可能是我mkdir的函数库依赖的问题,但是当我用其他的脚本创建目录的时候,命令又可以用了,找了半天,终于找到了答案 --- ...
B1091 N-自守数（15分）
B1091 N-自守数 (15分) 如果某个数 \(K\)的平方乘以\(N\) 以后,结果的末尾几位数等于 \(K\),那么就称这个数为"\(N\)-自守数".例如 \(3×92 ...
[BZOJ2734][HNOI2012] 集合选数（状态压缩+思维）
Description 题目链接 Solution 可以根据条件构造出一个矩阵, 1 3 9 27 81... 2 6 18.... 4 12 36... 这个矩阵满足\(G[i][1]=G[i-1] ...
poj 1759 二分搜索
题意:N个等差数列,初项X_i,末项Y_i,公差Z_i,求出现奇数次的数? 思路: 因为只有一个数出现的次数为奇数个假设第二个数字的个数为奇数个,其余全部都是偶数个 ,累计出现的次数 a1偶数 ...
Python locale 多语言模块和我遇到的坑
Table of Contents 1. locale遇到的问题 1.1. locale 简介 1.1.1. 什么是locale 1.1.2. locale 相关命令 1.2. Python loca ...
16 Django-admin管理工具
admin组件使用 Django 提供了基于 web 的管理工具. Django 自动管理工具是 django.contrib 的一部分.你可以在项目的 settings.py 中的 INSTAL ...
php jsonp单引号转义
php中jsonp输出时一般用下面的格式: callbackname('json string'); 如果中间的json string中含有单引号,这个输出就是有问题的,调用方一般是无法处理的,所以我 ...
求：斐波那契数列的第n项
def he (n): if n < 3 : return 1 return he(n-1)+he(n-2)print(he(n))
Linux（Ubuntu 命令大全）
Ubuntu 一. Ubuntu简介 Ubuntu(乌班图)是一个基于Debian的以桌面应用为主的Linux操作系统,据说其名称来自非洲南部祖鲁语或科萨语的“ubuntu”一词,意思是“人性”.“我 ...