lightgbm的sklearn接口和原生接口参数详细说明及调参指点
class lightgbm.LGBMClassifier(boosting_type='gbdt', num_leaves=31, max_depth=-1, learning_rate=0.1, n_estimators=10, max_bin=255, subsample_for_bin=200000, objective=None, min_split_gain=0.0, min_child_weight=0.001, min_child_samples=20, subsample=1.0, subsample_freq=1, colsample_bytree=1.0, reg_alpha=0.0, reg_lambda=0.0, random_state=None, n_jobs=-1, silent=True, **kwargs)
boosting_type |
default="gbdt" |
"gbdt":Gradient Boosting Decision Tree "dart":Dropouts meet Multiple Additive Regression Trees "goss":Gradient-based One-Side Sampling "rf": Random Forest |
|
| num_leaves | (int, optional (default=31)) | 每个基学习器的最大叶子节点 | <=2^max_depth |
| max_depth | (int, optional (default=-1)) | 每个基学习器的最大深度, -1 means no limit | 当模型过拟合,首先降低max_depth |
| learning_rate | (float, optional (default=0.1)) | Boosting learning rate | |
| n_estimators | (int, optional (default=10)) | 基学习器的数量 | |
| max_bin | (int, optional (default=255)) | feature将存入的bin的最大数量,应该是直方图的k值 | |
| subsample_for_bin | (int, optional (default=50000)) | Number of samples for constructing bins | |
| objective | (string, callable or None, optional (default=None)) |
default: ‘regression’ for LGBMRegressor, ‘binary’ or ‘multiclass’ for LGBMClassifier, ‘lambdarank’ for LGBMRanker. |
|
| min_split_gain | (float, optional (default=0.)) | 树的叶子节点上进行进一步划分所需的最小损失减少 | |
| min_child_weight | (float, optional (default=1e-3)) |
Minimum sum of instance weight(hessian) needed in a child(leaf) |
|
| min_child_samples |
(int, optional (default=20)) | 叶子节点具有的最小记录数 | |
| subsample |
(float, optional (default=1.)) | 训练时采样一定比例的数据 | |
| subsample_freq | (int, optional (default=1)) | Frequence of subsample, <=0 means no enable | |
| colsample_bytree |
(float, optional (default=1.)) | Subsample ratio of columns when constructing each tree | |
| reg_alpha |
(float, optional (default=0.)) | L1 regularization term on weights | |
|
reg_lambda |
(float, optional (default=0.)) | L2 regularization term on weights | |
|
random_state |
(int or None, optional (default=None)) | ||
| silent | (bool, optional (default=True)) | ||
| n_jobs | (int, optional (default=-1)) |
######################################################################################################
下表对应了Faster Spread,better accuracy,over-fitting三种目的时,可以调整的参数:

###########################################################################################
类的属性:
| n_features_ | int | 特征的数量 |
| classes_ | rray of shape = [n_classes] | 类标签数组(只针对分类问题) |
| n_classes_ | int | 类别数量 (只针对分类问题) |
| best_score_ | dict or None | 最佳拟合模型得分 |
| best_iteration_ | int or None | 如果已经指定了early_stopping_rounds,则拟合模型的最佳迭代次数 |
| objective_ | string or callable | 拟合模型时的具体目标 |
| booster_ | Booster | 这个模型的Booster |
| evals_result_ | dict or None | 如果已经指定了early_stopping_rounds,则评估结果 |
| feature_importances_ | array of shape = [n_features] | 特征的重要性 |
###########################################################################################
类的方法:
fit(X, y, sample_weight=None, init_score=None, eval_set=None, eval_names=None, eval_sample_weight=None, eval_init_score=None, eval_metric='logloss', early_stopping_rounds=None, verbose=True, feature_name='auto', categorical_feature='auto', callbacks=None)
| X | array-like or sparse matrix of shape = [n_samples, n_features] | 特征矩阵 |
| y | array-like of shape = [n_samples] | The target values (class labels in classification, real numbers in regression) |
| sample_weight | array-like of shape = [n_samples] or None, optional (default=None)) | 样本权重,可以采用np.where设置 |
| init_score | array-like of shape = [n_samples] or None, optional (default=None)) | Init score of training data |
| group | array-like of shape = [n_samples] or None, optional (default=None) | Group data of training data. |
| eval_set | list or None, optional (default=None) | A list of (X, y) tuple pairs to use as a validation sets for early-stopping |
| eval_names | list of strings or None, optional (default=None) | Names of eval_set |
| eval_sample_weight | list of arrays or None, optional (default=None) | Weights of eval data |
| eval_init_score | list of arrays or None, optional (default=None) | Init score of eval data |
| eval_group | list of arrays or None, optional (default=None) | Group data of eval data |
| eval_metric | string, list of strings, callable or None, optional (default="logloss") | "mae","mse",... |
| early_stopping_rounds | int or None, optional (default=None) | 一定rounds,即停止迭代 |
| verbose | bool, optional (default=True) | |
| feature_name | list of strings or 'auto', optional (default="auto") | If ‘auto’ and data is pandas DataFrame, data columns names are used |
| categorical_feature | list of strings or int, or 'auto', optional (default="auto") | If ‘auto’ and data is pandas DataFrame, pandas categorical columns are used |
| callbacks | list of callback functions or None, optional (default=None) |
###############################################################################################
| X | array-like or sparse matrix of shape = [n_samples, n_features] | Input features matrix |
| raw_score | bool, optional (default=False) | Whether to predict raw scores |
| num_iteration | int, optional (default=0) | Limit number of iterations in the prediction; defaults to 0 (use all trees). |
| Returns | predicted_probability | The predicted probability for each class for each sample. |
| Return type | array-like of shape = [n_samples, n_classes] |
不平衡处理的参数:
1.一个简单的方法是设置is_unbalance参数为True或者设置scale_pos_weight,二者只能选一个。 设置is_unbalance参数为True时会把负样本的权重设为:正样本数/负样本数。这个参数只能用于二分类。
2.自定义评价函数:
https://cloud.tencent.com/developer/article/1357671
lightGBM的原理总结:
http://www.cnblogs.com/gczr/p/9024730.html
论文翻译:https://blog.csdn.net/u010242233/article/details/79769950,https://zhuanlan.zhihu.com/p/42939089
处理分类变量的原理:https://blog.csdn.net/anshuai_aw1/article/details/83275299
CatBoost、LightGBM、XGBoost的对比
https://blog.csdn.net/LrS62520kV/article/details/79620615
lightgbm的sklearn接口和原生接口参数详细说明及调参指点的更多相关文章
- xgboost的sklearn接口和原生接口参数详细说明及调参指点
from xgboost import XGBClassifier XGBClassifier(max_depth=3,learning_rate=0.1,n_estimators=100,silen ...
- word2vec参数调整 及lda调参
一.word2vec调参 ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -neg ...
- DeepMind提出新型超参数最优化方法:性能超越手动调参和贝叶斯优化
DeepMind提出新型超参数最优化方法:性能超越手动调参和贝叶斯优化 2017年11月29日 06:40:37 机器之心V 阅读数 2183 版权声明:本文为博主原创文章,遵循CC 4.0 BY ...
- python+pytest接口自动化(6)-请求参数格式的确定
我们在做接口测试之前,先需要根据接口文档或抓包接口数据,搞清楚被测接口的详细内容,其中就包含请求参数的编码格式,从而使用对应的参数格式发送请求.例如某个接口规定的请求主体的编码方式为 applicat ...
- android 学习随笔二十七(JNI:Java Native Interface,JAVA原生接口 )
JNI(Java Native Interface,JAVA原生接口) 使用JNI可以使Java代码和其他语言写的代码(如C/C++代码)进行交互. 问:为什么要进行交互? 首先,Java语言提供的类 ...
- 接口作为方法的参数或返回值——List接口
接口作为方法的参数或返回值,源码可知,List为一个接口,ArraryList是的它的实现类: 其中,addNames方法中,入参和返回值都List接口,入参是多态的,编译看左,运行看右(访问成员方法 ...
- 编写高质量代码改善C#程序的157个建议——建议43:让接口中的泛型参数支持协变
建议43:让接口中的泛型参数支持协变 除了上一建议中提到的使用泛型参数兼容接口不可变性外,还有一种办法是为接口中的泛型声明加上out关键字来支持协变,如下所示: interface ISalary&l ...
- Python+request 分模块存放接口,多接口共用参数URL、headers的抽离,添加日志打印等《三》
主要介绍内容如下: 1.分模块存放接口 2.多接口共用参数URL.headers的抽离为配置文件 3.添加日志打印 4.一个py文件运行所有所测的接口 如上介绍内容的作用: 1.分模块存放接口:方便多 ...
- 对接接口时,组织参数json出现的问题
在进行对接第三方接口时,进行参数组装成json的过程中出现参数传递格式错误以及json格式化错误. 在拼接json时,如果json中有对象,则以map的方式组装好所有参数.最后map转成json,不然 ...
随机推荐
- Full Schema Stitching with Apollo Server
转自: https://tomasalabes.me/blog/nodejs/graphql/apollo/2018/09/18/schema-stitiching-apollo.html Full ...
- Singer 学习十 同步模式
sync 模式是属于tap 的操作,同步模式下,tap 需要提交 schema. record .state message, singer 指南对于每种 类型有详细的说明 streams 每个str ...
- HDOJ 1297 Children’s Queue
版权声明:来自: 码代码的猿猿的AC之路 http://blog.csdn.net/ck_boss https://blog.csdn.net/u012797220/article/details/3 ...
- 【转】Android AlertDialog自定义布局
原文网址:https://blog.csdn.net/u010694658/article/details/53022294 由于开发中经常使用弹框,然而系统自带的弹框太局限,也不太美观,经常不能满足 ...
- redis之 3.0集群安装
1. 集群 即使有了主从复制,每个数据库都要保存整个集群中的所有数据,容易形成木桶效应. 使用Jedis实现了分片集群,是由客户端控制哪些key数据保存到哪个数据库中,如果在水平扩容时就必须手动进行数 ...
- git merge 和 git merge --no-ff
根据这张图片可以看出 git merge –no-ff 可以保存你之前的分支历史.能够更好的查看 merge历史,以及branch 状态. git merge 则不会显示 feature,只保留单条分 ...
- Sqoop 介绍、安装及环境配置
一.Sqoop Sqoop介绍 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.oracle...)间进行数据的传递,可以将一个关系型数据库中的数据导进到Ha ...
- F5负载均衡原理
一. 负载均衡技术 负载均衡技术在现有网络结构之上提供了一种廉价.有效.透明的方法,来扩展网络设备和服务器的带宽.增加吞吐量.加强网络数据处理能力.提高网络的灵活性和可用性. 1.负载均衡发生的流程图 ...
- 基于redis 3.x搭建集群环境
由于我团队开发的在线坐席系统,即将面对线上每周3000W的下行投放客户,产品的咨询量可能会很大,基于前期,200W的投放时,前10分钟,大概800问题量,平均一个客户大概8个问题,也就是说每分钟10个 ...
- Vivado约束文件(XDC)的探究(1)
Vivado约束文件(XDC)的探究(1) 工程建好之后会出现xdc文件: 注意:active 和 target 生成的约束文件如下: