XGBoost特征选择

1. 特征选择的思维导图

2. XGBoost特征选择算法

(1) XGBoost算法背景

　　　　2016年，陈天奇在论文《 XGBoost：A Scalable Tree Boosting System》中正式提出该算法。XGBoost的基本思想和GBDT相同，但是做了一些优化，比如二阶导数使损失函数更精准；正则项避免树过拟合；Block存储可以并行计算等。XGBoost具有高效、灵活和轻便的特点，在数据挖掘、推荐系统等领域得到广泛的应用。

　　(2) 算法原理

　　(3) 算法实现--python

from sklearn.model_selection import train_test_split

from sklearn import metrics

import xgboost as xgb

import matplotlib.pyplot as plt

from sklearn.model_selection import GridSearchCV

import pandas as pd, numpy as np

import matplotlib as mpl

# mpl.rcParams['font.sans-serif']=['FangSong']

# mpl.rcParams['axes.unicode_minus']=False

fpath = r".\processData\filter.csv"

Dataset = pd.read_csv(fpath)

x = Dataset.loc[:, "nAcid":"Zagreb"]

y1 = Dataset.loc[:, "IC50_nM"]

y2 = Dataset.loc[:, "pIC50"]

names = x.columns

names = list(names)

key = list(range(0, len(names)))

names_dict = dict(zip(key, names))

names_dicts = pd.DataFrame([names_dict])

x_train, x_test, y_train, y_test = train_test_split(x, y2, test_size=0.33, random_state=7)

"""

max_depth:树的最大深度

"""

model = xgb.XGBRegressor(max_depth=6, learning_rate=0.12, n_estimators=90, min_child_weight=6, objective="reg:gamma")

model.fit(x_train, y_train)

feature_important = model.feature_importances_

rank_idx  = np.argsort(feature_important)[::-1]

rank_idx30 = rank_idx[:30]

rank_names30 = names_dicts.loc[:, rank_idx30]

label = rank_names30.values[0, :]

path1 = r"Xgboost排名前30的特征.csv"

pd.DataFrame(label).to_csv(path1, index=False)

x_score = np.sort(feature_important)[::-1]

path = r"Xgboost排名前30的得分.csv"

pd.DataFrame(x_score[:30]).to_csv(path, index=False)

# xgboost网格搜索调参

gsCv = GridSearchCV(model,

                {'max_depth':list(range(3, 10, 1)),

                 'learning_rate':[0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09, 0.1, 0.12, 0.13, 0.14, 0.15, 0.16, 0.17, 0.18, 0.19, 0.2],

                 'min_child_weight':list(range(2, 8, 2)),

                 'n_estimators':list(range(10, 101, 10))})

gsCv.fit(x_train, y_train)

print(gsCv.best_params_)

cv_results = pd.DataFrame(gsCv.cv_results_)

path = r"paramRank.csv"

cv_results.to_csv(path, index=False)

# 可视化

plt.figure()

plt.bar(range(len(model.feature_importances_)), model.feature_importances_)

plt.xlabel("Feature")

plt.ylabel("Feature Score")

plt.title("Feature Importance")

plt.savefig("Xgboost")

# 可视化

plt.figure()

plt.barh(label[::-1], x_score[:30][::-1], 0.6, align='center')

plt.grid(ls=':', color='gray', alpha=0.4)

plt.title("Xgboost Feature Importance")

# 添加数据标签

# for a, b in enumerate(rf_score[:30][::-1]):

#     plt.text(b+0.1, a-0.6/2, '%s' % b, ha='center', va='bottom')

plt.savefig("前30名特征")

plt.show()

注意：该算法没有数据是不能运行的，需要做适当的修改，后面使用网格调参，找到最优参数。

　　　(4) 算法可视化

XGBoost特征选择的更多相关文章

xgboost 特征选择，筛选特征的正要性
import pandas as pd import xgboost as xgb import operator from matplotlib import pylab as plt def ce ...
从信用卡欺诈模型看不平衡数据分类（1）数据层面：使用过采样是主流，过采样通常使用smote，或者少数使用数据复制。过采样后模型选择RF、xgboost、神经网络能够取得非常不错的效果。（2）模型层面：使用模型集成，样本不做处理，将各个模型进行特征选择、参数调优后进行集成，通常也能够取得不错的结果。（3）其他方法：偶尔可以使用异常检测技术，IF为主
总结:不平衡数据的分类,(1)数据层面:使用过采样是主流,过采样通常使用smote,或者少数使用数据复制.过采样后模型选择RF.xgboost.神经网络能够取得非常不错的效果.(2)模型层面:使用模型 ...
XGBoost、LightGBM的详细对比介绍
sklearn集成方法集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是: bagging 基本思想独立的训练一些基学习器 ...
Stacking：Catboost、Xgboost、LightGBM、Adaboost、RF etc
python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&am ...
Xgboost总结
从决策树.随机森林.GBDT最终到XGBoost,每个热门算法都不是孤立存在的,而是基于一系列算法的改进与优化.决策树算法简单易懂可解释性强,但是过拟合风险很大,应用场景有限:随机森林采用Baggin ...
Python机器学习笔记：XgBoost算法
前言 1,Xgboost简介 Xgboost是Boosting算法的其中一种,Boosting算法的思想是将许多弱分类器集成在一起,形成一个强分类器.因为Xgboost是一种提升树模型,所以它是将许多 ...
机器学习-树模型理论（GDBT，xgboost，lightBoost，随机森林）
tree based ensemble algorithms 主要介绍以下几种ensemble的分类器(tree based algorithms) xgboost lightGBM: 基于决策树算法 ...
随机森林RF、XGBoost、GBDT和LightGBM的原理和区别
目录 1.基本知识点介绍 2.各个算法原理 2.1 随机森林 -- RandomForest 2.2 XGBoost算法 2.3 GBDT算法(Gradient Boosting Decision T ...
RF/GBDT/XGBoost/LightGBM简单总结(完结)
这四种都是非常流行的集成学习(Ensemble Learning)方式,在本文简单总结一下它们的原理和使用方法. Random Forest(随机森林): 随机森林属于Bagging,也就是有放回抽样 ...

随机推荐

【华为昇腾】序言：从昇腾AI软硬件平台聊起
2021年是很值得纪念的一年,从上半年开始跟随导师编写有关华为昇腾软件栈CANN的教材,一年的时间反复迭代终于快要出版了. 这一系列博客可以视作我从编者的角度,重新梳理的全书思路.明年入职商汤之后要 ...
C/C++ Qt Dialog 对话框组件应用
在Qt中对话框分为两种形式,一种是标准对话框,另一种则是自定义对话框,在一般开发过程中标准对话框使用是最多的了,标准对话框一般包括 QMessageBox,QInputDialog,QFileDial ...
9.1 k8s pod版本更新流程及命令行实现升级与回滚
1.创建 Deployment root@k8-deploy:~/k8s-yaml/controllers/deployments# vim nginx-deployment.yaml apiVers ...
WebGoat8.2.2-A8不安全的反序列化
1.概念使用反序列化在各编程语言中略有不同,如Java.PHP.Python.Ruby.C/C++,但在关键概念上是一样的序列化:将(内存中的)对象转化成数据格式,以便存储或传输 ...
Linux环境下R和R包安装及其管理
前言 R对windows使用很友好,对Linux来说充满了敌意.小数据可以在windows下交互操作,效果很好很棒.可是当我们要处理大数据,或者要在集群上搭建pipeline时,不得不面对在Linux ...
Prometheus_exporter安装与使用
Promethues概述:可以看一下更详细的介绍,以下为转载的博客,原文链接,支持原创,请多多支持!!:闫世成的博客园 Prometheus-node-exporter 1.简介: 内核公开的硬件和操 ...
【模板】网络最大流（EK、Dinic、ISAP）（网络流）/洛谷P3376
题目链接 https://www.luogu.com.cn/problem/P3376 题目大意输入格式第一行包含四个正整数 \(n,m,s,t\),分别表示点的个数.有向边的个数.源点序号.汇点 ...
ab命令执行压力测试
ab是Apache超文本传输协议(HTTP)的性能测试工具:设计意图是描绘当前所安装的Apache的执行性能,主要是显示你安装的Apache每秒可以处理多少个请求:ab不仅仅能进行基于apache服务 ...
网易云信集成UI库登录dologin没有回调
感谢github上的两位大佬指出问题的解决方法. 解决方法: 在进行ui初始化要在主进程中进行,初始化前进行主进程判断. 若还收不到回调,可尝试将uikit中的base包去掉而在build.gradl ...
keybd_event模拟键盘按键，mouse_event怎么用
从模仿UP主,用Python实现一个弹幕控制的直播间! - 蛮三刀酱 - 博客园 (cnblogs.com) 知道了 PyAutoGUI: * Moving the mouse and clicki ...

XGBoost特征选择

XGBoost特征选择的更多相关文章

随机推荐

热门专题