【机器学习】集成学习之sklearn中的xgboost基本用法

1.数据集

数据集使用sklearn自带的手写数字识别数据集mnist，通过函数datasets导入。mnist共1797个样本，8*8个特征，标签为0~9十个数字。

  1 ### 载入数据

  2 from sklearn import datasets    # 载入数据集

  3 digits = datasets.load_digits() # 载入mnist数据集

  4 print(digits.data.shape)        # 打印输入空间维度

  5 print(digits.target.shape)      # 打印输出空间维度

  6 """

  7 (1797, 64)

  8 (1797,)

  9 """

2.数据集分割

sklearn.model_selection中train_test_split函数划分数据集，其中参数test_size为测试集所占的比例，random_state为随机种子（为了能够复现实验结果而设定）。

  1 ### 数据分割

  2 from sklearn.model_selection import train_test_split                 # 载入数据分割函数train_test_split

  3 x_train,x_test,y_train,y_test = train_test_split(digits.data,        # 特征空间

  4                                                  digits.target,      # 输出空间

  5                                                  test_size = 0.3,    # 测试集占30%

  6                                                  random_state = 33)  # 为了复现实验，设置一个随机数

  7

3.模型相关（载入模型--训练模型--模型预测）

XGBClassifier.fit()函数用于训练模型，XGBClassifier.predict()函数为使用模型做预测。

  1 ### 模型相关

  2 from xgboost import XGBClassifier

  3 model = XGBClassifier()               # 载入模型（模型命名为model)

  4 model.fit(x_train,y_train)            # 训练模型（训练集）

  5 y_pred = model.predict(x_test)        # 模型预测（测试集），y_pred为预测结果

4.性能评估

sklearn.metrics中accuracy_score函数用来判断模型预测的准确度。

  1 ### 性能度量

  2 from sklearn.metrics import accuracy_score   # 准确率

  3 accuracy = accuracy_score(y_test,y_pred)

  4 print("accuarcy: %.2f%%" % (accuracy*100.0))

  5

  6 """

  7 95.0%

  8 """

5.特征重要性

xgboost分析了特征的重要程度，通过函数plot_importance绘制图片。

  1 ### 特征重要性

  2 import matplotlib.pyplot as plt

  3 from xgboost import plot_importance

  4 fig,ax = plt.subplots(figsize=(10,15))

  5 plot_importance(model,height=0.5,max_num_features=64,ax=ax)

  6 plt.show()

6.完整代码

  1 # -*- coding: utf-8 -*-

  2 """

  3 ###############################################################################

  4 # 作者：wanglei5205

  5 # 邮箱：wanglei5205@126.com

  6 # 代码：http://github.com/wanglei5205

  7 # 博客：http://cnblogs.com/wanglei5205

  8 # 目的：xgboost基本用法

  9 ###############################################################################

 10 """

 11 ### load module

 12 from sklearn import datasets

 13 from sklearn.model_selection import train_test_split

 14 from xgboost import XGBClassifier

 15 from sklearn.metrics import accuracy_score

 16

 17 ### load datasets

 18 digits = datasets.load_digits()

 19

 20 ### data analysis

 21 print(digits.data.shape)   # 输入空间维度

 22 print(digits.target.shape) # 输出空间维度

 23

 24 ### data split

 25 x_train,x_test,y_train,y_test = train_test_split(digits.data,

 26                                                  digits.target,

 27                                                  test_size = 0.3,

 28                                                  random_state = 33)

 29

 30 ### fit model for train data

 31 model = XGBClassifier()

 32 model.fit(x_train,y_train)

 33

 34 ### make prediction for test data

 35 y_pred = model.predict(x_test)

 36

 37 ### model evaluate

 38 accuracy = accuracy_score(y_test,y_pred)

 39 print("accuarcy: %.2f%%" % (accuracy*100.0))

 40 """

 41 95.0%

 42 """

【机器学习】集成学习之sklearn中的xgboost基本用法的更多相关文章

【集成学习】sklearn中xgboost模块的XGBClassifier函数
# 常规参数 booster gbtree 树模型做为基分类器(默认) gbliner 线性模型做为基分类器 silent silent=0时,不输出中间过程(默认) silent=1时,输出中间过程 ...
【集成学习】sklearn中xgboost模块中plot_importance函数（绘图--特征重要性）
直接上代码,简单 # -*- coding: utf-8 -*- """ ################################################ ...
【集成学习】sklearn中xgboot模块中fit函数参数详解（fit model for train data）
参数解释,后续补上. # -*- coding: utf-8 -*- """ ############################################## ...
[机器学习]集成学习--bagging、boosting、stacking
集成学习简介集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务. 如何产生"好而不同"的个体学习器,是集成学习研究的核心. 集成学习的思路是通过 ...
大白话5分钟带你走进人工智能-第32节集成学习之最通俗理解XGBoost原理和过程
目录 1.回顾: 1.1 有监督学习中的相关概念 1.2 回归树概念 1.3 树的优点 2.怎么训练模型: 2.1 案例引入 2.2 XGBoost目标函数求解 3.XGBoost中正则项的显式表达 ...
机器学习——集成学习(Bagging、Boosting、Stacking)
1 前言集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate < ...
机器学习--集成学习（Ensemble Learning）
一.集成学习法在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好) ...
python大战机器学习——集成学习
集成学习是通过构建并结合多个学习器来完成学习任务.其工作流程为: 1)先产生一组“个体学习器”.在分类问题中,个体学习器也称为基类分类器 2)再使用某种策略将它们结合起来. 通常使用一种或者多种已有的 ...
机器学习:集成学习:随机森林.GBDT
集成学习(Ensemble Learning) 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测 ...

随机推荐

win32和x86以及x64的区别
本来是知道x86和x64的区别的. 今天突然在VS2008上看到一个win32的选项,一下子懵了,这是什么玩意. 百度之,发现答案 win32是指windows 32位的操作系统,顾名思义是支持32为 ...
推荐一个JavaScript触发器插件，可通过指定频次、指定时间内触发指定的处理函数
推荐一个JavaScript触发器插件js-trigger js-trigger是一个JavaScript触发器插件,可通过指定频次.指定时间内触发指定的处理函数 https://tanwei-cc. ...
动态规划入门-01背包问题 - poj3624
2017-08-12 18:50:13 writer:pprp 对于最基础的动态规划01背包问题,都花了我好长时间去理解: poj3624是一个最基本的01背包问题: 题意:给你N个物品,给你一个容量 ...
python 类和对象的属性
python类和对象的属性分为类属性和对象属性两大类,类属性属于类,而对象属性属于对象. 1. 父类的对象属性会被子类的对象继承. 2. 父类的类属性会被子类继承,还是作为类属性,如果父类改变了类属性 ...
python find命令、startwith命令
python的字符串有很多好用的操作,比如find,startswith命令. 这几个命令在处理配置文件的时候很有用,比如用startswith判断是否是注释行. 注意:几个函数的返回值是不同滴. 函 ...
codeforces GYM 100971F 公式题或者三分
F. Two Points time limit per test 2 seconds memory limit per test 256 megabytes input standard input ...
nmap 端口扫描王，查看端口是否可访问，是否对外开放
NMap,也就是Network Mapper,最早是Linux下的网络扫描和嗅探工具包. 1 安装 apt-get install nmap 2 使用,查看ip下所有对外的端口 $ sudo nmap ...
用cookies判断用户首次登录
要求:判断24小时内用户是否是首次登录,如果是则显示弹窗,如果不是则不再显示弹窗 (function() { //是否是新访客 function isNewVisitor() { //从cookie读 ...
JS的scrollIntoView
scrollIntoView(alignWithTop) 滚动浏览器窗口或容器元素,以便在当前视窗的可见范围看见当前元素.如果alignWithTop为true,或者省略它,窗口会尽可能滚动到自身顶 ...
转mysql横向扩展和纵向扩展
Scale-up(纵向扩展)和Scale-out(横向扩展)的解释谈到系统的可伸缩性,Scale-up(纵向扩展)和Scale-out(横向扩展)是两个常见的术语,对于初学者来说,很容易搞迷糊这两个 ...

【机器学习】集成学习之sklearn中的xgboost基本用法

【机器学习】集成学习之sklearn中的xgboost基本用法的更多相关文章

随机推荐

热门专题