这是scikit-learn数据加载系列的最后一篇,本篇介绍如何加载外部的数据集

外部数据集不像之前介绍的几种类型的数据集那样,针对每种数据提供对应的接口,每个接口加载的数据都是固定的。
而外部数据集加载之后,数据的字段和类型是不确定的。

简单来说,我们在实际的数据分析工作中,用到的是外部数据集加载,
学习数据分析时,更多用到的是前面介绍的数据加载

  1. 玩具数据集【scikit-learn基础】--『数据加载』之玩具数据集
  2. 真实数据集【scikit-learn基础】--『数据加载』之真实数据集
  3. 样本生成器【scikit-learn基础】--『数据加载』之样本生成器

1. openml.org 数据集

openml.org网站上提供了丰富的用于机器学习的数据集,目前已经有5300多个各类数据集。

通过scikit-learn加载openml.org的数据集非常简单,
先在网站上找到自己感兴趣的数据集,然后根据其名称即可加载。
比如,下面的示例代码加载了一个关于糖尿病的数据集(diabetes)。

from sklearn.datasets import fetch_openml

data = fetch_openml(name='diabetes', version=1, parser="auto")
data

有的数据集有多个版本,通过 version 参数指定需要加载哪个版本。

2. svmlight / libsvm 格式数据

svmlight/libsvm格式是一种用于存储训练好的支持向量机(SVM)模型和数据集。
这种格式的特点是每一行都采用表格形式,以空格或者制表符分隔,适用于稀疏数据集。

scikit-learn中,加载svmlight/libsvm格式的数据使用load_svmlight_file函数。

import requests
import io
from sklearn.datasets import load_svmlight_file # 一个在线的 svm 数据
url = "https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/a1a"
res = requests.get(url) # 加载svmlight/libsvm格式的数据文件
X, y = load_svmlight_file(io.BytesIO(res.content)) # 打印特征数和样本数
print("特征数:", X.shape[1])
print("样本数:", X.shape[0]) # 运行结果:
特征数: 119
样本数: 1605

由于load_svmlight_file不支持直接加载网络文件,所以先通过 requests 库获取数据,
然后将数据转换为IO数据流,再传入函数load_svmlight_file中。

3. 对接其他库

Python中用于数据分析的库最常用的当属pandasnumpyscipy
scikit-learn可以直接使用这些库所加载的数据,这就让scikit-learn加载数据的能力直接站在了巨人的肩膀上。

比如,scikit-learn可以直接使用通过 pandas.io模块来加载的数据,
也就是支持CSVJSONHTMLXMLEXCELHDF5SQL等等各种格式。

还有通过numpy/routines.io加载的列式数据,
以及通过 scipy.io 模块加载的科学计算环境中经常使用的二进制格式,如.mat.arff

4. 总结

scikit-learn库的数据加载系列至此告一段落。
我们在掌握机器学习算法的过程中,自然而然的会将注意点放在算法的原理和各种参数上,
但是,一份好的数据能够帮助我们更加直观的了解到机器学习算法的运行过程。

scikit-learn提供的各类丰富的数据集绝对是学习算法的一大助力。
我觉得库本身所提供的丰富的数据集也是scikit-learn库相较于其他机器学习库的一大特色和优势。

【scikit-learn基础】--『数据加载』之外部数据集的更多相关文章

  1. Python 数据分析(一) 本实验将学习 pandas 基础,数据加载、存储与文件格式,数据规整化,绘图和可视化的知识

    第1节 pandas 回顾 第2节 读写文本格式的数据 第3节 使用 HTML 和 Web API 第4节 使用数据库 第5节 合并数据集 第6节 重塑和轴向旋转 第7节 数据转换 第8节 字符串操作 ...

  2. odoo基础数据加载

    odoo 基础数据加载 这里介绍的odoo基础数据加载分两种方式,一种是演示数据加载,一种是默认数据加载,下面就是详细介绍 首先,当然是创建一个date文件夹 项目目录,右键自定义一个文件夹 XML数 ...

  3. transformers 之Trainer对应的数据加载

    基础信息说明 本文以Seq2SeqTrainer作为实例,来讨论其模型训练时的数据加载方式 预训练模型:opus-mt-en-zh 数据集:本地数据集 任务:en-zh 机器翻译 数据加载 Train ...

  4. ScrollView嵌套ListView,GridView数据加载不全问题的解决

    我们大家都知道ListView,GridView加载数据项,如果数据项过多时,就会显示滚动条.ScrollView组件里面只能包含一个组件,当ScrollView里面嵌套listView,GridVi ...

  5. python多种格式数据加载、处理与存储

    多种格式数据加载.处理与存储 实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...

  6. flask+sqlite3+echarts3+ajax 异步数据加载

    结构: /www | |-- /static |....|-- jquery-3.1.1.js |....|-- echarts.js(echarts3是单文件!!) | |-- /templates ...

  7. Entity Framework关联查询以及数据加载(延迟加载,预加载)

    数据加载分为延迟加载和预加载 EF的关联实体加载有三种方式:Lazy Loading,Eager Loading,Explicit Loading,其中Lazy Loading和Explicit Lo ...

  8. JQuery插件:遮罩+数据加载中。。。(特点:遮你想遮,罩你想罩)

    在很多项目中都会涉及到数据加载.数据加载有时可能会是2-3秒,为了给一个友好的提示,一般都会给一个[数据加载中...]的提示.今天就做了一个这样的提示框. 先去jQuery官网看看怎么写jQuery插 ...

  9. 如何评估ETL的数据加载时间

    简述如何评估大型ETL数据加载时间. 答:评估一个大型的ETL的数据加载时间是一件很复杂的事情.数据加载分为两类,一类是初次加载,另一类是增量加载. 在数据仓库正式投入使用时,需要进行一次初次加载,而 ...

  10. 浅谈Entity Framework中的数据加载方式

    如果你还没有接触过或者根本不了解什么是Entity Framework,那么请看这里http://www.entityframeworktutorial.net/EntityFramework-Arc ...

随机推荐

  1. STM32中SWD下载不进去的解决方法

    这是我第一次写自己的博客,希望以后写博客可以当做自己的个人习惯并坚持下去,作为技术分享,也欢迎各位大佬前来指正.本人本科学习的机械电子工程,了解机械制图.嵌入式编程.目前刚好学习了PCB制板,正在向着 ...

  2. P3378 【模板】二叉堆

    [洛谷]P3378 [模板]堆 方法一 手写堆 最小堆插入 从新增的最后一个结点的父结点开始,用要插入元素向下过滤上层结点(相当于要插入的元素向上渗透) void siftdown(int i) // ...

  3. [Python3] 初识py, 一个简单练手的小玩意. 快递查询

    有图有真相 脚本代码 最近刚入门py, 准备写点小玩意练练手. 于是决定拿快递100开刀. 因为它的api很简单. # 快递100 API # 作者: 剑齿虎 # 邮箱: yuxiaobo64@gma ...

  4. MySQL实战实战系列 00 开篇词 这一次,让我们一起来搞懂MySQL

    你好,我是林晓斌,网名"丁奇",欢迎加入我的专栏,和我一起开始 MySQL 学习之旅.我曾先后在百度和阿里任职,从事 MySQL 数据库方面的工作,一步步地从一个数据库小白成为 M ...

  5. MySQL实战实战系列 04 深入浅出索引(上)

    提到数据库索引,我想你并不陌生,在日常工作中会经常接触到.比如某一个 SQL 查询比较慢,分析完原因之后,你可能就会说"给某个字段加个索引吧"之类的解决方案.但到底什么是索引,索引 ...

  6. Text2Cypher:大语言模型驱动的图查询生成

    话接上文<图技术在 LLM 下的应用:知识图谱驱动的大语言模型 Llama Index> 同大家简单介绍过 LLM 和图.知识图谱相关的结合,现在我来和大家分享下最新的成果.毕竟,从 GP ...

  7. Flutter 编写收音机开源

    之前写的一个 Flutter 收音机,支持桌面端和手机端,在https://www.cnblogs.com/imlgc/p/17536481.html ,写完之后就不怎么管了.后面陆陆续续有人邮件索要 ...

  8. 485modbus转profinet网关连接威纶通与三菱变频器modbus通讯

    485modbus转profinet网关连三菱变频器modbus通讯触摸屏监控 本案例介绍了如何通过485modbus转profinet网关连接威纶通与三菱变频器进行modbus通讯.485modbu ...

  9. FreeSWITCH容器化问题之rtp端口占用

    操作系统 :CentOS 7.6_x64.debian 11 (bullseye,docker) FreeSWITCH版本 :1.10.9 Docker版本:23.0.6 FreeSWITCH容器化带 ...

  10. Merge-Lrc 合并歌词的小工具

    Merge-Lrc 背景 音乐区有群友希望各种乱七八糟的歌词(lrc 格式居多,里面甚至还有翻译)可以整理成单一的文件,或者一个仅翻译的歌词可以和原文的歌词合并.于是就开发了这款工具.地址:https ...