机器学习的第一步是准备数据，好的数据能帮助我们加深对机器学习算法的理解。

不管是在学习还是实际工作中，准备数据永远是一个枯燥乏味的步骤。
scikit-learn库显然看到了这个痛点，才在它的数据加载子模块中为我们准备了直接可用的数据集。

在它的数据加载子模块中，提供了6种直接可用来学习算法的经典数据集，被称为 Toy Datasets，
也就是本篇准备介绍的玩具数据集。

1. 鸢尾花数据集

著名的鸢尾花数据集，最初由R.A.费舍尔爵士使用。
数据集取自费舍尔的论文。

1.1. 加载方式

from sklearn.datasets import load_iris

# 加载后的数据集 ds 是一个字典

ds = load_iris()

ds

直接的返回的字典中，除了数据还包含一些描述数据的元信息。
如果想要直接得到用于分析的数据，加载时设置如下的参数：

# as_frame 参数将数据部分设为pandas的Dataframe格式

# return_X_y 参数表示返回 (data, target) 格式

ds = load_iris(as_frame=True, return_X_y=True)

ds[0]  # Dataframe格式的数据

1.2. 数据概况

鸢尾花数据集是一个简单的多级分类数据集。

概况	说明
样本分类	3种
每种分类样本数	50
样本总数	150
样本维度	4
样本特征	`real`, `positive` 两种

1.3. 用途

这个数据集可作为下列机器学习算法的测试数据：

分类算法：例如，逻辑回归、朴素贝叶斯、决策树、支持向量机、神经网络等。
回归算法：例如，线性回归、决策树、支持向量回归等。
聚类算法：例如，K-Means、层次聚类等。

2. 糖尿病数据集

这是一个可用于回归任务的糖尿病数据集。

2.1. 加载方式

from sklearn.datasets import load_diabetes

# 与鸢尾花数据集加载相比，多了个 scaled 参数

# scaled=False时，返回特征变量的原始数据

# scaled=True时，则以均值为中心，进行缩放

ds = load_diabetes(as_frame=True, return_X_y=True, scaled=False)

ds[0]

2.2. 数据概况

概况	说明
样本总数	442
样本维度	10
特征	`-.2 < x < .2`实数
目标	`25 - 346` 整数

2.3. 用途

这个数据集可作为下列机器学习算法的测试数据：

回归算法：例如，线性回归、岭回归、Lasso回归、支持向量回归等。
特征选择算法：例如，递归特征消除、L1正则化等。
特征降维算法：例如，主成分分析（PCA）、线性判别分析（LDA）等。
其他相关算法：例如，模型评估、超参数调优等。

3. 手写数字数据集

这是一个用于多分类任务的数字识别数据集。

3.1. 加载方式

from sklearn.datasets import load_digits

ds = load_digits(as_frame=True, return_X_y=True)

ds[0]

3.2. 数据概况

概况	说明
样本分类	10种
每种分类样本数	约180
样本总数	1797
样本维度	64
样本特征	`0~16`整数

3.3. 用途

这个数据集可作为下列机器学习算法的测试数据：

多分类算法：例如，K-近邻（K-NN）、支持向量机（SVM）、决策树、神经网络等。
特征选择算法：例如，递归特征消除、L1正则化等。
特征降维算法：例如，主成分分析（PCA）、线性判别分析（LDA）等。
其他相关算法：例如，模型评估、超参数调优等。

需要注意的是，由于这个数据集的特征是图像像素值，因此不太适合用于非图像处理的机器学习算法。

4. 林纳鲁德数据集

这是一个用于多变量回归任务的数据集。

4.1. 加载方式

from sklearn.datasets import load_linnerud

ds = load_linnerud(as_frame=True, return_X_y=True)

ds[0]

4.2. 数据概况

概况	说明
样本总数	20
样本维度	3
特征	整数
目标	整数

4.3. 用途

这个数据集可作为下列机器学习算法的测试数据：

回归算法：例如，线性回归、岭回归、Lasso回归、支持向量回归等。
特征选择算法：例如，递归特征消除、L1正则化等。
特征降维算法：例如，主成分分析（PCA）、线性判别分析（LDA）等。
其他相关算法：例如，模型评估、超参数调优等。

5. 葡萄酒数据集

这是一个用于分类任务的葡萄酒数据集

5.1. 加载方式

from sklearn.datasets import load_wine

ds = load_wine(as_frame=True, return_X_y=True)

ds[0]

5.2. 数据概况

概况	说明
样本分类	3种
每种分类样本数	3个分类中的样本数分别为：59,71,48
样本总数	178
样本维度	13
样本特征	正的实数

5.3. 用途

这个数据集可作为下列机器学习算法的测试数据：

分类算法：例如，逻辑回归、朴素贝叶斯、决策树、支持向量机、神经网络等。
特征选择算法：例如，递归特征消除、L1正则化等。
特征降维算法：例如，主成分分析（PCA）、线性判别分析（LDA）等。
其他相关算法：例如，模型评估、超参数调优等。

6. 威斯康星州乳腺癌数据集

这是一个用于分类任务的乳腺癌数据集。

6.1. 加载方式

from sklearn.datasets import load_breast_cancer

ds = load_breast_cancer(as_frame=True, return_X_y=True)

ds[0]

6.2. 数据概况

概况	说明
样本分类	2种
每种分类样本数	样本数分别为：212,357
样本总数	569
样本维度	30
样本特征	正的实数

6.3. 用途

这个数据集可作为下列机器学习算法的测试数据：

分类算法：例如，逻辑回归、朴素贝叶斯、决策树、支持向量机、神经网络等。
特征选择算法：例如，递归特征消除、L1正则化等。
特征降维算法：例如，主成分分析（PCA）、线性判别分析（LDA）等。
其他相关算法：例如，模型评估、超参数调优等。

7. 总结

这些数据集数据量不大，但是数据具有代表性，且种类丰富。
了解每种数据的特点，后续学习算法的时候，可以利用它们来实验和验证算法的使用。

【scikit-learn基础】--『数据加载』之玩具数据集的更多相关文章

Python 数据分析（一）本实验将学习 pandas 基础，数据加载、存储与文件格式，数据规整化，绘图和可视化的知识
第1节 pandas 回顾第2节读写文本格式的数据第3节使用 HTML 和 Web API 第4节使用数据库第5节合并数据集第6节重塑和轴向旋转第7节数据转换第8节字符串操作 ...
odoo基础数据加载
odoo 基础数据加载这里介绍的odoo基础数据加载分两种方式,一种是演示数据加载,一种是默认数据加载,下面就是详细介绍首先,当然是创建一个date文件夹项目目录,右键自定义一个文件夹 XML数 ...
transformers 之Trainer对应的数据加载
基础信息说明本文以Seq2SeqTrainer作为实例,来讨论其模型训练时的数据加载方式预训练模型:opus-mt-en-zh 数据集:本地数据集任务:en-zh 机器翻译数据加载 Train ...
ScrollView嵌套ListView,GridView数据加载不全问题的解决
我们大家都知道ListView,GridView加载数据项,如果数据项过多时,就会显示滚动条.ScrollView组件里面只能包含一个组件,当ScrollView里面嵌套listView,GridVi ...
python多种格式数据加载、处理与存储
多种格式数据加载.处理与存储实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...
flask+sqlite3+echarts3+ajax 异步数据加载
结构: /www | |-- /static |....|-- jquery-3.1.1.js |....|-- echarts.js(echarts3是单文件!!) | |-- /templates ...
Entity Framework关联查询以及数据加载（延迟加载，预加载）
数据加载分为延迟加载和预加载 EF的关联实体加载有三种方式:Lazy Loading,Eager Loading,Explicit Loading,其中Lazy Loading和Explicit Lo ...
JQuery插件：遮罩+数据加载中。。。（特点：遮你想遮，罩你想罩）
在很多项目中都会涉及到数据加载.数据加载有时可能会是2-3秒,为了给一个友好的提示,一般都会给一个[数据加载中...]的提示.今天就做了一个这样的提示框. 先去jQuery官网看看怎么写jQuery插 ...
如何评估ETL的数据加载时间
简述如何评估大型ETL数据加载时间. 答:评估一个大型的ETL的数据加载时间是一件很复杂的事情.数据加载分为两类,一类是初次加载,另一类是增量加载. 在数据仓库正式投入使用时,需要进行一次初次加载,而 ...
浅谈Entity Framework中的数据加载方式
如果你还没有接触过或者根本不了解什么是Entity Framework,那么请看这里http://www.entityframeworktutorial.net/EntityFramework-Arc ...

随机推荐

JDK中动态库加载路径问题，一文讲清
前言本周协助测试同事对一套测试环境进行扩容,我们扩容很原始,就是新申请一台机器,直接把jdk.resin容器(一款servlet容器).容器中web应用所在的目录,全拷贝到新机器上,servlet容 ...
maven系列：基本命令（创建类、构建打包类、IDEA中操作）
目录一.创建类命令创建普通Maven项目创建Web Maven项目发布第三方Jar到本地库中二.构建打包类命令编译源代码编译测试代码编译测试代码打包项目清除打包的项目清除历史打包 ...
SpringBoot+Mybatis-Plus+Mysql的保姆级搭建
本文通过简单的示例代码和说明,让读者能够了解Mybatis-Plus+Mysql的简单使用必须说明的是,本文有部分内容是为了后续的微服务写的,所以如果只想用Mybatis-Plus的话,直接使用ba ...
「BJWC2012」冻结题解
「BJWC2012」冻结题解一.题目 "我要成为魔法少女!" "那么,以灵魂为代价,你希望得到什么?" "我要将有关魔法和奇迹的一切,封印于卡片之中 ...
Codeforces 1254B1 - Send Boxes to Alice (Easy Version)
题意有\(n(1\leq n\leq 10^5)\)个盒子,每个盒子有\(a_i(0\leq a_i \leq 1)\)个糖果,你每一次可以将第\(i\)个盒子里的糖果放到第\(i-1\)或\(i+ ...
【matplotlib基础】--刻度
Matplotlib中刻度是用于在绘图中表示数据大小的工具. 刻度是坐标轴上的数字或标签,用于指示数据的大小或值,通常以整数或小数表示,具体取决于坐标轴的类型和限制. 1. 主次刻度默认的绘制时,坐 ...
《Python魔法大冒险》006 变量的迷雾
小鱼和魔法师走了很久,终于来到了一个神秘的森林前.这片森林与众不同,它被一层厚厚的迷雾所包围,仿佛隐藏着无尽的秘密. 小鱼好奇地看着这片森林:"这是什么地方?" 魔法师:这是魔法森 ...
Java读取某个文件夹下的所有文件(支持多级文件夹)
源码如下: package com.vocy.water.batch; import java.io.FileNotFoundException; import java.io.IOException ...
比 nvm 更好用的 node 版本管理工具
什么是 Volta Volta 是一种管理 JavaScript 命令行工具的便捷方式. volta 的特点: 速度无缝,每个项目的版本切换跨平台支持,包括 Windows 和所有 Unix sh ...
Flutter 编写收音机开源
之前写的一个 Flutter 收音机,支持桌面端和手机端,在https://www.cnblogs.com/imlgc/p/17536481.html ,写完之后就不怎么管了.后面陆陆续续有人邮件索要 ...

【scikit-learn基础】--『数据加载』之玩具数据集

1. 鸢尾花数据集

1.1. 加载方式

1.2. 数据概况

1.3. 用途

2. 糖尿病数据集

2.1. 加载方式

2.2. 数据概况

2.3. 用途

3. 手写数字数据集

3.1. 加载方式

3.2. 数据概况

3.3. 用途

4. 林纳鲁德数据集

4.1. 加载方式

4.2. 数据概况

4.3. 用途

5. 葡萄酒数据集

5.1. 加载方式

5.2. 数据概况

5.3. 用途

6. 威斯康星州乳腺癌数据集

6.1. 加载方式

6.2. 数据概况

6.3. 用途

7. 总结

【scikit-learn基础】--『数据加载』之玩具数据集的更多相关文章

随机推荐

热门专题