除了内置的数据集，scikit-learn还提供了随机样本的生成器。
通过这些生成器函数，可以生成具有特定特性和分布的随机数据集，以帮助进行机器学习算法的研究、测试和比较。

目前，scikit-learn库（v1.3.0版）中有20个不同的生成样本的函数。
本篇重点介绍其中几个具有代表性的函数。

1. 分类聚类数据样本

分类和聚类是机器学习中使用频率最高的算法，创建各种相关的样本数据，能够帮助我们更好的试验算法。

1.1. make_blobs

这个函数通常用于可视化分类器的学习过程，它生成由聚类组成的非线性数据集。

import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs

X, Y = make_blobs(n_samples=1000, centers=5)

plt.scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

plt.show()

上面的示例生成了1000个点的数据，分为5个类别。

make_blobs的主要参数包括：

n_samples：生成的样本数。
n_features：每个样本的特征数。通常为2，表示我们生成的是二维数据。
centers：聚类的数量。即生成的样本会被分为多少类。
cluster_std：每个聚类的标准差。这决定了聚类的形状和大小。
shuffle：是否在生成数据后打乱样本。
random_state：随机数生成器的种子。这确保了每次运行代码时生成的数据集都是一样的。

1.2. make_classification

这是一个用于生成复杂二维数据的函数，通常用于可视化分类器的学习过程或者测试机器学习算法的性能。

import matplotlib.pyplot as plt

from sklearn.datasets import make_classification

X, Y = make_classification(n_samples=100, n_classes=4, n_clusters_per_class=1)

plt.scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

plt.show()

可以看出它生成的各类数据交织在一起，很难做线性的分类。

make_classification的主要参数包括：

n_samples：生成的样本数。
n_features：每个样本的特征数。这个参数决定了生成的数据集的维度。
n_informative：具有信息量的特征的数量。这个参数决定了特征集中的特征有多少是有助于分类的。
n_redundant：冗余特征的数量。这个参数决定了特征集中的特征有多少是重复或者没有信息的。
random_state：随机数生成器的种子。这确保了每次运行代码时生成的数据集都是一样的。

1.3. make_moons

和函数名称所表达的一样，它是一个用于生成形状类似于月牙的数据集的函数，通常用于可视化分类器的学习过程或者测试机器学习算法的性能。

from sklearn.datasets import make_moons

fig, ax = plt.subplots(1, 3)

fig.set_size_inches(9, 3)

X, Y = make_moons(noise=0.01, n_samples=1000)

ax[0].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

ax[0].set_title("noise=0.01")

X, Y = make_moons(noise=0.05, n_samples=1000)

ax[1].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

ax[1].set_title("noise=0.05")

X, Y = make_moons(noise=0.5, n_samples=1000)

ax[2].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

ax[2].set_title("noise=0.5")

plt.show()

noise越小，数据的分类越明显。

make_moons的主要参数包括：

n_samples：生成的样本数。
noise：在数据集中添加的噪声的标准差。这个参数决定了月牙的噪声程度。
random_state：随机数生成器的种子。这确保了每次运行代码时生成的数据集都是一样的。

2. 回归数据样本

除了分类和聚类，回归是机器学习的另一个重要方向。
scikit-learn同样也提供了创建回归数据样本的函数。

from sklearn.datasets import make_regression

fig, ax = plt.subplots(1, 3)

fig.set_size_inches(9, 3)

X, y = make_regression(n_samples=100, n_features=1, noise=20)

ax[0].scatter(X[:, 0], y, marker="o")

ax[0].set_title("noise=20")

X, y = make_regression(n_samples=100, n_features=1, noise=10)

ax[1].scatter(X[:, 0], y, marker="o")

ax[1].set_title("noise=10")

X, y = make_regression(n_samples=100, n_features=1, noise=1)

ax[2].scatter(X[:, 0], y, marker="o")

ax[2].set_title("noise=1")

plt.show()

通过调节noise参数，可以创建不同精确度的回归数据。

make_regression的主要参数包括：

n_samples：生成的样本数。
n_features：每个样本的特征数。通常为一个较小的值，表示我们生成的是一维数据。
noise：噪音的大小。它为数据添加一些随机噪声，以使结果更接近现实情况。

3. 流形数据样本

所谓流形数据，就是S形或者瑞士卷那样旋转的数据，可以用来测试更复杂的分类模型的效果。
比如下面的make_s_curve函数，就可以创建S形的数据：

from sklearn.datasets import make_s_curve

X, Y = make_s_curve(n_samples=2000)

fig, ax = plt.subplots(subplot_kw={"projection": "3d"})

fig.set_size_inches((8, 8))

ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=Y, s=60, alpha=0.8)

ax.view_init(azim=-60, elev=9)

plt.show()

4. 总结

本文介绍的生成样本数据的函数只是scikit-learn库中各种生成器的一部分，
还有很多种其他的生成器函数可以生成更加复杂的样本数据。

所有的生成器函数请参考文档：
https://scikit-learn.org/stable/modules/classes.html#samples-generator

【scikit-learn基础】--『数据加载』之样本生成器的更多相关文章

Python 数据分析（一）本实验将学习 pandas 基础，数据加载、存储与文件格式，数据规整化，绘图和可视化的知识
第1节 pandas 回顾第2节读写文本格式的数据第3节使用 HTML 和 Web API 第4节使用数据库第5节合并数据集第6节重塑和轴向旋转第7节数据转换第8节字符串操作 ...
odoo基础数据加载
odoo 基础数据加载这里介绍的odoo基础数据加载分两种方式,一种是演示数据加载,一种是默认数据加载,下面就是详细介绍首先,当然是创建一个date文件夹项目目录,右键自定义一个文件夹 XML数 ...
transformers 之Trainer对应的数据加载
基础信息说明本文以Seq2SeqTrainer作为实例,来讨论其模型训练时的数据加载方式预训练模型:opus-mt-en-zh 数据集:本地数据集任务:en-zh 机器翻译数据加载 Train ...
ScrollView嵌套ListView,GridView数据加载不全问题的解决
我们大家都知道ListView,GridView加载数据项,如果数据项过多时,就会显示滚动条.ScrollView组件里面只能包含一个组件,当ScrollView里面嵌套listView,GridVi ...
python多种格式数据加载、处理与存储
多种格式数据加载.处理与存储实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...
flask+sqlite3+echarts3+ajax 异步数据加载
结构: /www | |-- /static |....|-- jquery-3.1.1.js |....|-- echarts.js(echarts3是单文件!!) | |-- /templates ...
Entity Framework关联查询以及数据加载（延迟加载，预加载）
数据加载分为延迟加载和预加载 EF的关联实体加载有三种方式:Lazy Loading,Eager Loading,Explicit Loading,其中Lazy Loading和Explicit Lo ...
JQuery插件：遮罩+数据加载中。。。（特点：遮你想遮，罩你想罩）
在很多项目中都会涉及到数据加载.数据加载有时可能会是2-3秒,为了给一个友好的提示,一般都会给一个[数据加载中...]的提示.今天就做了一个这样的提示框. 先去jQuery官网看看怎么写jQuery插 ...
如何评估ETL的数据加载时间
简述如何评估大型ETL数据加载时间. 答:评估一个大型的ETL的数据加载时间是一件很复杂的事情.数据加载分为两类,一类是初次加载,另一类是增量加载. 在数据仓库正式投入使用时,需要进行一次初次加载,而 ...
浅谈Entity Framework中的数据加载方式
如果你还没有接触过或者根本不了解什么是Entity Framework,那么请看这里http://www.entityframeworktutorial.net/EntityFramework-Arc ...

随机推荐

MIT6.s081/6.828 lectrue4：page tables 以及 Lab3 心得
不管是计算机组成还是操作系统,虚拟内存都是其中的重要内容,所以这一节我会结合 CSAPP 第九章:虚拟内存来一起复习(顺便一说,CSAPP 这一节的 lab 是要求设计一个内存分配器,也是很有意思的 ...
Docker下elasticsearch8部署、扩容、基本操作实战(含kibana)
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览本篇记录了用docker搭建ElasticS ...
redis分布式锁，setnx+lua脚本的java实现
1 前言在现在工作中,为保障服务的高可用,应对单点故障.负载量过大等单机部署带来的问题,生产环境常用多机部署.为解决多机房部署导致的数据不一致问题,我们常会选择用分布式锁. 目前其他比较常见的实现方 ...
C/C++基础——引用与指针有什么区别？C++中输入输出加速
文章目录 1 引用与指针有什么区别? 2 C++中输入输出加速 tie sync_with_stdio 应用 1 引用与指针有什么区别? 指针和引用都是地址的概念,指针指向一块内存,它的内容是所指内存 ...
前端三件套系例之HTML——HTML5基础
1.HTML 1-1 什么是HTML HTML是用来制作网页的标记语言 HTML是Hypertext Markup Language的英文缩写,即超文本标记语言 HTML语言是一种标记语言,不需要编译 ...
Pandas 读取 Excel 斜着读
读取 Excel 斜着读数据 import pandas as pd def read_sideling(direction, sheet_name, row_start, col_start, ga ...
「CSP-2023」我曾璀璨星空，星月相伴，致远方，致过往。
Day -1 像往常一样去上学.虽然身在学校但感觉心还在比赛上.在一个上午课间准备去上厕所时遇见了信息老师.她在教我们班信息之前我的一些奖状的指导教师就是写的她,之前就认识了,每次碰到她都会朝我笑 ...
JS异步任务的并行、串行，以及二者结合
让多个异步任务按照我们的想法执行,是开发中常见的需求.今天我们就来捋一下,如何让多个异步任务并行,串行,以及并行串行相结合. 一.并行并行是使用最多的方式,多个相互间没有依赖关系的异步任务,并行执行 ...
20.2 OpenSSL 非对称RSA加解密算法
RSA算法是一种非对称加密算法,由三位数学家Rivest.Shamir和Adleman共同发明,以他们三人的名字首字母命名.RSA算法的安全性基于大数分解问题,即对于一个非常大的合数,将其分解为两个质 ...
Java中Synchronized的用法（转）
原文:http://blog.csdn.net/luoweifu/article/details/46613015 作者:luoweifu 转载请标名出处 <编程思想之多线程与多进程(1)--以 ...

【scikit-learn基础】--『数据加载』之样本生成器