Python开源数据集
1、工具库介绍
为了使初学者更容易入门,许多开源库提供了丰富而标准化的示例数据集,其中包括scikit-learn、NLTK、TensorFlow Datasets、Keras Datasets、Statsmodels以及Seaborn等。
- Scikit-learn: Scikit-learn是一个用于机器学习和数据挖掘的Python开源库,提供了丰富而灵活的工具,用于数据预处理、模型选择、分类、回归等机器学习任务。
- Seaborn Datasets: Seaborn是一个用于绘制统计图形的库,同时也包含一些用于数据可视化的示例数据集,可通过seaborn.load_dataset加载。
- Statsmodels Datasets: Statsmodels是一个用于估计和统计模型的库,它包含一些示例数据集,用于演示其统计模型的应用。
- TensorFlow Datasets (tfds): TensorFlow Datasets是由TensorFlow提供的一个库,其中包含了各种用于机器学习的数据集。
- PyTorch Datasets: PyTorch也提供了一些内置数据集,可通过torchvision.datasets等模块进行访问。这些数据集通常用于计算机视觉任务。
- Keras Datasets: Keras(现在是TensorFlow的一部分)包含一些内置数据集,特别是用于深度学习的图像和文本数据集。
- NLTK (Natural Language Toolkit): NLTK是用于自然语言处理的库,提供了一些文本数据集,如语料库和语言模型。
2、scikit-learn(sklearn)
scikit-learn
(sklearn)中常用数据集以及加载和探索它们的示例代码:
1、鸢尾花数据集(Iris Dataset): 包含150朵鸢尾花的数据集,每朵花属于三个不同的物种,可以用于各种分类任务的练习。
1 from sklearn.datasets import load_iris
2
3 iris = load_iris()
4 X, y = iris.data, iris.target
5
6 # 现在 X 包含特征,y 包含标签
2、手写数字数据集(Digits Dataset):包含8x8像素的手写数字图像数据集,涵盖数字0到9
1 from sklearn.datasets import load_digits
2
3 digits = load_digits()
4 X, y = digits.data, digits.target
5
6 # 现在 X 包含特征,y 包含标签
3、乳腺癌数据集(Breast Cancer Dataset):
- 用于乳腺癌诊断的数据集,包含从乳腺块的数字化图像中计算的特征。
1 from sklearn.datasets import load_breast_cancer
2
3 cancer = load_breast_cancer()
4 X, y = cancer.data, cancer.target
5
6 # 现在 X 包含特征,y 包含标签
4、葡萄酒数据集(Wine Dataset):
- 包含来自三种不同葡萄品种的葡萄酒的化学分析结果。
1 from sklearn.datasets import load_wine
2
3 wine = load_wine()
4 X, y = wine.data, wine.target
5
6 # 现在 X 包含特征,y 包含标签
5、糖尿病数据集(Diabetes Dataset):
- 用于糖尿病患者的数据集,包含十个基线变量,如年龄、性别、体重指数、平均血压和六项血清测量。
1 from sklearn.datasets import load_diabetes
2
3 diabetes = load_diabetes()
4 X, y = diabetes.data, diabetes.target
5
6 # 现在 X 包含特征,y 包含标签
3、Statsmodels
statsmodels
库提供了一些用于估计和统计模型的示例数据集。以下是一些常见的statsmodels
数据集:
1、Anes96数据集:美国1996年总统选举的调查数据,包含有关选民投票的信息
import statsmodels.api as sm
anes96 = sm.datasets.anes96.load_pandas().data
2、Ccard数据集:包含有关信用卡持有者和非持有者的信息。
import statsmodels.api as sm
ccard = sm.datasets.ccard.load_pandas().data
3、Copper数据集:
- 描述了铜价格和生产量的时间序列数据。
import statsmodels.api as sm
copper = sm.datasets.copper.load_pandas().data
4、Longley 数据集:
- 由经济学家 Robert Longley 创建的数据集,包含了20世纪50年代至60年代初期的美国经济数据。
import statsmodels.api as sm
longley = sm.datasets.longley.load_pandas().data
5、Macrodata 数据集:
- 包含美国宏观经济数据的时间序列。
import statsmodels.api as sm
macrodata = sm.datasets.macrodata.load_pandas().data
6、Nile 数据集:
- 描述了尼罗河每年的水位。
import statsmodels.api as sm
nile = sm.datasets.nile.load_pandas().data
4、Seaborn
Seaborn
是一个基于Matplotlib
的数据可视化库,它提供了一些示例数据集,用于绘制统计图形。以下是一些常见的Seaborn
数据集:
1、Tips 数据集:
- 包含餐厅顾客给出的小费、总账单、顾客性别、就餐日期和就餐时间等信息。
import seaborn as sns
tips = sns.load_dataset("tips")
2、Flights 数据集:
- 包含了每个月的航班乘客数量的时间序列数据。
import seaborn as sns
flights = sns.load_dataset("flights")
3、Iris 数据集:
- 鸢尾花数据集,包含了三种不同鸢尾花的花瓣和萼片的测量值。
import seaborn as sns
iris = sns.load_dataset("iris")
4、Titanic 数据集:
- 包含了泰坦尼克号乘客的信息,如年龄、性别、仓位等,以及是否幸存的信息。
import seaborn as sns
titanic = sns.load_dataset("titanic")
5、Planets 数据集:
- 包含有关已知系外行星的信息,如发现日期、质量、距离等。
import seaborn as sns
planets = sns.load_dataset("planets")
5、PyTorch
PyTorch 提供了一些内置的数据集,这些数据集通常用于计算机视觉任务,可以使用 torchvision
库来访问这些数据集。以下是一些常见的 PyTorch 数据集及其加载代码:
1、MNIST 数据集:
- 包含手写数字(0到9)的灰度图像。
import torchvision.datasets as datasets mnist_train = datasets.MNIST(root="./data", train=True, download=True)
mnist_test = datasets.MNIST(root="./data", train=False, download=True)
2、CIFAR-10 数据集:
- 包含 10 个不同类别的彩色图像。
import torchvision.datasets as datasets cifar10_train = datasets.CIFAR10(root="./data", train=True, download=True)
cifar10_test = datasets.CIFAR10(root="./data", train=False, download=True)
3、Fashion MNIST 数据集:
- 与 MNIST 类似,但包含了 10 种不同的时尚物品的灰度图像。
import torchvision.datasets as datasets fashion_mnist_train = datasets.FashionMNIST(root="./data", train=True, download=True)
fashion_mnist_test = datasets.FashionMNIST(root="./data", train=False, download=True)
4、ImageNet 数据集:
- 包含大量类别的图像,用于图像分类任务。
import torchvision.datasets as datasets # 需要指定 ImageNet 数据集的路径
imagenet_train = datasets.ImageNet(root="./imagenet", split="train", download=True)
imagenet_val = datasets.ImageNet(root="./imagenet", split="val", download=True)
6、Tensorflow Datasets
TensorFlow Datasets
(tfds) 是 TensorFlow 提供的一个库,用于加载和管理各种机器学习数据集。以下是一些常见的 TensorFlow Datasets 及其加载代码:
1、MNIST 数据集:
- 包含手写数字(0到9)的灰度图像。
import tensorflow_datasets as tfds mnist, info = tfds.load("mnist", with_info=True)
2、CIFAR-10 数据集:
- 包含 10 个不同类别的彩色图像。
import tensorflow_datasets as tfds cifar10, info = tfds.load("cifar10", with_info=True)
3、IMDB 电影评论数据集:
- 包含来自 Internet Movie Database (IMDB) 的电影评论,用于情感分析任务。
import tensorflow_datasets as tfds imdb, info = tfds.load("imdb_reviews", with_info=True)
4、Fashion MNIST数据集:
- 与 MNIST 类似,但包含了 10 种不同的时尚物品的灰度图像。
import tensorflow_datasets as tfds fashion_mnist, info = tfds.load("fashion_mnist", with_info=True)
5、tf_flowers 数据集:
- 包含五个不同类别的花卉图像。
import tensorflow_datasets as tfds flowers, info = tfds.load("tf_flowers", with_info=True)
7、Keras
在Keras中,keras.datasets
模块提供了一些内置的数据集,用于快速测试和构建深度学习模型。以下是一些常见的Keras数据集及其加载代码:
1、MNIST 数据集:
- 包含手写数字(0到9)的灰度图像。
from keras.datasets import mnist (x_train, y_train), (x_test, y_test) = mnist.load_data()
2、CIFAR-10 数据集:
- 包含 10 个不同类别的彩色图像。
from keras.datasets import cifar10 (x_train, y_train), (x_test, y_test) = cifar10.load_data()
3、Fashion MNIST 数据集:
- 与 MNIST 类似,但包含了 10 种不同的时尚物品的灰度图像。
from keras.datasets import fashion_mnist (x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
4、IMDB 电影评论数据集:
- 包含来自 Internet Movie Database (IMDB) 的电影评论,用于情感分析任务。
from keras.datasets import imdb (x_train, y_train), (x_test, y_test) = imdb.load_data()
5、Boston Housing 数据集:
- 包含波士顿地区的房价数据,用于回归任务。
from keras.datasets import boston_housing (x_train, y_train), (x_test, y_test) = boston_housing.load_data()
Python开源数据集的更多相关文章
- 机器学习 Top 20 Python 开源项目
转自:http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=2652565022&idx=1&sn=9aa035097120 ...
- Github上的python开源项目
Python开源项目,期待大家和我们一起共同维护 github排名榜单 https://github.com/trending github搜索榜单:https://github.com/search ...
- 14个最受欢迎的Python开源框架
本文从GitHub中整理出的14个最受欢迎的Python开源框架.这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等. Django: Python Web应用开发框架 Dja ...
- 最受欢迎的15个Python开源框架
GitHub中15个最受欢迎的Python开源框架.这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等. 1.Django: Python Web应用开发框架 Django 应 ...
- Python开源异步并发框架
Python开源异步并发框架的未来 2014年3月30日,由全球最大的中文IT社区CSDN主办的“开源技术大会·” (Open Source Technology Conference ,简称OSTC ...
- 15个最受欢迎的Python开源框架
以下是伯乐在线从GitHub中整理出的15个最受欢迎的Python开源框架.这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等. Django: Python Web应用开发框 ...
- 最常用Python开源框架有哪些?
Python开源框架有很多,像Django.Flask.webpy等等,但哪些是最常用到的呢?我们收集了一些Python使用者的宝贵意见,把他们认为最常用的Python开源框架简单的介绍给大家. 一. ...
- 从GitHub中整理出来的15个最受欢迎的Python开源框架,你喜欢哪个
从GitHub中整理出的15个最受欢迎的Python开源框架.这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等. Django: Python Web应用开发框架 Djang ...
- 【SerpentAI:Python开源游戏智能体开发框架——相比OpenAI Universe可导入自己的游戏、可脱离Docker/VNC运行】
https://weibo.com/fly51fly?from=myfollow_all&is_all=1#1514439335614 [SerpentAI:Python开源游戏智能体开发框架 ...
- [转]最好用的 AI 开源数据集 Top 39:NLP、语音等 6 大类
原文链接 本文修正部分错误. 以下是精心收集的一些非常好的开放数据集,也是做 AI 研究不容错过的数据集. 标签解释 [经典]这些是在 AI 领域中非常著名.众所周知的数据集.很少有研究者或工程师没有 ...
随机推荐
- 给定 (u,v),如何 O(1) 求 lca(u,v) 的孩子 u',v',且分别为 u,v 的祖先或本身
问题描述 一棵树,\(q\) 次询问给定 \(u,v\),保证 \(u,v\) 不为祖孙关系.设 \(p=\operatorname{lca}(u,v)\),求 \(p\) 的一个孩子 \(u'\) ...
- 探秘Transformer系列之(36)--- 大模型量化方案
探秘Transformer系列之(36)--- 大模型量化方案 目录 探秘Transformer系列之(36)--- 大模型量化方案 0x00 概述 0x01 8位量化 1.1 LLM.int8() ...
- 在Linux下使用wxWidgets进行跨平台GUI开发
在Linux下使用wxWidgets进行跨平台GUI开发 wxWidgets是一个功能强大的跨平台C++ GUI框架,支持Windows.Linux和macOS等多种平台.本文将详细介绍在Linux系 ...
- PolarCTF网络安全2025春季个人挑战赛 web方向个人wp
xCsMsD 首先注册,注册后登录,显示一个xss窗口和一个cmd窗口,可以输入xss代码和命令执行指令 首先命令执行ls发现能够正确显示当前目录文件 然后尝试ls /发现没有回显,这时应该猜测是有过 ...
- java 分批次读取大文件的三种方法
1. java 读取大文件的困难java 读取文件的一般操作是将文件数据全部读取到内存中,然后再对数据进行操作.例如 Path path = Paths.get("file path&quo ...
- vlookup查找匹配值超过255个字符显示#Value的解决办法
错误原因 这一个错误的起源于在匹配字符串是否相等时出现#Value错误,如下图黄色标注的部分.在Excel中提示的错误是 公式中所用的某个值是错误的数据类型(a value used in the f ...
- Rust中的代码组织:package/crate/mod
刚接触Rust遇到一堆新概念,特别是package, crate, mod 这些,特别迷糊,记录一下 一.pakcage与crate 当我们用cargo 创建一个新项目时,默认就创建了一个packag ...
- OpenList挂载「PikPak」
存储->添加 选择PikPak 填写挂载路径 填写具体信息:用户名为自己 PikPak 的邮箱(登陆方式),密码为自己的密码. 获取刷新令牌 先在浏览器登录 PikPak 的 Web 端. 按 ...
- linux安装nginx到指定目录-九五小庞
1.Nginx下载 http://nginx.org/en/download.html 2.安装依赖 yum install gcc yum install pcre-devel yum in ...
- 使用fnm安装node,并自定义安装路径
作者:咕魂 时间:2024年6月23日 本教程使用winget对fnm进行安装,主要分两部分,第一步安装fnm,第二步安装nodejs 其中nodejs配置成功后只在powershell中生效 1. ...