SciKit-Learn 加载数据集

章节

数据科学中的第一步通常都是加载数据，我们首先学习怎么使用SciKit-Learn来加载数据集。

数据集的来源，通常有2个：

自己准备
第三方处获取

如果你不是研究人员，一般都会选择从第三方获取。有一些网站上，可以获取数据集：

这个网页上，列出了很多数据集分享地址：https://www.kdnuggets.com/datasets/index.html。

注意：SciKit-Learn是SciKit库的一部分，SciKit意思是SciPy Tookits，名字来源于SciPy库，SciKit基于SciPy库构建，除了SciKit-Learn，还包含其他很多模块，可以打开这个网址查看。SciKit-Learn库是专注于机器学习和数据挖掘的模块。

SciKit-Learn库中也自带一些数据集，我们可以尝试加载。

先从sklearn导入数据集模块，然后，可以使用数据集中的load_digits()方法加载数据:

# Import `datasets` from `sklearn`

from sklearn import datasets

# 加载 `digits` 数据集

digits = datasets.load_digits()

# 打印 `digits` 数据

print(digits)

输出

{'data': array([[ 0.,  0.,  5., ...,  0.,  0.,  0.],

       [ 0.,  0.,  0., ..., 10.,  0.,  0.],

       [ 0.,  0.,  0., ..., 16.,  9.,  0.],

       ...,

       [ 0.,  0.,  1., ...,  6.,  0.,  0.],

       [ 0.,  0.,  2., ..., 12.,  0.,  0.],

       [ 0.,  0., 10., ..., 12.,  1.,  0.]]), 'target': array([0, 1, 2, ..., 8, 9, 8]), 'target_names': array([0, 1, 2, 3, 4, 5, 6, 7,

8, 9]), 'images': array([[[ 0.,  0.,  5., ...,  1.,  0.,  0.],

        [ 0.,  0., 13., ..., 15.,  5.,  0.],

        [ 0.,  3., 15., ..., 11.,  8.,  0.],

        ...

datasets模块中也包含了获取其他流行数据集的方法，例如datasets.fetch_openml可以从openml存储库获取数据集。

上面示例中的数据集，也可以从这个网址获取：http://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/

# 导入 `pandas` 库

import pandas as pd

# 使用 `read_csv()` 加载数据集

digits = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/optdigits/optdigits.tra", header=None)

# 打印 `digits` 数据

print(digits)

可以看到，上面下载网址中的文件后缀是.tra，表示是训练(train)数据集，在这个页面内还可以看到.tes文件，表示是测试(test)数据集，所以上面加载的数据集，是已经分割好训练数据集和测试数据集的。上面示例中，只加载了训练数据集。

SciKit-Learn 加载数据集的更多相关文章

pytorch 加载数据集
pytorch初学者,想加载自己的数据,了解了一下数据类型.维度等信息,方便以后加载其他数据. 1 torchvision.transforms实现数据预处理 transforms.Totensor( ...
[Python]-sklearn模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载数据集
<Python机器学习手册--从数据预处理到深度学习> 这本书类似于工具书或者字典,对于python具体代码的调用和使用场景写的很清楚,感觉虽然是工具书,但是对照着做一遍应该可以对机器学习 ...
jstree:重新加载数据集，刷新树
true:表示获得一个已经存在的jstree实例 $('#tree').jstree(true).destroy();// 清除树节点 // 重新设置树的JSON数据集 $('#tree').jstr ...
【关系抽取-R-BERT】加载数据集
认识数据集 Component-Whole(e2,e1) The system as described above has its greatest application in an arraye ...
什么是pytorch（4.数据集加载和处理）(翻译)
数据集加载和处理这里主要涉及两个包:torchvision.datasets 和torch.utils.data.Dataset 和DataLoader torchvision.datasets是一 ...
tensorflow数据集加载
本篇涉及的内容主要有小型常用的经典数据集的加载步骤,tensorflow提供了如下接口:keras.datasets.tf.data.Dataset.from_tensor_slices(shuffl ...
OFRecord 数据集加载
OFRecord 数据集加载在数据输入一文中知道了使用 DataLoader 及相关算子加载数据,往往效率更高,并且学习了如何使用 DataLoader 及相关算子. 在 OFrecord 数据格式 ...
[深度学习]-Dataset数据集加载
加载数据集dataloader from torch.utils.data import DataLoader form 自己写的dataset import Dataset train_set = ...
Kibana加载样本数据
kibana 6.2 加载样本数据 kibana loading sample data 下载样本数据 # 莎士比亚经典作品 wget https://download.elastic.co/demo ...

随机推荐

redis api-set
pug
https://github.com/pugjs/pug pug模板使用https://www.cnblogs.com/gudi/p/8080736.html
阿里云配置mysql
环境:阿里云ECS服务器,系统为centos7.2 用户:root 参考博客:https://blog.csdn.net/kunzai6/article/details/81938613 师兄的哈哈哈 ...
Day9 - J - 吉哥系列故事——恨7不成妻 HDU - 4507
单身! 依然单身! 吉哥依然单身! DS级码农吉哥依然单身! 所以,他生平最恨情人节,不管是214还是77,他都讨厌! 吉哥观察了214和77这两个数,发现: 2+1+4=7 7+7=7*2 77=7 ...
Day3-O-Median POJ3579
Given N numbers, X1, X2, ... , XN, let us calculate the difference of every pair of numbers: ∣Xi - X ...
修饰者模式（装饰者模式，Decoration）
1. 装饰者模式,动态地将责任附加到对象上.若要扩展功能,装饰者提供了比继承更加有弹性的替代方案. 2.组合和继承的区别继承.继承是给一个类添加行为的比较有效的途径.通过使用继承,可以使得子类在拥有 ...
解决vmware 桥联再次使用联不上网的问题
在vmare里编辑虚拟网络配置桥联自动设置改为你正在联网的网卡这个问题针对有线网卡和无限网卡使用的问题
git/github使用详解
介绍:gitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名gitHub. 2018年6月4日,微软宣布,通过75亿美元的股票交易收购代码托管平台Gi ...
SpringBoo-Thymeleaf
SpringBoo-Thymeleaf SpringBoo-Thymeleaf简介 SpringBoot并不推荐使用JSP,它推荐我们使用模板引擎Thymeleaf,它与Velocity.Free ...
docker学习笔记-04：docker容器数据卷
一.容器数据卷是什么 1.为了保存docker容器运行时产生的数据,做数据的持久化,我们需要用到容器数据卷.因为如果不通过docker commit 生成新的镜像,那么当容器被删除时,数据自然就没有了 ...

SciKit-Learn 加载数据集

章节

SciKit-Learn 加载数据集的更多相关文章

随机推荐

热门专题