sklearn包中有哪些数据集你都知道吗？

注册了博客园一晃有3个月了，同时接触机器学习也断断续续的算是有1个月了。今天就用机器学习神器sklearn包的相关内容作为我的开篇文章吧。

本文将对sklearn包中的数据集做一个系统介绍，并简单说一下它们的使用。

道行尚浅，如正文描述有误还望小伙伴不吝赐教，不胜感激，即刻进入正文。

首先，一般机器学习的建模步骤是：数据收集 -> 特征工程 -> 模型选择 -> 模型训练 -> 模型评估 -> 超参数调整 -> 模型预测 -> 模型保存

由此可见，拥有大量优质的数据是建模的必要条件。

在此默认你已经下载并安装了sklearn，并对其有了简单的了解。接下来就说一说sklearn中的数据集。

sklearn.datasets模块中包含了大量优质数据集，官网地址：http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets

该模块主要提供了直接导入、在线下载及本地计算机生成数据集的方法，可以通过dir(datasets)或help(datasets)命令查看该模块的详细信息。

不难发现，datasets主要为我们提供了三种方法来使用数据集：load_<dataset_name>、fetch_<dataset_name>及make_<dataset_name>

load系列，datasets.load_<dataset_name>：sklearn自带的可直接使用的小数据集(packaged dataset)

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 }
span.s1 { font: 12.0px ".PingFang SC" }

'load_boston', # 波士顿房价数据集，用于回归任务的数据集

'load_breast_cancer', # 乳腺癌数据集，用于二分类任务的数据集

'load_diabetes', # 糖尿病数据集，用于回归任务的数据集

'load_digits', # 手写数字数据集，用于多分类任务的数据集

'load_files', # 加载自己的原始数据

'load_iris', # 鸢尾花数据集，用于多分类任务的数据集

'load_lfw_pairs', # 人脸核实数据集(给定两张照片，用来预测这两幅图是否来自同一个人)

'load_lfw_people', # 人脸鉴定数据集(给定一张照片，用来找到一个给定的训练集的人的名字)

'load_linnerud', # 体能训练数据集，用于多变量回归任务的数据集，其中有两个小数据集：Excise是对3个训练变量的20次观测(体重，腰围，脉搏)，physiological是对3个生理学变量的20次观测(引体向上，仰卧起坐，立定跳远)

'load_mlcomp', # 从http://mlcomp.org下载的数据集

'load_sample_image', # 一张图像(numpy数组格式)

'load_sample_images', # 图像集，用于图像处理

'load_svmlight_file',

'load_svmlight_files',

fetch系列，datasets.fetch_<dataset_name>：支持在线下载的较大的数据集(Downloaded Dataset)

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 }
span.s1 { font: 12.0px ".PingFang SC" }

'fetch_20newsgroups', # 20个新闻组数据集，用于文本分类的数据集

'fetch_20newsgroups_vectorized', # 新闻分类数据集，其中包含train和test

'fetch_california_housing',

'fetch_covtype',

'fetch_kddcup99',

'fetch_lfw_pairs',

'fetch_lfw_people',

'fetch_mldata',

'fetch_olivetti_faces',

'fetch_rcv1',

'fetch_species_distributions',

make系列，datasets.make_<dataset_name>：计算机生成的数据集(Generated Dataset)

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 }
span.s1 { font: 12.0px ".PingFang SC" }

'make_biclusters',

'make_blobs',

'make_checkerboard',

'make_circles',

'make_classification',

'make_friedman1',

'make_friedman2',

'make_friedman3',

'make_gaussian_quantiles',

'make_hastie_10_2',

'make_low_rank_matrix',

'make_moons',

'make_multilabel_classification',

'make_regression',

'make_s_curve',

'make_sparse_coded_signal',

'make_sparse_spd_matrix',

'make_sparse_uncorrelated',

'make_spd_matrix',

'make_swiss_roll'

现在我们已经大致了解了这些数据集，如果想要使用它们，只需要三个小步骤(此处以小数据集iris为例)：

引入sklearn.datasets模块
```
from sklearn import datasets
```
导入数据集并实例化一个对象iris
```
iris = datasets.load_iris()
```

使用shape方法查看数据集

n_samples, n_features = iris.data.shape
print("Number of sample:", n_samples)
print("Number of feature:", n_features)

运行结果如下，数据集的标准形状(shape)为二维数组(samples, features)，其中n_samples表示数据集大小，n_features表示其中特征向量的维数

　　　这个结果表示iris数据集含有150个数据样本，每个数据样本是一个4维的特征向量。

接下来我们就可以使用这个数据集了，一般情况下，将iris.data作为样本特征向量，将iris.target作为样本label

sklearn包中有哪些数据集你都知道吗？的更多相关文章

机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集
机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集选自Microsoft www.tz365.Cn 作者:Lee Scott 机器之心编译参与:李亚洲.吴攀. ...
sklearn包学习
1首先是sklearn的官网:http://scikit-learn.org/stable/ 在官网网址上可以看到很多的demo,下边这张是一张非常有用的流程图,在这个流程图中,可以根据数据集的特征, ...
Composer安装php插件包中有哪些坑
Composer安装php插件包中有哪些坑一.总结一句话总结:不要盲从扩展官方的composer安装命令,有时候也会出错我们经常要往现有的项目中添加扩展包,有时候因为文档的错误引导,如下图来自 ...
Python: 安装 sklearn 包出现错误的解决方法
今天在安装 Python 的 sklearn 包时出现了 Cannot uninstall 'numpy' 和 Cannot uninstall 'scipy' 错误,下面记录了我尝试了很多网上的方法 ...
sklearn包源码分析（二）——ensemble（未完成）
网络资源 sklearn包tree模型importance解析
sklearn中各种分类器回归器都适用于什么样的数据呢？
作者:匿名用户链接:https://www.zhihu.com/question/52992079/answer/156294774来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请 ...
sklearn包源码分析（一）--neighbors
python如何查看内置函数的用法及其源码? 在anaconda的安装目录下,有一块会放着我们安装的所有包,在里面可以找到所有的包找到scikit learn包,进入这里面又有了多个子包,每个子包 ...
在sklearn上读取人脸数据集保存图片到本地
程序如下: # -*- coding: utf-8 -*- """ Created on Sat Oct 31 17:36:56 2015 ""&qu ...
调用sklearn包中的PLA算法[转载]
转自:https://blog.csdn.net/u010626937/article/details/72896144#commentBox 1.Python的机器学习包sklearn中也包含了感知 ...

随机推荐

从零开始学习前端JAVASCRIPT — 14、闭包与继承
一.闭包 1 . 概念:闭包就是能够读取其他函数内部变量的函数.在JS中,只有函数内部的子函数才能读取局部变量,因此可以把闭包简单理解为”定义在一个函数内部的函数”. 2 . 闭包的特点 1)可以读取 ...
php 变量原理讲解
php 变量原理讲解一.变量概念所谓变量,是指在程序中其值可以变化的量. 程序是管理和处理数据的.在程序运行过程中,我们需要存贮这些数据,变量和常量就是用于保存程序运行时的数据的. 变量通常由 ...
linux yum源配置及vim运用
redhat7默认没有yum模板,需要自己创建[root@localhost ~]# mount /dev/cdrom /root/iso/(挂载镜像)mount: /dev/sr0 写保护,将以只读 ...
linux下在用户空间访问I/O端口的ioperm和iopl函数
1.ioperm函数功能描述:为调用进程设置I/O端口访问权能.ioperm的使用需要具有超级用户的权限,只有低端的[0-0x3ff] I/O端口可被设置,要想指定更多端口的权能,可使用i ...
caffe+CPU︱虚拟机+Ubuntu16.04+CPU+caffe安装笔记
由于本机是window10系统,所以想尝试caffe就在自己电脑上整了一个虚拟机(详情可见:win10系统搭建虚拟机:VMware Workstation Player 12环境+Ubuntu Kyl ...
Android 进程常驻、进程守护、进程保活技术的总结
转载自:http://blog.csdn.net/marswin89/article/details/50917098 这是一个轻量级的库,配置几行代码,就可以实现在Android上实现进程常驻,也就 ...
spring schedule定时任务（二）：配置文件的方式
接着上一篇,这里使用spring配置文件的方式生成spring定时任务. 1.相应的web.xml没有什么变化,因此便不再罗列.同样的,相应的java代码业务逻辑改动也不大,只是在原来的基础上去掉@C ...
R语言︱数据规范化、归一化
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:规范化主要是因为数据受着单位的影响较 ...
过滤Java中特殊字符
过滤Java中特殊字符 /** * @Title:FilterString.java * @Package:com.you.model * @Description:过滤Java中特殊字符 * @Au ...
一种在BIOS中嵌入应用程序的方法及实现
本文针对Award公司开发的计算机系统BIOS提出了一种嵌入应用程序的方法,其基本原理对别的品牌的BIOS也一样适用,仅需稍加修改.文中作者给出并讨论一个完整的例子程序,该程序已经通过实验验证. 正 ...

sklearn包中有哪些数据集你都知道吗？

sklearn包中有哪些数据集你都知道吗？的更多相关文章

随机推荐

热门专题