sklearn包中有哪些数据集你都知道吗?
注册了博客园一晃有3个月了,同时接触机器学习也断断续续的算是有1个月了。今天就用机器学习神器sklearn包的相关内容作为我的开篇文章吧。
本文将对sklearn包中的数据集做一个系统介绍,并简单说一下它们的使用。
道行尚浅,如正文描述有误还望小伙伴不吝赐教,不胜感激,即刻进入正文。
首先,一般机器学习的建模步骤是:数据收集 -> 特征工程 -> 模型选择 -> 模型训练 -> 模型评估 -> 超参数调整 -> 模型预测 -> 模型保存
由此可见,拥有大量优质的数据是建模的必要条件。
在此默认你已经下载并安装了sklearn,并对其有了简单的了解。接下来就说一说sklearn中的数据集。
sklearn.datasets模块中包含了大量优质数据集,官网地址:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets
该模块主要提供了直接导入、在线下载及本地计算机生成数据集的方法,可以通过dir(datasets)或help(datasets)命令查看该模块的详细信息。
不难发现,datasets主要为我们提供了三种方法来使用数据集:load_<dataset_name>、fetch_<dataset_name>及make_<dataset_name>
load系列,datasets.load_<dataset_name>:sklearn自带的可直接使用的小数据集(packaged dataset)
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 }
span.s1 { font: 12.0px ".PingFang SC" }
'load_boston', # 波士顿房价数据集,用于回归任务的数据集
'load_breast_cancer', # 乳腺癌数据集,用于二分类任务的数据集
'load_diabetes', # 糖尿病数据集,用于回归任务的数据集
'load_digits', # 手写数字数据集,用于多分类任务的数据集
'load_files', # 加载自己的原始数据
'load_iris', # 鸢尾花数据集,用于多分类任务的数据集
'load_lfw_pairs', # 人脸核实数据集(给定两张照片,用来预测这两幅图是否来自同一个人)
'load_lfw_people', # 人脸鉴定数据集(给定一张照片,用来找到一个给定的训练集的人的名字)
'load_linnerud', # 体能训练数据集,用于多变量回归任务的数据集,其中有两个小数据集:Excise是对3个训练变量的20次观测(体重,腰围,脉搏),physiological是对3个生理学变量的20次观测(引体向上,仰卧起坐,立定跳远)
'load_mlcomp', # 从http://mlcomp.org下载的数据集
'load_sample_image', # 一张图像(numpy数组格式)
'load_sample_images', # 图像集,用于图像处理
'load_svmlight_file',
'load_svmlight_files',
fetch系列,datasets.fetch_<dataset_name>:支持在线下载的较大的数据集(Downloaded Dataset)
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 }
span.s1 { font: 12.0px ".PingFang SC" }
'fetch_20newsgroups', # 20个新闻组数据集,用于文本分类的数据集
'fetch_20newsgroups_vectorized', # 新闻分类数据集,其中包含train和test
'fetch_california_housing',
'fetch_covtype',
'fetch_kddcup99',
'fetch_lfw_pairs',
'fetch_lfw_people',
'fetch_mldata',
'fetch_olivetti_faces',
'fetch_rcv1',
'fetch_species_distributions',
make系列,datasets.make_<dataset_name>:计算机生成的数据集(Generated Dataset)
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 }
span.s1 { font: 12.0px ".PingFang SC" }
'make_biclusters',
'make_blobs',
'make_checkerboard',
'make_circles',
'make_classification',
'make_friedman1',
'make_friedman2',
'make_friedman3',
'make_gaussian_quantiles',
'make_hastie_10_2',
'make_low_rank_matrix',
'make_moons',
'make_multilabel_classification',
'make_regression',
'make_s_curve',
'make_sparse_coded_signal',
'make_sparse_spd_matrix',
'make_sparse_uncorrelated',
'make_spd_matrix',
'make_swiss_roll'
现在我们已经大致了解了这些数据集,如果想要使用它们,只需要三个小步骤(此处以小数据集iris为例):
- 引入sklearn.datasets模块
from sklearn import datasets
- 导入数据集并实例化一个对象iris
iris = datasets.load_iris()
- 使用shape方法查看数据集
n_samples, n_features = iris.data.shape print("Number of sample:", n_samples) print("Number of feature:", n_features) 运行结果如下,数据集的标准形状(shape)为二维数组(samples, features),其中n_samples表示数据集大小,n_features表示其中特征向量的维数

这个结果表示iris数据集含有150个数据样本,每个数据样本是一个4维的特征向量。
接下来我们就可以使用这个数据集了,一般情况下,将iris.data作为样本特征向量,将iris.target作为样本label
sklearn包中有哪些数据集你都知道吗?的更多相关文章
- 机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集
机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集 选自Microsoft www.tz365.Cn 作者:Lee Scott 机器之心编译 参与:李亚洲.吴攀. ...
- sklearn包学习
1首先是sklearn的官网:http://scikit-learn.org/stable/ 在官网网址上可以看到很多的demo,下边这张是一张非常有用的流程图,在这个流程图中,可以根据数据集的特征, ...
- Composer安装php插件包中有哪些坑
Composer安装php插件包中有哪些坑 一.总结 一句话总结:不要盲从扩展官方的composer安装命令,有时候也会出错 我们经常要往现有的项目中添加扩展包,有时候因为文档的错误引导,如下图来自 ...
- Python: 安装 sklearn 包出现错误的解决方法
今天在安装 Python 的 sklearn 包时出现了 Cannot uninstall 'numpy' 和 Cannot uninstall 'scipy' 错误,下面记录了我尝试了很多网上的方法 ...
- sklearn包源码分析(二)——ensemble(未完成)
网络资源 sklearn包tree模型importance解析
- sklearn中各种分类器回归器都适用于什么样的数据呢?
作者:匿名用户链接:https://www.zhihu.com/question/52992079/answer/156294774来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请 ...
- sklearn包源码分析(一)--neighbors
python如何查看内置函数的用法及其源码? 在anaconda的安装目录下,有一块会放着我们安装的所有包,在里面可以找到所有的包 找到scikit learn包,进入 这里面又有了多个子包,每个子包 ...
- 在sklearn上读取人脸数据集保存图片到本地
程序如下: # -*- coding: utf-8 -*- """ Created on Sat Oct 31 17:36:56 2015 ""&qu ...
- 调用sklearn包中的PLA算法[转载]
转自:https://blog.csdn.net/u010626937/article/details/72896144#commentBox 1.Python的机器学习包sklearn中也包含了感知 ...
随机推荐
- 火狐浏览器导出EXCEL 表格,文件名乱码问题
牢骚:今天又是一个不太平的日子,打开任务表一看里面有一堆bug,其中有一个就是今天要说的这个关于商品导出的问题,本功能是临时授命接一个任务,本来呢这个导出功能在系统各大模块已经都很成熟了,但是总有一个 ...
- python网络编程基础知识整理
- SystemVerilog语言简介(二)
6. 用户定义的类型 Verilog不允许用户定义新的数据类型.SystemVerilog通过使用typedef提供了一种方法来定义新的数据类型,这一点与C语言类似.用户定义的类型可以与其它数据类型一 ...
- lwip Light Weight (轻型)IP协议
wip是瑞典计算机科学院(SICS)的Adam Dunkels 开发的一个小型开源的TCP/IP协议栈. 外文名 lwip 开发者 瑞典计算机科学院 说 明 Light Weight (轻型)I ...
- HTML5之Canvas画正方形
HTML5之Canvas画正方形 1.设计源码 <!DOCTYPE html> <head> <meta charset="utf-8" /> ...
- Linux显示检查设置文件中的语法是否正确
Linux显示检查设置文件中的语法是否正确 youhaidong@youhaidong-ThinkPad-Edge-E545:~$ apachectl [conflgtest] 程序"apa ...
- 使用everything把一个文件夹里(包含子目录)的所有图片拷贝到另一个文件夹
最近在找数据集,想要预览数据集里面的全部图片,而因为一些数据集的数据存储方式使得图片都分布在若干层后的子文件里,所以就需要一个如题所示的功能. 找了一堆XCOPY命令的使用方法,差点要撸起袖子写代码干 ...
- 关于C#委托的一些学习笔记
1.什么是委托就是把方法作为参数传给另一个方法.委托说指向的函数,必须和函数具有相同的签名(返回值和参数类型) Public delegate void DelSayHi(string name); ...
- 异常-----freemarker.core.InvalidReferenceException问题解决
案例一 1.1.错误描述 五月 28, 2014 9:56:48 下午 freemarker.log.JDK14LoggerFactory$JDK14Logger error 严重: Template ...
- 【小白学爬虫连载(10)】–如何用Python实现模拟登陆网站
Python如何实现模拟登陆爬取Python实现模拟登陆的方式简单来说有三种:一.采用post请求提交表单的方式实现.二.利用浏览器登陆网站记录登陆成功后的cookies,采用get的请求方式,传入c ...