Scikit-Learn模块学习笔记——数据集模块datasets
scikit-learn 的 datasets 模块包含测试数据相关函数,主要包括三类:
datasets.load_*():获取小规模数据集。数据包含在 datasets 里datasets.fetch_*():获取大规模数据集。需要从网络上下载,函数的第一个参数是 data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/。要修改默认目录,可以修改环境变量SCIKIT_LEARN_DATA。数据集目录可以通过datasets.get_data_home()获取。clear_data_home(data_home=None)删除所有下载数据。datasets.make_*():本地生成数据集。
数据集格式
- tuple(X, y)
本地生成数据函数make_*和load_svmlight_*返回的数据是 tuple(X, y) 格式 Bunch
load_*和fetch_*函数返回的数据类型是 datasets.base.Bunch,本质上是一个 dict,它的键值对可用通过对象的属性方式访问。主要包含以下属性:- data:特征数据数组,是 n_samples * n_features 的二维 numpy.ndarray 数组
- target:标签数组,是 n_samples 的一维 numpy.ndarray 数组
- DESCR:数据描述
- feature_names:特征名
- target_names:标签名
获取小数据集
- load_boston():
房屋特征-房价,用于regression - load_diabetes():
糖尿病数据,用于 regression - load_linnerud():
Linnerud数据集,有多个标签,用于 multilabel regression - load_iris():
鸢尾花特征和类别,用于classification - load_digits([n_class]):
手写数字识别 - load_sample_images():
载入图片数据集,共两张图 - load_sample_image(name):
载入图片数据集中的一张图 - load_files(container_path, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error='strict', random_state=0):
从本地目录获取文本数据,并根据二级目录做分类
获取大数据集
- load_mlcomp(name_or_id, set_='raw', mlcomp_root=None, **kwargs):
从 http://mlcomp.org/ 上下载数据集 - fetch_california_housing(data_home=None, download_if_missing=True)
- fetch_olivetti_faces(data_home=None, shuffle=False, random_state=0, download_if_missing=True):
Olivetti 脸部图片数据集 - fetch_lfw_people(data_home=None, funneled=True, resize=0.5, min_faces_per_person=0, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True):
- fetch_lfw_pairs(subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True):
Labeled Faces in the Wild (LFW) 数据集,参考 LFW - fetch_20newsgroups(data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True)
- fetch_20newsgroups_vectorized(subset='train', remove=(), data_home=None):
新闻分类数据集,数据集包含 ‘train’ 部分和 ‘test’ 部分。 - fetch_rcv1(data_home=None, subset='all', download_if_missing=True, random_state=None, shuffle=False):
路透社新闻语聊数据集 - fetch_mldata(dataname, target_name='label', data_name='data', transpose_data=True, data_home=None):
从 mldata.org 中下载数据集。参考 PASCAL network - mldata_filename(dataname):
将 mldata 的数据集名转换为下载的数据文件名 - fetch_covtype(data_home=None, download_if_missing=True, random_state=None, shuffle=False)
Forest covertypes 数据集
本地生成数据
回归(regression)
- make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)
- make_sparse_uncorrelated(n_samples=100, n_features=10, random_state=None)
- make_friedman1(n_samples=100, n_features=10, noise=0.0, random_state=None)
- make_friedman2(n_samples=100, noise=0.0, random_state=None)
- make_friedman3(n_samples=100, noise=0.0, random_state=None)
分类(classification)
单标签
- make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None):
生成 classification 数据集。包含所有的设置,可以包含噪声,偏斜的数据集 - make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None):
生成 classification 数据集。数据服从高斯分布
centers 可以是整数,表示中心点个数,或者用列表给出每个中心点的特征值
cluster_std 可以是浮点数或浮点数列表
random_state 可以是整数,表示随机起始 seed,或者 RandomState 对象,默认使用 np.random - make_gaussian_quantiles(mean=None, cov=1.0, n_samples=100, n_features=2, n_classes=3, shuffle=True, random_state=None):
- make_hastie_10_2(n_samples=12000, random_state=None):
- make_circles(n_samples=100, shuffle=True, noise=None, random_state=None, factor=0.8):
make_moons(n_samples=100, shuffle=True, noise=None, random_state=None):
多标签
make_multilabel_classification(n_samples=100, n_features=20, n_classes=5, n_labels=2, length=50, allow_unlabeled=True, sparse=False, return_indicator='dense', return_distributions=False, random_state=None):
生成 multilabel classification 数据集。双聚类(bicluster)
- make_biclusters(shape, n_clusters, noise=0.0, minval=10, maxval=100, shuffle=True, random_state=None):
make_checkerboard(shape, n_clusters, noise=0.0, minval=10, maxval=100, shuffle=True, random_state=None):
流形学习(manifold learning)
- make_s_curve(n_samples=100, noise=0.0, random_state=None)
- make_swiss_roll(n_samples=100, noise=0.0, random_state=None)、
可降维(decomposition)数据
- make_low_rank_matrix(n_samples=100, n_features=100, effective_rank=10, tail_strength=0.5, random_state=None)
- make_sparse_coded_signal(n_samples, n_components, n_features, n_nonzero_coefs, random_state=None)
- make_spd_matrix(n_dim, random_state=None)
- make_sparse_spd_matrix(dim=1, alpha=0.95, norm_diag=False, smallest_coef=0.1, largest_coef=0.9, random_state=None)
处理 svmlight / libsvm 格式数据
提供 svmlight / libsvm 格式数据的导入或导出。
- load_svmlight_file(f, n_features=None, dtype=numpy.float64, multilabel=False, zero_based='auto', query_id=False):
返回 (X, y, [query_id]),其中 X 是 scipy.sparse matrix,y 是 numpy.ndarray - load_svmlight_files(files, n_features=None, dtype=numpy.float64, multilabel=False, zero_based='auto', query_id=False)
- dump_svmlight_file(X, y, f, zero_based=True, comment=None, query_id=None, multilabel=False)
其他数据集网站
UCI Machine Learning Repository:http://archive.ics.uci.edu/ml/datasets.html
UCI KDD:http://kdd.ics.uci.edu/summary.data.type.html
Kaggle:https://www.kaggle.com/datasets
参考
官方datasets包文档:http://scikit-learn.org/stable/datasets/index.html
API列表:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets
Scikit-Learn模块学习笔记——数据集模块datasets的更多相关文章
- Query意图分析:记一次完整的机器学习过程(scikit learn library学习笔记)
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的 ...
- Python 日期时间处理模块学习笔记
来自:标点符的<Python 日期时间处理模块学习笔记> Python的时间处理模块在日常的使用中用的不是非常的多,但是使用的时候基本上都是要查资料,还是有些麻烦的,梳理下,便于以后方便的 ...
- Python学习笔记—itertools模块
这篇是看wklken的<Python进阶-Itertools模块小结> 学习itertools模块的学习笔记 在看itertools中各函数的源代码时,刚开始还比较轻松,但后面看起来就比较 ...
- Python 3之str类型、string模块学习笔记
Windows 10家庭中文版,Python 3.6.4, Python 3.7官文: Text Sequence Type — str string — Common string operatio ...
- Python学习笔记之模块与包
一.模块 1.模块的概念 模块这一概念很大程度上是为了解决代码的可重用性而出现的,其实这一概念并没有多复杂,简单来说不过是一个后缀为 .py 的 Python 文件而已 例如,我在某个工作中经常需要打 ...
- node 学习笔记 - Modules 模块加载系统 (1)
本文同步自我的个人博客:http://www.52cik.com/2015/12/11/learn-node-modules-path.html 用了这么久的 require,但却没有系统的学习过 n ...
- python学习笔记五 模块上(基础篇)
模块学习 模块,用一砣代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能需要 ...
- angular2 学习笔记 ( ngModule 模块 )
2016-08-25, 当前版本是 RC 5. 参考 : https://angular.cn/docs/ts/latest/guide/ngmodule.html 提醒 : 这系列笔记的 " ...
- Python3学习笔记25-logging模块
logging模块,Python自带用来记录日志的模块. 因为工作需要用到关于日志的,最近一直都在看关于日志模块的东西,百度了很多文章,可惜都是看的让人一头雾水,最后运气不错,找到一篇很详细的文章.传 ...
随机推荐
- WPF如何实现一个漂亮的页签导航UI
最近看到一个比较漂亮的UI主界面,该UI是用左边的页签进行导航,比较有特色,就想着尝试用WPF来实现一下.经过一番尝试,基本上将UI设计图的效果用WPF程序进行了实现.下面介绍一下主要的思路: 1 U ...
- 20个新鲜出炉的网站模板【HTML & PSD】
这里给大家分享20 个新鲜出炉的免费网站模板.这些设计元素将成为你下一个项目的重要素材,可以帮你节省很多的时间.与往常一样,我们经常漫游网络,寻找最好的资源, HTML.CSS 和 PSD 等等,记得 ...
- jQuery原型属性constructor,selector,length,jquery和原型方法size,get,toArray源码分析
首先看一下在jQuery1.7.1中定义的原型属性和方法有哪些? init方法作为实际的构造函数已经详细分析过了,需要了解可以参考http://www.cnblogs.com/yy-hh/p/4492 ...
- 妙用Javascript中apply、call、bind
对apply.call.bind的认识,并且列出一些它们的妙用加深记忆. apply.call 在 javascript 中,call 和 apply 都是为了改变某个函数运行时的上下文(cont ...
- NavigationBar隐藏后,返回时表现不完美
是这样的,app首页头部可能要自定义,所以选择把NavigationBar隐藏,所以在viewWillAppear时这样写: self.navigationController?.setNavigat ...
- 探究TCP
OSI OSI是Open System Interconnection的缩写,意为开放式系统互联.国际标准化组织(ISO)制定了OSI模型,该模型定义了不同计算机互联的标准,是设计和描述计算机网络通信 ...
- Could not load file or assembly 'Microsoft.SqlServer.Management.Sdk.Sfc, Version=11.0.0.0 系统找不到指定的文件。
环境: web服务器: ip:192.168.1.32 ,安装有 Visual Studio Premium 2013 操作系统: Microsoft Server 2008 r2+sp1 数据库服 ...
- 部署基于国际版Azure的SharePoint三层架构服务器场
前言 微软Azure国际版已经很普及了,这里没有用国内版(世纪互联),用的是国际版,当然是由于公司性质的缘故.这里一步步图文的方式,分享给大家创建Azure国际版的SharePoint三层架构的过程, ...
- SharePoint 部署解决方案Feature ID冲突
中文报错: 部署步骤“添加解决方案”中出现错误: 已在此服务器场中安装 ID 为 735efe4e-8b50-4310-b588-c6ae2ba0759f 的功能.请使用强制属性显式地重新安装此功能. ...
- phonegap创建的ios项目推送消息出现闪退现象
使用phonegap创建的ios项目,推送消息时,当程序在前台运行或者在后台运行状态下,推送消息过来,可以解析并且跳转: 但是在程序从后台退出的状态下,当消息推送过来的时候,点击通知栏,打开程序,程序 ...