注册了博客园一晃有3个月了,同时接触机器学习也断断续续的算是有1个月了。今天就用机器学习神器sklearn包的相关内容作为我的开篇文章吧。

本文将对sklearn包中的数据集做一个系统介绍,并简单说一下它们的使用。

道行尚浅,如正文描述有误还望小伙伴不吝赐教,不胜感激,即刻进入正文。

首先,一般机器学习的建模步骤是:数据收集 -> 特征工程 -> 模型选择 -> 模型训练 -> 模型评估 -> 超参数调整 -> 模型预测 -> 模型保存

由此可见,拥有大量优质的数据是建模的必要条件。

在此默认你已经下载并安装了sklearn,并对其有了简单的了解。接下来就说一说sklearn中的数据集。

sklearn.datasets模块中包含了大量优质数据集,官网地址:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets

该模块主要提供了直接导入、在线下载及本地计算机生成数据集的方法,可以通过dir(datasets)或help(datasets)命令查看该模块的详细信息。

不难发现,datasets主要为我们提供了三种方法来使用数据集:load_<dataset_name>、fetch_<dataset_name>及make_<dataset_name>

  • load系列,datasets.load_<dataset_name>:sklearn自带的可直接使用的小数据集(packaged dataset)

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 }
span.s1 { font: 12.0px ".PingFang SC" }

'load_boston', # 波士顿房价数据集,用于回归任务的数据集

'load_breast_cancer',  # 乳腺癌数据集,用于二分类任务的数据集

'load_diabetes',  # 糖尿病数据集,用于回归任务的数据集

'load_digits',  # 手写数字数据集,用于多分类任务的数据集

'load_files',  # 加载自己的原始数据

'load_iris',  # 鸢尾花数据集,用于多分类任务的数据集

'load_lfw_pairs',  # 人脸核实数据集(给定两张照片,用来预测这两幅图是否来自同一个人)

'load_lfw_people',  # 人脸鉴定数据集(给定一张照片,用来找到一个给定的训练集的人的名字)

'load_linnerud',  # 体能训练数据集,用于多变量回归任务的数据集,其中有两个小数据集:Excise是对3个训练变量的20次观测(体重,腰围,脉搏),physiological是对3个生理学变量的20次观测(引体向上,仰卧起坐,立定跳远)

'load_mlcomp',  # 从http://mlcomp.org下载的数据集

'load_sample_image',  # 一张图像(numpy数组格式)

'load_sample_images',  # 图像集,用于图像处理

'load_svmlight_file',

'load_svmlight_files',

  • fetch系列,datasets.fetch_<dataset_name>:支持在线下载的较大的数据集(Downloaded Dataset)

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 }
span.s1 { font: 12.0px ".PingFang SC" }

'fetch_20newsgroups', # 20个新闻组数据集,用于文本分类的数据集

'fetch_20newsgroups_vectorized', # 新闻分类数据集,其中包含train和test

'fetch_california_housing',

'fetch_covtype',

'fetch_kddcup99',

'fetch_lfw_pairs',

'fetch_lfw_people',

'fetch_mldata',

'fetch_olivetti_faces',

'fetch_rcv1',

'fetch_species_distributions',

  • make系列,datasets.make_<dataset_name>:计算机生成的数据集(Generated Dataset)

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; color: #454545 }
span.s1 { font: 12.0px ".PingFang SC" }

'make_biclusters',

'make_blobs',

'make_checkerboard',

'make_circles',

'make_classification',

'make_friedman1',

'make_friedman2',

'make_friedman3',

'make_gaussian_quantiles',

'make_hastie_10_2',

'make_low_rank_matrix',

'make_moons',

'make_multilabel_classification',

'make_regression',

'make_s_curve',

'make_sparse_coded_signal',

'make_sparse_spd_matrix',

'make_sparse_uncorrelated',

'make_spd_matrix',

'make_swiss_roll'

现在我们已经大致了解了这些数据集,如果想要使用它们,只需要三个小步骤(此处以小数据集iris为例):

  1. 引入sklearn.datasets模块

    from sklearn import datasets
  2. 导入数据集并实例化一个对象iris
    iris = datasets.load_iris()
  3. 使用shape方法查看数据集
    n_samples, n_features = iris.data.shape
    print("Number of sample:", n_samples)
    print("Number of feature:", n_features)
  4. 运行结果如下,数据集的标准形状(shape)为二维数组(samples, features),其中n_samples表示数据集大小,n_features表示其中特征向量的维数

       

     这个结果表示iris数据集含有150个数据样本,每个数据样本是一个4维的特征向量。

接下来我们就可以使用这个数据集了,一般情况下,将iris.data作为样本特征向量,将iris.target作为样本label

sklearn包中有哪些数据集你都知道吗?的更多相关文章

  1. 机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集

    机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集   选自Microsoft www.tz365.Cn 作者:Lee Scott 机器之心编译 参与:李亚洲.吴攀. ...

  2. sklearn包学习

    1首先是sklearn的官网:http://scikit-learn.org/stable/ 在官网网址上可以看到很多的demo,下边这张是一张非常有用的流程图,在这个流程图中,可以根据数据集的特征, ...

  3. Composer安装php插件包中有哪些坑

    Composer安装php插件包中有哪些坑 一.总结 一句话总结:不要盲从扩展官方的composer安装命令,有时候也会出错 我们经常要往现有的项目中添加扩展包,有时候因为文档的错误引导,如下图来自 ...

  4. Python: 安装 sklearn 包出现错误的解决方法

    今天在安装 Python 的 sklearn 包时出现了 Cannot uninstall 'numpy' 和 Cannot uninstall 'scipy' 错误,下面记录了我尝试了很多网上的方法 ...

  5. sklearn包源码分析(二)——ensemble(未完成)

    网络资源 sklearn包tree模型importance解析

  6. sklearn中各种分类器回归器都适用于什么样的数据呢?

    作者:匿名用户链接:https://www.zhihu.com/question/52992079/answer/156294774来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请 ...

  7. sklearn包源码分析(一)--neighbors

    python如何查看内置函数的用法及其源码? 在anaconda的安装目录下,有一块会放着我们安装的所有包,在里面可以找到所有的包 找到scikit learn包,进入 这里面又有了多个子包,每个子包 ...

  8. 在sklearn上读取人脸数据集保存图片到本地

    程序如下: # -*- coding: utf-8 -*- """ Created on Sat Oct 31 17:36:56 2015 ""&qu ...

  9. 调用sklearn包中的PLA算法[转载]

    转自:https://blog.csdn.net/u010626937/article/details/72896144#commentBox 1.Python的机器学习包sklearn中也包含了感知 ...

随机推荐

  1. SecureCRT + Tmux 分屏 高效开发

    最近发现了SecureCRT的一些好玩的功能, 具体如下: 1. 发送消息到所有的终端 首先选中查看-->交互窗口 此时会看到下面出现一个输入窗口 然后, 右击选择"发送交互到所有标签 ...

  2. day6(列表操作、列表练习题)

    一.列表操作 a) 循环 基本语法 for i in  value : L1 =['a','b','c','d',1,2,3,4,5,6,'b','D'] for i in L1: print(i) ...

  3. com.alibaba.druid.sql.parser.ParserException: syntax error, QUES %, pos 80 like报错解决

    最近,把各应用的jdbc连接池统一从dbcp2改成了druid,运行时druid报sql解析错误,如下: select * from test         where 1=1         &l ...

  4. mysql命令汇总

    1.mysql新增.删除用户和权限分配 查看用户及权限 mysql>use mysql mysql>select * from user\G; 新增用户 mysql>insert i ...

  5. swift 之归档和解归档

    swift 之归档和解归档 数据持久化的方式有很多种,归档是其中的一种,说起数据持久化的方式,iOS 中基本有以下几种方式:sqlite存储.coredata存储.UserDefault存储.归档.p ...

  6. linux dns搭建

    DNS:域名解析(Domain Nmae System)正向解析:根据主机名称(域名)查找其对应的ip地址,这是最基本,最常用的功能反向解析:根据ip地址查找其对应的主机名称(域名),反垃圾邮件/安全 ...

  7. 硬盘分区表格式GUID和MBR知识普及

    我们的电脑硬盘分区格式一共有两种,一种是GUID(GPT),一种是MBR 如果你的电脑原装系统是win8或者以上的,那么他的硬盘分区表格式为GUID(GPT)格式的:如果是win7以下的,那么一般就是 ...

  8. FusionCharts封装-单系列图

    ColumnChart.java: /** * @Title:ColumnChart.java * @Package:com.fusionchart.model * @Description:柱形图 ...

  9. dedecms 在首页调取文章内容

    方法一:arcticle 标签 加上channeleid {dede:arclist' addfields='body' channelid='1'}[field:body/]{/dede:arcli ...

  10. TOJ 4120 Zombies VS Plants

    链接:http://acm.tju.edu.cn/toj/showp4120.html 4120.   Zombies VS Plants Time Limit: 1.0 Seconds   Memo ...