注:本文是人工智能研究网的学习笔记

数据集一览

类型 获取方式
自带的小数据集 sklearn.datasets.load_
在线下载的数据集 sklearn.datasets.fetch_
计算机生成的数据集 sklearn.datasets.make_
svmlight/libsvm格式的数据集 sklearn.datasets.load_svmlight_file(...)
mldata.org在线下载数据集 sklearn.datasets.fetch_mldata(...)

自带的小数据集

返回的是bunch对象,是字典类型

名称 数据包
鸢尾花数据集 load_iris()
乳腺癌数据集 load_breast_cancer()
手写数字数据集 load_digits()
糖尿病数据集 load_diabetes()
波士顿房价数据集 load_boston()
体能训练数据集 load_linnerud()
图像数据集 load_sample_image(name)

鸢尾花数据集

下面使用花萼长度单个特征来划分查看,这是探索性分析,当我们不知道该使用那些特征的时候,就这样查看一下。

下面使用两个特征来划分查看

手写数字数据集

图像数据集

在线下载的数据集

使用datasets.get_data_home()函数获取下载目录

类型 获取方式
20类新闻文本数据集 fetch_20newsgroups() / fetch_20newsgroups_vectorized()
野外带标记人脸数据集 fetch_lfw_people() / fetch_lfw_pairs()
Olivetti人脸数据集 fetch_olivetti_faces()
rcvl多标签数据集 fetch_rcvl()
加利福尼亚房价数据集 fetch_canlifornia_housing()

20类新闻文本数据集

包含了关于20个话题(topic)的18000条新闻报道,被分为两个子集: 训练集和测试集

函数 内容
fetch_20newsgroups() 原始的文本列表,该文本可以被输入到文本特征提取器sklearn.feature_extraction.text.CountVectorizer进一步处理得到特征向量
fetch_20newsgroups_vectorized() 返回一个直接可以使用的特征,无须在进行特征提取。

Olivetti人脸数据集

Olivetti人脸数据集是AT&T在1992-1994年手机的人脸数据集,包含了40个不同的目标,每个目标10张图片,某些目标的图像在不同的时间段采集,带有光照,面部表情(眼镜开闭,笑容),面部袭细节的各种变化,所有的人脸图像被正立的放在一个灰色的背景上。

每一张图像上有256个灰度级,用无符号8为来存。加载函数会将所有的图像转换成[0,1]区间上的浮点数,目标值target存放着0到39的数字代表人脸的类别标签。然而每个标签对应的人脸图像都只有10张,每张图像的分辨率是64*64。这个小数据集会更加适合来做无监督学习或者半监督学习。

SKLearn数据集API(一)的更多相关文章

  1. SKLearn数据集API(二)

    注:本文是人工智能研究网的学习笔记 计算机生成的数据集 用于分类任务和聚类任务,这些函数产生样本特征向量矩阵以及对应的类别标签集合. 数据集 简介 make_blobs 多类单标签数据集,为每个类分配 ...

  2. 【学习笔记】sklearn数据集与估计器

    数据集划分 机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效 训练数据和测试数据常用的比例一般为:70%: 30%, 80%: 2 ...

  3. sklearn——数据集调用及应用

    忙了许久,总算是又想起这边还没写完呢. 那今天就写写sklearn库的一部分简单内容吧,包括数据集调用,聚类,轮廓系数等等.   自带数据集API 数据集函数 中文翻译 任务类型 数据规模 load_ ...

  4. Sklearn数据集与机器学习

    sklearn数据集与机器学习组成 机器学习组成:模型.策略.优化 <统计机器学习>中指出:机器学习=模型+策略+算法.其实机器学习可以表示为:Learning= Representati ...

  5. 机器学习笔记(四)--sklearn数据集

    sklearn数据集 (一)机器学习的一般数据集会划分为两个部分 训练数据:用于训练,构建模型. 测试数据:在模型检验时使用,用于评估模型是否有效. 划分数据的API:sklearn.model_se ...

  6. sklearn数据集

    数据集划分: 机器学习一般的数据集会划分为两个部分 训练数据: 用于训练,构建模型 测试数据: 在模型检验时使用,用于评估模型是否有效 sklearn数据集划分API: 代码示例文末! scikit- ...

  7. sklearn python API

    sklearn python API LinearRegression from sklearn.linear_model import LinearRegression # 线性回归 # modul ...

  8. sklearn数据集划分

    sklearn数据集划分方法有如下方法: KFold,GroupKFold,StratifiedKFold,LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,L ...

  9. 深度学习常用数据集 API(包括 Fashion MNIST)

    基准数据集 深度学习中经常会使用一些基准数据集进行一些测试.其中 MNIST, Cifar 10, cifar100, Fashion-MNIST 数据集常常被人们拿来当作练手的数据集.为了方便,诸如 ...

随机推荐

  1. PHP返回Json数据函数封装

    /** * 返回Json数据 * @param int $code * @param string $message * @param array $data * @return string */ ...

  2. Go语言知识点笔记

    golang的花括号: 在go中,继承了C系的花括号作为一个作用域块的包含范围指示,但不同于C/C++中花括号位置可任意摆放,go要求“ { ”必须在右侧(一行代码尾部),不能单独另起一行.类似Pyt ...

  3. PATH变量重复

    命令: export PATH=$(echo $PATH | tr : "\n"| sort | uniq | tr "\n" :) Code: awk -F: ...

  4. HDU 6215 2017Brute Force Sorting 青岛网络赛 队列加链表模拟

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6215 题意:给你长度为n的数组,定义已经排列过的串为:相邻两项a[i],a[i+1],满足a[i]&l ...

  5. Docker Compose practice

    Docker Compose 什么是 Docker-Compose? Compose 可以让用户在集群中部署分布式应用.简单的说,Docker Compose 属于一个"应用层"的 ...

  6. 30 C? Go? Cgo!

    C? Go? Cgo! 17 March 2011 Introduction Cgo lets Go packages call C code. Given a Go source file writ ...

  7. ubuntu 创建容器 并ssh 连接容器

    1.下载镜像:docker search ubuntu docker pull ubuntu 2. 创建容器 docker run --name spider_frame -p 8888:8888 - ...

  8. UVA10212 【The Last Non-zero Digit.】

    暴力可做!!!(十秒还不打暴力!!!)暴力算阶乘边算边取余上代码 #include<iostream> #define int long long //开long long using n ...

  9. B树 B+树 红黑树

    B-Tree(B树) 具体讲解之前,有一点,再次强调下:B-树,即为B树.因为B树的原英文名称为B-tree,而国内很多人喜欢把B-tree译作B-树,其实,这是个非常不好的直译,很容易让人产生误解. ...

  10. Maven3核心技术(笔记三)

    第一节:Maven仓库概念 Maven 远程仓库配置文件:$M2_HOME/lib/maven-model-builder-3.3.3.jar 文件:org\apache\maven\model\po ...