sklearn数据集

数据集划分：

　　机器学习一般的数据集会划分为两个部分

训练数据：

　　用于训练，构建模型

测试数据：

　　在模型检验时使用，用于评估模型是否有效

sklearn数据集划分API：

代码示例文末！

scikit-learn数据集API：

获取数据集的返回类型：

数据集进行分割：

代码示例：

 import os

 from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston

 from sklearn.model_selection import train_test_split

 li = load_iris()  # sklearn库具有获取数据的接口

 print(li.data)  # 获取特征值

 print()

 # 0、1、2分别代表鸾尾花的三个类别

 print(li.target)  #获取目标值

 print(li.DESCR)  # 打印描述，150个样本，四个特征，三个类别

 print(li.feature_names)  # 特征明

 print(li.target_names)  # 标签类别名

 # 注意返回值： 训练集train，x_train，y_train，测试集test，x_test，y_test

 # x_train为训练集的特征值，y_train为训练集的目标值，x_test为测试集的特征值，y_test为测试集的目标值

 # 注意，接收参数的顺序固定

 # 训练集占75%，测试集占25%

 x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)

 print('训练集的特征值和目标值：', x_train, y_train)

 print('测试集的特征值和目标值：', x_test, y_test)

 # 获取新闻数据，all代表下载所有，训练集和测试集都下载,data_home保存的路径

 news = fetch_20newsgroups(data_home=os.path.curdir, subset='all')

 print(news.data)

 print(news.target)

 lb = load_boston()  # 回归数据

 print('获取特征值')

 print(lb.data)

 print('目标值')

 print(lb.target)

 print(lb.DESCR)

sklearn数据集的更多相关文章

【学习笔记】sklearn数据集与估计器
数据集划分机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效训练数据和测试数据常用的比例一般为:70%: 30%, 80%: 2 ...
Sklearn数据集与机器学习
sklearn数据集与机器学习组成机器学习组成:模型.策略.优化 <统计机器学习>中指出:机器学习=模型+策略+算法.其实机器学习可以表示为:Learning= Representati ...
机器学习笔记(四)--sklearn数据集
sklearn数据集 (一)机器学习的一般数据集会划分为两个部分训练数据:用于训练,构建模型. 测试数据:在模型检验时使用,用于评估模型是否有效. 划分数据的API:sklearn.model_se ...
sklearn数据集划分
sklearn数据集划分方法有如下方法: KFold,GroupKFold,StratifiedKFold,LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,L ...
sklearn——数据集调用及应用
忙了许久,总算是又想起这边还没写完呢. 那今天就写写sklearn库的一部分简单内容吧,包括数据集调用,聚类,轮廓系数等等. 自带数据集API 数据集函数中文翻译任务类型数据规模 load_ ...
SKLearn数据集API（一）
注:本文是人工智能研究网的学习笔记数据集一览类型获取方式自带的小数据集 sklearn.datasets.load_ 在线下载的数据集 sklearn.datasets.fetch_ 计算机生 ...
SKLearn数据集API（二）
注:本文是人工智能研究网的学习笔记计算机生成的数据集用于分类任务和聚类任务,这些函数产生样本特征向量矩阵以及对应的类别标签集合. 数据集简介 make_blobs 多类单标签数据集,为每个类分配 ...
（数据科学学习手札27）sklearn数据集分割方法汇总
一.简介在现实的机器学习任务中,我们往往是利用搜集到的尽可能多的样本集来输入算法进行训练,以尽可能高的精度为目标,但这里便出现一个问题,一是很多情况下我们不能说搜集到的样本集就能代表真实的全体,其分 ...
13_数据的划分和介绍之sklearn数据集
1.数据集是如何划分?训练数据和评估数据不能使用相同数据,不然自己测自己,会使得准确率虚高,在遇到陌生数据时,不够准确. 2.数据集的获取: 通过load或者fetch方法. 3.数据集进行分割: 训 ...

随机推荐

openpyxl -用于读/写Excel 2010 XLSX/XLSM文件的python库
openpyxl -用于读/写Excel 2010 XLSX/XLSM文件的python库¶ https://www.osgeo.cn/openpyxl/index.html
CF1053E Euler tour
题意给出一个某些位置不全的欧拉序,求出一个符合条件的,或输出不行传送门 $n \le 5*10^5$ 思路终于不是一道神仙$dp$ 变成了一道神仙构造以下简称两相同数围成的是一个区间, ...
POJ 1661 Help Jimmy ——（记忆化搜索）
典型的记忆化搜索问题,dfs一遍即可.但是不知道WA在哪里了= =,一直都没找出错误.因为思路是很简单的,肯定是哪里写挫了,因此不再继续追究了. WA的代码如下,希望日后有一天能找出错误= =: —— ...
super关键字和调用父类构造方法
表示父类对象的默认引用如果子类要调用父类被覆盖的实例方法,可用super作为调用者调用父类被覆盖的实例方法. 使用super调用父类方法使用super调用父类的构造方法调用构造方法本类中调用另 ...
预编译头文件stdafx.h-stdafx.cpp-stdafx.pch(pre-compile headfile)
tdafx的英文全称为:Standard Application Framework Extensions(标准应用程序框架的扩展). 所谓头文件预编译,就是把一个工程(Project)中使用的一些M ...
Gevent模块
前言如何在使用1个线程的前提下,提网站的并发性,使用协程? 如果要使用协程首先要解决2个问题: 1.如何检测到代码中遇到了IO操作?(XX) 2.如何在线程代码里上下切换?(Greelet模块) 而 ...
linux上安装phpstudy
摘要:安装:wget-chttp://lamp.phpstudy.net/phpstudy.bin chmod+xphpstudy.bin #权限设置./phpstudy.bin#运行安装用时十到几 ...
computer5 environment
luo@luo-All-Series:~/MyFile/Anaconda3$ luo@luo-All-Series:~/MyFile/Anaconda3$ luo@luo-All-Series:~/M ...
(翻译) closures-are-not-complicated
总计:读完这篇文章需要20分钟这篇文章讲解了闭包的一些内容,作者是拿ES5规范中的一些名词来讲的. 所以可能和博客上一篇文章中提到的binding object, (lexical enviro ...
阶段5 3.微服务项目【学成在线】_day02 CMS前端开发_19-CMS前端页面查询开发-页面原型-Table组件测试
页面填充内容.用一个表格来显示内容 3.1.2.1 Element-UI介绍本项目使用Element-UI来构建界面,Element是一套为开发者.设计师和产品经理准备的基于 Vue 2.0 的桌面 ...

sklearn数据集

数据集划分：

训练数据：

测试数据：

sklearn数据集划分API：

scikit-learn数据集API：

获取数据集的返回类型：

数据集进行分割：

代码示例：

sklearn数据集的更多相关文章

随机推荐

热门专题