使用Sklearn-train_test_split 划分数据集

使用sklearn.model_selection.train_test_split可以在数据集上随机划分出一定比例的训练集和测试集

1.使用形式为：

 from sklearn.model_selection import train_test_split

 X_train, X_test, y_train, y_test = train_test_split(train_data,train_target,test_size=0.2, random_state=0)

2.参数解释：

train_data：样本特征集

train_target：样本的标签集

test_size：样本占比，测试集占数据集的比重，如果是整数的话就是样本的数量

random_state：是随机数的种子。在同一份数据集上，相同的种子产生相同的结果，不同的种子产生不同的划分结果

X_train,y_train:构成了训练集

X_test,y_test：构成了测试集

3.举例：

生成一个包含100个样本的数据集，随机换分出20%为测试集

 #py36

 #!/usr/bin/env python

 # -*- coding: utf-8 -*-

 #from sklearn.cross_validation import train_test_split

 from sklearn.model_selection import train_test_split 

 # 生成100条数据：100个2维的特征向量，对应100个标签

 X = [["feature ","one "]] * 50 + [["feature ","two "]] * 50

 y = [1] * 50 + [2] * 50

 # 随机抽取20%的测试集

 X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=1)

 print ("train:",len(X_train), "test:",len(X_test))

 # 查看被划分出的测试集

 for i in range(len(X_test)):

     print ("".join(X_test[i]), y_test[i])

 '''

 train: 80 test: 20

 feature two  2

 feature two  2

 feature one  1

 feature two  2

 feature two  2

 feature one  1

 feature one  1

 feature two  2

 feature two  2

 feature two  2

 feature two  2

 feature one  1

 feature two  2

 feature two  2

 feature two  2

 feature one  1

 feature one  1

 feature one  1

 feature two  2

 feature one  1

 '''

使用Sklearn-train_test_split 划分数据集的更多相关文章

sklearn——train_test_split 随机划分训练集和测试集
sklearn——train_test_split 随机划分训练集和测试集 sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http: ...
Pytorch划分数据集的方法
之前用过sklearn提供的划分数据集的函数,觉得超级方便.但是在使用TensorFlow和Pytorch的时候一直找不到类似的功能,之前搜索的关键字都是"pytorch split dat ...
使用python划分数据集
无论是训练机器学习或是深度学习,第一步当然是先划分数据集啦,今天小白整理了一些划分数据集的方法,希望大佬们多多指教啊,嘻嘻~ 首先看一下数据集的样子,flower_data文件夹下有四个文件夹,每个文 ...
sklearn 划分数据集。
1.sklearn.model_selection.train_test_split随机划分训练集和测试集函数原型: X_train,X_test, y_train, y_test =cross_v ...
sklearn中的数据集的划分
sklearn数据集划分方法有如下方法: KFold,GroupKFold,StratifiedKFold,LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,L ...
sklearn中，数据集划分函数 StratifiedShuffleSplit.split() 使用踩坑
在SKLearn中,StratifiedShuffleSplit 类实现了对数据集进行洗牌.分割的功能.但在今晚的实际使用中,发现该类及其方法split()仅能够对二分类样本有效. 一个简单的例子如下 ...
机器学习笔记2 – sklearn之iris数据集
前言本篇我会使用scikit-learn这个开源机器学习库来对iris数据集进行分类练习. 我将分别使用两种不同的scikit-learn内置算法--Decision Tree(决策树)和kNN(邻 ...
TF：利用sklearn自带数据集使用dropout解决学习中overfitting的问题+Tensorboard显示变化曲线—Jason niu
import tensorflow as tf from sklearn.datasets import load_digits #from sklearn.cross_validation impo ...
解决Sklearn中使用数据集MNIST无法获取的问题(WinError 10060)
今天在学习PCA的时候,使用mnist数据集遇到一个问题,代码是这样的: import numpy as np from sklearn.datasets import fetch_mldata mn ...

随机推荐

SpingMVC ModelAndView, Model,Control以及参数传递总结
1.web.xml 配置: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 <servlet> <servlet-name>dispatcher& ...
实现一个简易的promise
//promise里面只有三个状态,且三个状态的转换形式有两种 //由pending转换为fulfilled,由pending转换为rejected //Promise的构造函数参数是一个函数,函数的 ...
git操作——git pull 撤销误操作，恢复本地代码
需求开发的代码还未commit到git本地仓库,就从git远程仓库上pull了代码,导致开发的代码直接被冲掉,需要退回到上一个版本代码. 操作进入到项目git本地仓库文件夹下打开cmd窗口,执行 ...
Kafka 简易教程
1.初识概念 Apache Kafka是一个分布式消息发布订阅系统. TopicKafka将消息种子(Feed)分门别类, 每一类的消息称之为话题(Topic). Producer发布消息的对象称之为 ...
17-3 cookie和session
一 . Cookie 1.cookie 是什么? 保存在浏览器端的键值对! 服务端在返回响应的时候,告诉浏览器保存的键值对!浏览器可以拒绝保存Cookie. 2. 为什么要有cookie? HTTP请 ...
2018-11-26-WPF-通过-DrawingContext-DrawImage-绘制图片
title author date CreateTime categories WPF 通过 DrawingContext DrawImage 绘制图片 lindexi 2018-11-26 16:1 ...
oracle函数 INSTRB(C1,C2[,I[,J]])
[功能]在一个字符串中搜索指定的字符,返回发现指定的字符的位置; [说明]多字节符(汉字.全角符等),按2个字符计算 [参数] C1 被搜索的字符串 C2 希望搜索的字符串 I 搜 ...
[***]HZOJ 超级树
DeepinC超详细题解考试时想出是dp了,因为显然第i级超级树和第i+1级超级树是有联系的(然而我并不能推出来),这dp的状态鬼才想的出来……个人理解,dp的实质就是从小的状态向大的状态转移,从而 ...
HTML打印print
上代码: //打印 function printme() { global_Html = document.body.innerHTML; //document.body.innerHTML = do ...
props & children
一. choosing the type at runtime import React from 'react'; import { PhotoStory, VideoStory } from '. ...

使用Sklearn-train_test_split 划分数据集

使用Sklearn-train_test_split 划分数据集的更多相关文章

随机推荐

热门专题