使用Sklearn-train_test_split 划分数据集

使用sklearn.model_selection.train_test_split可以在数据集上随机划分出一定比例的训练集和测试集

1.使用形式为：

 from sklearn.model_selection import train_test_split

 X_train, X_test, y_train, y_test = train_test_split(train_data,train_target,test_size=0.2, random_state=0)

2.参数解释：

train_data：样本特征集

train_target：样本的标签集

test_size：样本占比，测试集占数据集的比重，如果是整数的话就是样本的数量

random_state：是随机数的种子。在同一份数据集上，相同的种子产生相同的结果，不同的种子产生不同的划分结果

X_train,y_train:构成了训练集

X_test,y_test：构成了测试集

3.举例：

生成一个包含100个样本的数据集，随机换分出20%为测试集

 #py36

 #!/usr/bin/env python

 # -*- coding: utf-8 -*-

 #from sklearn.cross_validation import train_test_split

 from sklearn.model_selection import train_test_split 

 # 生成100条数据：100个2维的特征向量，对应100个标签

 X = [["feature ","one "]] * 50 + [["feature ","two "]] * 50

 y = [1] * 50 + [2] * 50

 # 随机抽取20%的测试集

 X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=1)

 print ("train:",len(X_train), "test:",len(X_test))

 # 查看被划分出的测试集

 for i in range(len(X_test)):

     print ("".join(X_test[i]), y_test[i])

 '''

 train: 80 test: 20

 feature two  2

 feature two  2

 feature one  1

 feature two  2

 feature two  2

 feature one  1

 feature one  1

 feature two  2

 feature two  2

 feature two  2

 feature two  2

 feature one  1

 feature two  2

 feature two  2

 feature two  2

 feature one  1

 feature one  1

 feature one  1

 feature two  2

 feature one  1

 '''

使用Sklearn-train_test_split 划分数据集的更多相关文章

sklearn——train_test_split 随机划分训练集和测试集
sklearn——train_test_split 随机划分训练集和测试集 sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http: ...
Pytorch划分数据集的方法
之前用过sklearn提供的划分数据集的函数,觉得超级方便.但是在使用TensorFlow和Pytorch的时候一直找不到类似的功能,之前搜索的关键字都是"pytorch split dat ...
使用python划分数据集
无论是训练机器学习或是深度学习,第一步当然是先划分数据集啦,今天小白整理了一些划分数据集的方法,希望大佬们多多指教啊,嘻嘻~ 首先看一下数据集的样子,flower_data文件夹下有四个文件夹,每个文 ...
sklearn 划分数据集。
1.sklearn.model_selection.train_test_split随机划分训练集和测试集函数原型: X_train,X_test, y_train, y_test =cross_v ...
sklearn中的数据集的划分
sklearn数据集划分方法有如下方法: KFold,GroupKFold,StratifiedKFold,LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,L ...
sklearn中，数据集划分函数 StratifiedShuffleSplit.split() 使用踩坑
在SKLearn中,StratifiedShuffleSplit 类实现了对数据集进行洗牌.分割的功能.但在今晚的实际使用中,发现该类及其方法split()仅能够对二分类样本有效. 一个简单的例子如下 ...
机器学习笔记2 – sklearn之iris数据集
前言本篇我会使用scikit-learn这个开源机器学习库来对iris数据集进行分类练习. 我将分别使用两种不同的scikit-learn内置算法--Decision Tree(决策树)和kNN(邻 ...
TF：利用sklearn自带数据集使用dropout解决学习中overfitting的问题+Tensorboard显示变化曲线—Jason niu
import tensorflow as tf from sklearn.datasets import load_digits #from sklearn.cross_validation impo ...
解决Sklearn中使用数据集MNIST无法获取的问题(WinError 10060)
今天在学习PCA的时候,使用mnist数据集遇到一个问题,代码是这样的: import numpy as np from sklearn.datasets import fetch_mldata mn ...

随机推荐

【windows系统下的navicat与ubuntu中的mysql的连接方法】
##红色代码直接复制到终端 1.首先,终端上mysql -u root -p,进入你的mysql数据库,操作数据库use mysql.2.切换root权限:sudo -i3.对root授权,输入:gr ...
java返回结果集封装
1.返回消息统一定义文件CodeMsg.java public class CodeMsg { private int retCode; private String message; // 按照模块 ...
CSS Specificity
CSS的specificity特性或称非凡性,它是一个衡量CSS值优先级的一个标准. 其实就是解决冲突,当同一个元素被CSS选择符选中,按照优先权取舍不同的CSS规则. specificity用一个四 ...
2014年最热门的国人开发开源软件TOP100
2014年最热门的国人开发开源软件TOP100 不知道从什么时候开始,很多一说起国产好像就非常愤慨,其实大可不必.做开源中国六年有余,这六年时间国内的开源蓬勃发展,从一开始的使用到贡献,到推出自己很多 ...
iptables发布内部网络服务器
要使因特网上的计算机访问到内部网的FTP服务器.WEB服务器,在做为防火墙的计算机上应添加以下规则: 1. echo 1 > /proc/sys/net/ipv4/ip_forward 2. 发 ...
PHP内置服务器
PHP在安装的时候会内置了服务器的功能,我们在使用的过程中如果只是调试,可以选择启动PHP内置的服务器,下面是windows下PHP内置服务器的启动步骤: 1.将php的D:\phpStudy\php ...
分布式TensorFlow集群local server使用详解
通过local server理解分布式TensorFlow集群的应用与实现. 简介 TensorFlow从0.8版本开始,支持分布式集群,并且自带了local server方便测试. Local ...
python yield 和 return 对比分析
相同点:都是返回函数执行的结果不同点:return 在返回结果后结束函数的运行,而yield 则是让函数变成一个生成器,生成器每次产生一个值(yield语句),函数被冻结,被唤醒后再产生一个值例子 ...
为你的 SuperSocket 启用动态语言
步骤如下: 1.添加 DLR (dynamic language runtime) 配置片段; Section 定义: <section name="microsoft.scripti ...
2019-9-2-win10-uwp-车表盘-径向规
title author date CreateTime categories win10 uwp 车表盘径向规 lindexi 2019-09-02 12:57:38 +0800 2018-2-1 ...

使用Sklearn-train_test_split 划分数据集

使用Sklearn-train_test_split 划分数据集的更多相关文章

随机推荐

热门专题