使用numpy切分训练集和测试集

序言

在机器学习的任务中，时常需要将一个完整的数据集切分为训练集和测试集。此处我们使用numpy完成这个任务。

iris数据集中有150条数据，我们将120条数据整合为训练集，将30条数据整合为测试集。

iris.csv下载

程序

import csv

import os

import numpy as np

'''将iris.csv中的数据分成train_iris和test_iris两个csv文件，其中train_iris.csv中有120个数据，test_iris.csv中有30个数据'''

labels = []

data = []

a_train_file = 'train_iris.csv'

a_test_file = 'test_iris.csv'

a_file = 'iris.csv'

seed = 3

np.random.seed(seed)

train_indices = np.random.choice(150, 120, replace=False) # 设置随机数生成从0-150中随机挑选120个随机数

residue = np.array(list(set(range(150)) - set(train_indices)))

test_indices = np.random.choice(len(residue),30, replace=False) # 如果训练集和测试集综合的数据加起来就是一整个数据集则不需要这个操作

with open(a_file)as afile:

    a_reader = csv.reader(afile)  #从原始数据集中将所有数据读取出来并保存到a_reader中

    labels = next(a_reader)  # 提取第一行设置为labels

    for row in a_reader:  # 将a_reader中每一行的数据提取出来并保存到data的列表中

        data.append(row)

# 生成训练数据集

if not os.path.exists(a_train_file):

    with open(a_train_file, "w", newline='') as a_trian:

        writer = csv.writer(a_trian)

        writer.writerows([labels])  #第一行为标签行

        writer.writerows(np.array(data)[train_indices])

        a_trian.close()

# 生成测试数据集

if not os.path.exists(a_test_file):

    with open(a_test_file, "w", newline='')as a_test:

        writer = csv.writer(a_test)

        writer.writerows([labels])  #第一行为标签行

        writer.writerows(np.array(data)[test_indices])

        a_test.close()

随机切分csv训练集和测试集的更多相关文章

sklearn学习3----模型选择和评估（1）训练集和测试集的切分
来自链接:https://blog.csdn.net/zahuopuboss/article/details/54948181 1.sklearn.model_selection.train_test ...
sklearn——train_test_split 随机划分训练集和测试集
sklearn——train_test_split 随机划分训练集和测试集 sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http: ...
Sklearn-train_test_split随机划分训练集和测试集
klearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http://scikit-learn.org/stable/modules/gener ...
机器学习入门06 - 训练集和测试集 (Training and Test Sets)
原文链接:https://developers.google.com/machine-learning/crash-course/training-and-test-sets 测试集是用于评估根据训练 ...
sklearn获得某个参数的不同取值在训练集和测试集上的表现的曲线刻画
from sklearn.svm import SVC from sklearn.datasets import make_classification import numpy as np X,y ...
将dataframe分割为训练集和测试集两部分
data = pd.read_csv("./dataNN.csv",',',error_bad_lines=False)#我的数据集是两列,一列字符串,一列为0,1的labelda ...
用python制作训练集和测试集的图片名列表文本
# -*- coding: utf-8 -*- from pathlib import Path #从pathlib中导入Path import os import fileinput import ...
sklearn中的train_test_split （随机划分训练集和测试集）
官方文档:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html ...
python 将数据随机分为训练集和测试集
# -*- coding: utf-8 -*- """ Created on Tue Jun 23 15:24:19 2015 @author: hd "&qu ...

随机推荐

AppCan 之初体验
平台概述什么是AppCan 移步这里,楼主的一句话:可以匹敌 Phonegap .Titanium .Sencha Touch .MUI .ImagApp.Nitrous .apicloud .起步 ...
java面向对象的栈队列优先级队列的比较
栈队列有序队列数据结构的生命周期比那些数据库类型的结构(比如链表,树)要短得多.在程序操作执行期间他们才被创建,通常用他们去执行某项特殊的任务:当完成任务之后,他们就会被销毁.这三个数据结构还有一 ...
遇到Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so问题的解决方法
运行一个基于tensorflow的模型时,遇到Intel MKL FATAL ERROR: Cannot load libmkl_avx2.so or libmkl_def.so问题. 解决方法:打开 ...
sql数据库表容量
标题:SQL Server 的最大容量规范数据库的文件大小,文件数量都有限制. 表的大小也有限制,如果表过大,查询效率就会下降,考虑对数据进行分割,对历史数据进行独立存储.
sql nolock是什么
百度:SQL Server 中的 NOLOCK 到底是什么意思? 文章地址:http://blog.sina.com.cn/s/blog_7d3b18a50100rfwg.html 查询语句加上 no ...
mac python install zlib not available
用brew install 3.4.4(python)时报 zipimport.ZipImportError: can't decompress data; zlib not available 的错 ...
小记IptabLes和IptabLex病毒清理过程
去年有台Linux服务器被黑了,看了500万行日志(现在觉得当时好厉害呀),反正当时的日志文件有700Mb以上大.前两天师兄告诉我,信息中心的老师给他说我们有台服务器应该是被人入侵了,当作内网的跳板, ...
p2 形状
形状是物理引擎进行碰撞模拟计算的依据,是刚体最基本的属性. P2中使用Shape类来表示形状,通过刚体的addShape()方法,将形状添加到刚体中之后, 就可以随着刚体的移动.旋转不断更新,并进行碰 ...
oracle锁与死锁概念，阻塞产生的原因以及解决方案
锁是一种机制,一直存在:死锁是一种错误,尽量避免. 首先,要理解锁和死锁的概念: 1.锁: 定义:简单的说,锁是数据库为了保证数据的一致性而存在的一种机制,其他数据库一样有,只不过实现机制上可能大 ...
JMeter脚本强化之检查点
上一篇讲述了对脚本做参数化的两种方法,并对参数化设置结果做了简单的验证,就是通过添加断言.本篇将详细一点介绍怎么使用断言做文本检查,或者叫做设置检查点. 首先来看看下面的三个图,这三个图是用查看结果树 ...

随机切分csv训练集和测试集

使用numpy切分训练集和测试集

序言

iris.csv下载

程序

随机切分csv训练集和测试集的更多相关文章

随机推荐

热门专题