使用numpy切分训练集和测试集

序言

在机器学习的任务中，时常需要将一个完整的数据集切分为训练集和测试集。此处我们使用numpy完成这个任务。

iris数据集中有150条数据，我们将120条数据整合为训练集，将30条数据整合为测试集。

iris.csv下载

程序

import csv

import os

import numpy as np

'''将iris.csv中的数据分成train_iris和test_iris两个csv文件，其中train_iris.csv中有120个数据，test_iris.csv中有30个数据'''

labels = []

data = []

a_train_file = 'train_iris.csv'

a_test_file = 'test_iris.csv'

a_file = 'iris.csv'

seed = 3

np.random.seed(seed)

train_indices = np.random.choice(150, 120, replace=False) # 设置随机数生成从0-150中随机挑选120个随机数

residue = np.array(list(set(range(150)) - set(train_indices)))

test_indices = np.random.choice(len(residue),30, replace=False) # 如果训练集和测试集综合的数据加起来就是一整个数据集则不需要这个操作

with open(a_file)as afile:

    a_reader = csv.reader(afile)  #从原始数据集中将所有数据读取出来并保存到a_reader中

    labels = next(a_reader)  # 提取第一行设置为labels

    for row in a_reader:  # 将a_reader中每一行的数据提取出来并保存到data的列表中

        data.append(row)

# 生成训练数据集

if not os.path.exists(a_train_file):

    with open(a_train_file, "w", newline='') as a_trian:

        writer = csv.writer(a_trian)

        writer.writerows([labels])  #第一行为标签行

        writer.writerows(np.array(data)[train_indices])

        a_trian.close()

# 生成测试数据集

if not os.path.exists(a_test_file):

    with open(a_test_file, "w", newline='')as a_test:

        writer = csv.writer(a_test)

        writer.writerows([labels])  #第一行为标签行

        writer.writerows(np.array(data)[test_indices])

        a_test.close()

随机切分csv训练集和测试集的更多相关文章

sklearn学习3----模型选择和评估（1）训练集和测试集的切分
来自链接:https://blog.csdn.net/zahuopuboss/article/details/54948181 1.sklearn.model_selection.train_test ...
sklearn——train_test_split 随机划分训练集和测试集
sklearn——train_test_split 随机划分训练集和测试集 sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http: ...
Sklearn-train_test_split随机划分训练集和测试集
klearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http://scikit-learn.org/stable/modules/gener ...
机器学习入门06 - 训练集和测试集 (Training and Test Sets)
原文链接:https://developers.google.com/machine-learning/crash-course/training-and-test-sets 测试集是用于评估根据训练 ...
sklearn获得某个参数的不同取值在训练集和测试集上的表现的曲线刻画
from sklearn.svm import SVC from sklearn.datasets import make_classification import numpy as np X,y ...
将dataframe分割为训练集和测试集两部分
data = pd.read_csv("./dataNN.csv",',',error_bad_lines=False)#我的数据集是两列,一列字符串,一列为0,1的labelda ...
用python制作训练集和测试集的图片名列表文本
# -*- coding: utf-8 -*- from pathlib import Path #从pathlib中导入Path import os import fileinput import ...
sklearn中的train_test_split （随机划分训练集和测试集）
官方文档:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html ...
python 将数据随机分为训练集和测试集
# -*- coding: utf-8 -*- """ Created on Tue Jun 23 15:24:19 2015 @author: hd "&qu ...

随机推荐

hbase优化操作与建议
一.服务端调优 1.参数配置 1).hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB ...
spark的运行方式——转载
本文转载自: spark的运行方式本文主要讲述运行spark程序的几种方式,包括:本地测试.提交到集群运行.交互式运行等. 在以下几种执行spark程序的方式中,都请注意master的设 ...
iPhone上的CPU架构,核数以及运行内存
机型 CPU架构 CPU名 CPU位数 CPU核数运行内存 iPhone 5 ARMv7s A6 32bit 双核 1G iPhone 5c ARMV7s A6 32bit 双核 1G iPhone ...
读<<我是IT小小鸟>>
<倔强><怒放的生命>以歌曲的含义来引入文章,让文章可以与音乐产生共鸣让读者可以直接明了的就直击到本篇文章的中心含义是非常受用的,在文中写了许多以自己为视角,以自己的成长经历来 ...
使用rand替换random模块
random模块使用相同的种子,在不同的进程中会出现相同的结果. rand的模块使用不同的种子,在不同的进程中不会出现相同的结果. 2个模块都是erlang自带的. 然后erlang在文档里面注明推荐 ...
dat.gui 上手
dat.gui是款神器产品.一个调试利器.但是用起来很简单很简单 1:引用dat.gui.js. 2:实例化 this.gui = new dat.GUI(); 3:创建可设置一个数据对象.例如v ...
MVC 中创建简单过滤器
1.新建一个类,继承自 ActionFilterAttribute类,并重写OnActionExecuting()方法 public class LoginFilter:ActionFilterAtt ...
洛谷 Roy&October之取石子
题目背景 Roy和October两人在玩一个取石子的游戏. 题目描述游戏规则是这样的:共有n个石子,两人每次都只能取pk 个(p为质数,k为自然数,且pk小于等于当前剩余石子数),谁取走最后一个石子 ...
Django字段类型介绍
一,通过makemigrations,migrate来修改数据, 1.Django的ORM支持修改表结构,修改完以后,执行 python manage.py makemigrations pytho ...
java学习4-Maven的发布war并部署到tomcat
1.点击生成-->Build Artifacts ,具体下图下图 2.生成完后会在target下出现一个war文件 3.部署到tomcat 复制war文件到tomcat/webapps,重启to ...

随机切分csv训练集和测试集

使用numpy切分训练集和测试集

序言

iris.csv下载

程序

随机切分csv训练集和测试集的更多相关文章

随机推荐

热门专题