函数实现将 DataFrame 数据直接划分为测试集训练集

虽然 Scikit-Learn 有可以划分数据集的函数 train_test_split ，但在有些特殊情况我们只希望它将 DataFrame 数据直接划分为 train, test 而不是像 train_test_split 返回四个值。这里写了一个类似功能的函数：

import numpy as np

import pandas as pd

from sklearn.utils import shuffle as reset

def train_test_split(data, test_size=0.3, shuffle=True, random_state=None):

    '''Split DataFrame into random train and test subsets

    Parameters

    ----------

    data : pandas dataframe, need to split dataset.

    test_size : float

        If float, should be between 0.0 and 1.0 and represent the

        proportion of the dataset to include in the train split.

    random_state : int, RandomState instance or None, optional (default=None)

        If int, random_state is the seed used by the random number generator;

        If RandomState instance, random_state is the random number generator;

        If None, the random number generator is the RandomState instance used

        by `np.random`.

    shuffle : boolean, optional (default=None)

        Whether or not to shuffle the data before splitting. If shuffle=False

        then stratify must be None.

    '''

    if shuffle:

        data = reset(data, random_state=random_state)

    train = data[int(len(data)*test_size):].reset_index(drop = True)

    test  = data[:int(len(data)*test_size)].reset_index(drop = True)

    return train, test

效果如下：

函数实现将 DataFrame 数据直接划分为测试集训练集的更多相关文章

LUA中将未分类数据分为测试集和训练集
require 'torch' require 'image' local setting = {parent_root = '/home/pxu/image'} function list_chil ...
Matlab划分测试集和训练集
% x是原数据集,分出训练样本和测试样本 [ndata, D] = size(X); %ndata样本数,D维数 R = randperm(ndata); %1到n这些数随机打乱得到的一个随机数字序列 ...
Machine Learning笔记整理 ------ （二）训练集与测试集的划分
在实际应用中,一般会选择将数据集划分为训练集(training set).验证集(validation set)和测试集(testing set).其中,训练集用于训练模型,验证集用于调参.算法选择等 ...
spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API.Da ...
将DataFrame数据如何写入到Hive表中
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...
JVM 运行时数据区域划分
目录前言什么是JVM JRE/JDK/JVM是什么关系 JVM执行程序的过程 JVM的生命周期 JVM垃圾回收 JVM的内存区域划分一.运行时数据区包括哪几部分? 二.运行时数据区的每部分到底存 ...
python重要的第三方库pandas模块常用函数解析之DataFrame
pandas模块常用函数解析之DataFrame 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器 ...
Linux C 调用MYSQL API 函数mysql_escape_string()转义插入数据
Title:Linux C 调用MYSQL API 函数mysql_escape_string()转义插入数据 --2013-10-11 11:57 #include <stdio.h> ...
SQL Server 基础 04 函数与分组查询数据
函数与分组查询数据系统函数分聚合函数.数据类型转换函数.日期函数.数学函数 . . . 1. 聚合函数主要是对一组值进行计算,然后返回一个值. 聚合函数包括 sum(求和).avg(求平均值). ...

随机推荐

python之异步编程
一.异步编程概述异步编程是一种并发编程的模式,其关注点是通过调度不同任务之间的执行和等待时间,通过减少处理器的闲置时间来达到减少整个程序的执行时间:异步编程跟同步编程模型最大的不同就是其任务的切换, ...
筛选Table.SelectRows-日期与时间（Power Query 之 M 语言）
数据源: 包含日期与时间的任意数据目标: 对日期与时间进行筛选 M公式: = Table.SelectRows( 表,筛选条件) 筛选条件: 等于:each [日期列] = #date(年,月,日) ...
Kafka从入门到放弃（三）—— 详说消费者
之前介绍了Kafka以及生产者,包括它的一些特性和参数,这回写一下消费者. 之前没看得可以点击链接阅读. Kafka从入门到放弃(一) -- 初识Kafka Kafka从入门到放弃(二) -- 详说生 ...
CF764B Timofey and cubes 题解
Content 有一个序列 \(a_1,a_2,a_3,...,a_n\),对于 \(i\in[1,n]\),只要 \(i\leqslant n-i+1\),就把闭区间 \([i,n-i+1]\) 内 ...
ElasticSearch 使用
一.索引操作 --------------------------------- 创建索引(PUT) PUT /索引名 curl -X PUT http://10.20.20.214:9200/sho ...
JAVA从URL参数链接中获取指定参数的值
import java.util.HashMap; import java.util.Map; /** * @author yvioo */ public class UrlUtils { /** * ...
【LeetCode】191. Number of 1 Bits 解题报告（Java & Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法右移32次计算末尾的1的个数转成二进制统计1的个 ...
【LeetCode】876. Middle of the Linked List 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法使用哑结点不使用哑结点日期题目地址:https ...
【LeetCode】705. Design HashSet 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法位图法数组法日期题目地址:https://le ...
【LeetCode】709. To Lower Case 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述: 题目大意解题方法 ASIIC码操作日期题目地址:https:// ...

函数实现将 DataFrame 数据直接划分为测试集训练集

函数实现将 DataFrame 数据直接划分为测试集训练集的更多相关文章

随机推荐

热门专题