本文介绍基于Python语言，实现机器学习、深度学习等模型训练时，数据集打乱的具体操作。

1 为什么要打乱数据集

在机器学习中，如果不进行数据集的打乱，则可能导致模型在训练过程中出现具有“偏见”的情况，降低其泛化能力，从而降低训练精度。例如，如果我们做深度学习的分类，其中初始数据的前80%都是第一类，后20%都是第二类，那么如果我们不打乱数据，模型按照数据顺序依次加以训练，则在前面大部分数据中训练出来的结果都是第一类（即形成了惯性，模型认为这些数据只对应着第一类）；而到后20%数据进行训练时，所得结果也往往全都为第一类；所以要打乱。

2 如何打乱

首先引入random。

import random

2.1 数据特征与标签均为一维

DataIndex=[i for i in range(len(TrainX))]

random.shuffle(DataIndex)

TrainX=TrainX[DataIndex]

TrainY=TrainY[DataIndex]

其中，TrainX为一维的训练数据特征，TrainY为一维的训练数据标签。

2.2 数据特征为多维而标签为一维

Datasets=tf.data.Dataset.from_tensor_slices((dict(TrainX),TrainY))

Datasets=Datasets.shuffle(1000)

其中，TrainX需要为多维DataFrame格式的训练数据特征，TrainY为一维Series格式的训练数据标签。但是经过这种方法，我们得到的Datasets为Dataset类的数据，若是接下来需要带入input_fn还可以，如果想单独取出TrainX和TrainY的话就比较麻烦。

因此，我们还可以直接在初始数据划分训练集与测试集时直接将数据打乱：

TrainData=MyData.sample(frac=TrainFrac,random_state=RandomSeed)

TestData=MyData.drop(TrainData.index)

其中，MyData为初始全部数据，TrainData与TestData分别为划分后的训练集与测试集数据。

经过.sample()这一步骤，与原始数据的Index相比，实际上已经实现了TrainData与TestData的随机排列。

至此，大功告成。

机器学习数据顺序随机打乱：Python实现的更多相关文章

N个整数（数的大小为0-255）的序列，把它们加密为K个整数（数的大小为0-255）.再将K个整数顺序随机打乱，使得可以从这乱序的K个整数中解码出原序列。设计加密解密算法,且要求K<=15*N.
N个整数(数的大小为0-255)的序列,把它们加密为K个整数(数的大小为0-255).再将K个整数顺序随机打乱,使得可以从这乱序的K个整数中解码出原序列.设计加密解密算法,且要求K<=15*N. ...
C++将数组的元素顺序随机打乱
参考: https://blog.csdn.net/cordova/article/details/52884399 https://zhidao.baidu.com/question/1604258 ...
MSSQL 复制数据并随机打乱写入
select * into temp from XX order by newid() -- 复制表结构 truncate table XX -- 清空表 SET IDENTITY_INSERT XX ...
Python 如何随机打乱列表(List)排序
场景: 现在有一个list:[1,2,3,4,5,6],我需要把这个list在输出的时候,是以一种随机打乱的形式输出. 专业点的术语:将一个容器中的数据每次随机逐个遍历一遍. 注意:不是生成一个随机的 ...
Python代码阅读（第10篇）：随机打乱列表元素
本篇阅读的代码实现了随机打乱列表元素的功能,将原有列表乱序排列,并返回一个新的列表(不改变原有列表的顺序). 本篇阅读的代码片段来自于30-seconds-of-python. shuffle fro ...
php保留键随机打乱数组顺序
最近遇到一个需求,把一个数组随机打乱顺序,我们可以用php的shuffle函数,但是这个函数会把数组的键清空建立新的键,那么我们若想保留键只需要利用shuffle函数再做一下处理就可以了.可以自定义一 ...
2017数据科学报告：机器学习工程师年薪最高，Python最常用
2017数据科学报告:机器学习工程师年薪最高,Python最常用 2017-11-03 11:05 数据平台 Kaggle 近日发布了2017 机器学习及数据科学调查报告,针对最受欢迎的编程语言.不同 ...
营销MM让我讲MySQL日志顺序读写及数据文件随机读写原理
摘要:你知道吗,MySQL在实际工作时候的两种数据读写机制? 本文分享自华为云社区<MySQL日志顺序读写及数据文件随机读写原理>,作者:JavaEdge . MySQL在实际工作时候的两 ...
python yaml文件数据按原有的数据顺序dump
yml文件的更新后工具类: import os import yaml class YamlUtils(): def __init__(self,folder_name='config'): self ...
C#随机打乱列表List元素顺序
C#随机打乱列表List项目顺序以下泛型扩展方法,实现了随机打乱泛型列表List<T>的功能 public static List<t> DisorderItems<t ...

随机推荐

[HCTF 2018]WarmUp 1
主页面是一个滑稽得到source.php 观看源码,提示source.php 访问看到源码 <?php highlight_file(__FILE__); class emmm { publi ...
这篇文章汇聚33个BUG！来挑战一下，看看你能找出来几个？
你好呀,我是歪歪. 前几天看到"Qunar技术沙龙"公众号推送了一篇关于他们举办了一场"Code Review大赛"的文章. 看到 Code Review 我很 ...
Git添加SSH密钥步骤
1.先去本机上面看看用户主目录里面有没有.ssh这个文件夹如果有的话,再看看该目录下有没有id_rsa和id_rsa_pub这两个文件: 若还是有,就直接跳过这一步到下一步:若是没有,我们需要创建S ...
File 未释放文件权柄问题处理
Unreleased Resource: Files Abstract 程序可能无法释放某个文件句柄. Explanation 程序可能无法成功释放某一个文件句柄. 资源泄露至少有两种常见的原因: - ...
java顺序结构
java顺序结构 java的基本结构就是顺序结构,一句一句执行 package charpter2; public class ShunXu { public static void main(Str ...
MyBatis各个版本下载以及 Apache Maven 安装
推荐下面两篇文章:实测有效! MyBatis下载和环境搭建 Maven详细安装教程
LabVIEW之同步——集合点vi
这是一个对我来讲比较偏的工具,做过很多项目,没有用它也能完成各种各样的项目. 今天我们一起来了解下这个工具,所以称之为工具,因为它属于NI LabVIEW的白色节点,一般是有官方利用LabVIEW代码 ...
stm32的学习笔记1
一目录结构管理 Libraries是放官方固件库的 MDK-ARM是放产生的文件的,工程存放的目录 USERS是放自己写的代码的然后是一个解释文件README 在MDK-ARM目录里还要创建两个文 ...
学习docker看此文足以
什么是 Docker Docker 最初是 dotCloud 公司创始人在法国期间发起的一个公司内部项目,它是基于 dotCloud 公司多年云服务技术的一次革新,并于 ,主要项目代码在上进行 ...
ChatGPT4实现前一天
目录提出需求代码实现需求分析单元测试等价类划分决策表软件测试作业,用ChatGPT4来帮个小忙,小划水,勿喷勿喷,近期有相关作业的同学看到我的文章,建议修改一下,别撞车了,哈哈哈~ 提出 ...