对数据集的shuffle处理需要设置相应的buffer_size参数，相当于需要将相应数目的样本读入内存，且这部分内存会在训练过程中一直保持占用。完全的shuffle需要将整个数据集读入内存，这在大规模数据集的情况下是不现实的，故需要结合设备内存以及Batch大小将TFRecord文件随机划分为多个子文件，再对数据集做local shuffle（即设置相对较小的buffer_size，不小于单个子文件的样本数）。

Shuffle和划分

下文以一个异常检测数据集（正负样本不平衡）为例，在生成第一批TFRecord时，我将正负样本分别写入单独的TFrecord文件以备后续在对正负样本有不同处理策略的情况下无需再解析example_proto。比如在以下代码中，我对正负样本有不同的验证集比例，并将他们写入不同的验证集文件。

import numpy as np

import tensorflow as tf

from tqdm.notebook import tqdm as tqdm

# TFRecord划分

raw_normal_dataset = tf.data.TFRecordDataset("normal_16_256.tfrecords","GZIP")

raw_anomaly_dataset = tf.data.TFRecordDataset("anomaly_16_256.tfrecords","GZIP")

normal_val_writer = tf.io.TFRecordWriter(r'ex_1/'+'normal_val_16_256.tfrecords',"GZIP")

anomaly_val_writer = tf.io.TFRecordWriter(r'ex_1/'+'anomaly_val_16_256.tfrecords',"GZIP")

train_writer_list = [tf.io.TFRecordWriter(r'ex_1/'+'train_16_256_{}.tfrecords'.format(i),"GZIP") for i in range(SUBFILE_NUM+1)]

with tqdm(total=LEN_NORMAL_DATASET+LEN_ANOMALY_DATASET) as pbar:

    for example_proto in raw_normal_dataset:

        # 划分训练集和测试集

        if np.random.random() > 0.99: # 正样本测试集的比例

            normal_val_writer.write(example_proto.numpy())

        else:

            train_writer_list[np.random.randint(0,SUBFILE_NUM+1)].write(example_proto.numpy())

        pbar.update(1)

    for example_proto in raw_anomaly_dataset:

        # 划分训练集和测试集

        if np.random.random() > 0.7: # 负样本测试集的比例

            anomaly_val_writer.write(example_proto.numpy())

        else:

            train_writer_list[np.random.randint(0,SUBFILE_NUM+1)].write(example_proto.numpy())

        pbar.update(1)

normal_val_writer.close()

anomaly_val_writer.close()

for train_writer in train_writer_list:

    train_writer.close()

读取

raw_train_dataset = tf.data.TFRecordDataset([r'ex_1/'+'train_16_256_{}.tfrecords'.format(i) for i in range(SUBFILE_NUM+1)],"GZIP")

raw_train_dataset = raw_train_dataset.shuffle(buffer_size=100000).batch(BATCH_SIZE)

parsed_train_dataset = raw_train_dataset.map(map_func=map_func)

raw_normal_val_dataset = tf.data.TFRecordDataset(r'ex_1/'+'normal_val_16_256.tfrecords',"GZIP")

raw_anomaly_val_dataset = tf.data.TFRecordDataset(r'ex_1/'+'anomaly_val_16_256.tfrecords',"GZIP")

parsed_nomarl_val_dataset = raw_normal_val_dataset.batch(BATCH_SIZE).map(map_func=map_func)

parsed_anomaly_val_dateset = raw_anomaly_val_dataset.batch(BATCH_SIZE).map(map_func=map_func)

TFRecord的Shuffle、划分和读取的更多相关文章

Tensorflow 中（批量）读取数据的案列分析及TFRecord文件的打包与读取
内容概要: 单一数据读取方式: 第一种:slice_input_producer() # 返回值可以直接通过 Session.run([images, labels])查看,且第一个参数必须放在列表中 ...
更加清晰的TFRecord格式数据生成及读取
TFRecords 格式数据文件处理流程 TFRecords 文件包含了 tf.train.Example 协议缓冲区(protocol buffer),协议缓冲区包含了特征 Features.Ten ...
Tensorflow中使用tfrecord方式读取数据-深度学习-周振洋
本博客默认读者对神经网络与Tensorflow有一定了解,对其中的一些术语不再做具体解释.并且本博客主要以图片数据为例进行介绍,如有错误,敬请斧正. 使用Tensorflow训练神经网络时,我们可以用 ...
Spark技术内幕：Stage划分及提交源码分析
http://blog.csdn.net/anzhsoft/article/details/39859463 当触发一个RDD的action后,以count为例,调用关系如下: org.apache. ...
Spark技术内幕：Stage划分及提交源代码分析
当触发一个RDD的action后.以count为例,调用关系例如以下: org.apache.spark.rdd.RDD#count org.apache.spark.SparkContext#run ...
第十二节，TensorFlow读取数据的几种方法以及队列的使用
TensorFlow程序读取数据一共有3种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码来供给数据. 从文件读取数据: 在TensorFlow图的起 ...
TensorFlow中数据读取之tfrecords
关于Tensorflow读取数据,官网给出了三种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码来供给数据. 从文件读取数据: 在TensorFlow ...
tensorflow之数据读取探究(2)
tensorflow之tfrecord数据读取 Tensorflow关于TFRecord格式文件的处理.模型的训练的架构为: 1.获取文件列表.创建文件队列:http://blog.csdn.net/ ...
spark 笔记 15: ShuffleManager，shuffle map两端的stage/task的桥梁
无论是Hadoop还是spark,shuffle操作都是决定其性能的重要因素.在不能减少shuffle的情况下,使用一个好的shuffle管理器也是优化性能的重要手段. ShuffleManager的 ...

随机推荐

Solon 1.7.6 发布，更现代感的应用开发框架
相对于 Spring Boot 和 Spring Cloud 的项目启动快 5 - 10 倍 qps 高 2- 3 倍运行时内存节省 1/3 ~ 1/2 打包可以缩小到 1/2 ~ 1/10(比如 ...
python和pycharm下载与安装
python解释器 1.python的由来 Python诞生于1989年的一个圣诞节,其创作者Guido van Rossum为了打发圣诞节假期的无聊,便开始了Python语言的编写.Python第一 ...
Nginx的mirror指令能干啥？
mirror 流量复制 Nginx的 mirror 指令来自于 ngx_http_mirror_module 模块 Nginx Version > 1.13.4 mirror 指令提供的核心功能 ...
Mqtt入门：在线调试连接阿里云
近期课设需要做个东西,我想要做个上位机更好的显示. 但是一开始学习一样东西,听没头绪的,不知道从哪里入手,尝试过去B站找视频看,但是感觉视频讲的都是基础的东西,不是说人家up主讲的不好,只是对于入门, ...
python 通过线上API查询ip归属地
API为国外API,频率限制1分钟45个ip 脚本如下 1 #!/usr/bin/env python3 2 #-*-coding:utf-8-*- 3 4 import requests,re,js ...
Fastflow——基于golang的轻量级工作流框架
Fastflow 是什么?用一句话来定义它:一个基于golang协程.支持水平扩容的分布式高性能工作流框架. 它具有以下特点: 易用性:工作流模型基于 DAG 来定义,同时还提供开箱即用的 API, ...
Centos6添加防火墙端口以及相关操作命令的使用
用命令 vim /etc/sysconfig/iptables 增加防火墙端口号:(添加你需要的端口号) service iptables start 启动防火墙 service iptables ...
分享一款自带工作流引擎的NodeJS全栈框架，接单快手、创业神器
CabloyJS是什么 CabloyJS是一款自带工作流引擎的Node.js全栈框架, 接单快手.创业神器, 基于koa + egg + vue + framework7 + mysql 在线演示场 ...
Koa系框架（egg/cabloy）如何获取微信支付回调请求中的xml参数
背景在Koa系框架(如EggJS)中进行微信支付开发时,遇到一个问题:微信支付平台会发送一个回调请求,通知支付订单的处理结果.该请求传入的参数是xml格式,而Koa中间件koa-bodyparser ...
搭建个人博客，Docsify+Github webhook+JGit解决方案
一开始博客使用的 Halo,发现问题比较多啊,时不时的莫名其妙主题各种报错,有时候还要升级,麻烦的要死,于是就想弄简单点. 这两天抽空反复倒腾了一遍,不小心还把镜像给尼玛删了,发的文章都没了,痛定思痛 ...

TFRecord的Shuffle、划分和读取

Shuffle和划分

读取

TFRecord的Shuffle、划分和读取的更多相关文章

随机推荐

热门专题