tf.train.batch的偶尔乱序问题

我们在通过tf.Reader读取文件后，都需要用batch函数将读取的数据根据预先设定的batch_size打包为一个个独立的batch方便我们进行学习。
常用的batch函数有tf.train.batch和tf.train.shuffle_batch函数。前者是将数据从前往后读取并顺序打包，后者则要进行乱序处理————即将读取的数据进行乱序后在组成批次。
训练时我往往都是使用shuffle_batch函数，但是这次我在验证集上预调好模型并freeze模型后我需要在测试集上进行测试。此时我需要将数据的标签和inference后的结果进行一一对应。 此时数据出现的顺序是十分重要的，这保证我们的产品在上线前的测试集中能准确get到每个数据和inference后结果的差距 而在验证集中我们不太关心数据原有的标签和inference后的真实值，我们往往只是需要让这两个数据一一对应，关于数据出现的顺序我们并不关心。
此时我们一般使用tf.train.batch函数将tf.Reader读取的值进行顺序打包即可。

然而tf.train.batch函数往往会有偶尔乱序的情况

我们将csv文件中每个数据样本从上往下依次进行标号，我们在使用tf.trian.batch函数依次进行读取，如果我们读取的数据编号乱序了，则表明tf.train.batch函数有偶尔乱序的状况。

import tensorflow as tf

BATCH_SIZE = 400

NUM_THREADS = 2

MAX_NUM = 500

def read_data(file_queue):

    reader = tf.TextLineReader(skip_header_lines=1)

    key, value = reader.read(file_queue)

    defaults = [[0], [0.], [0.]]

    NUM, C, Tensile = tf.decode_csv(value, defaults)

    vertor_example = tf.stack([C])

    vertor_label = tf.stack([Tensile])

    vertor_num = tf.stack([NUM])

    return vertor_example, vertor_label, vertor_num

def create_pipeline(filename, batch_size, num_threads):

    file_queue = tf.train.string_input_producer([filename])  # 设置文件名队列

    example, label, no = read_data(file_queue)  # 读取数据和标签

    example_batch, label_batch, no_batch = tf.train.batch(

        [example, label, no], batch_size=batch_size, num_threads=num_threads, capacity=MAX_NUM)

    return example_batch, label_batch, no_batch

x_train_batch, y_train_batch, no_train_batch = create_pipeline('test_tf_train_batch.csv', batch_size=BATCH_SIZE,

                                                               num_threads=NUM_THREADS)

init_op = tf.global_variables_initializer()

local_init_op = tf.local_variables_initializer()

with tf.Session() as sess:

    sess.run(local_init_op)

    sess.run(init_op)

    coord = tf.train.Coordinator()

    threads = tf.train.start_queue_runners(coord=coord)

    example, label, num = sess.run([x_train_batch, y_train_batch, no_train_batch])

    print(example)

    print(label)

    print(num)

    coord.request_stop()

    coord.join(threads)

实验结果

我们将csv文件中的真实Tensile值放在第一列，将使用tf.train.batch函数得到的Tensile和no分别放在第二列和第三列

TureTensile	FalseTensile	NO
0.830357143	[ 0.52678573]	[ 66]
0.526785714	[ 0.83035713]	[ 65]
0.553571429	[ 0.4375 ]	[ 68]
0.4375	[ 0.5535714 ]	[ 67]
0.517857143	[ 0.33035713]	[ 70]
0.330357143	[ 0.51785713]	[ 69]
0.482142857	[ 0.6785714 ]	[ 72]
0.678571429	[ 0.48214287]	[ 71]
0.419642857	[ 0.02678571]	[ 74]
0.026785714	[ 0.41964287]	[ 73]
0.401785714	[ 0.4017857 ]	[ 75]

解决方案

将测试集中所有样本数据加NO顺序标签列

tf.train.batch的偶尔乱序问题的更多相关文章

tensorflow中 tf.train.slice_input_producer 和 tf.train.batch 函数（转）
tensorflow数据读取机制 tensorflow中为了充分利用GPU,减少GPU等待数据的空闲时间,使用了两个线程分别执行数据读入和数据计算. 具体来说就是使用一个线程源源不断的将硬盘中的图片数 ...
tensorflow中 tf.train.slice_input_producer 和 tf.train.batch 函数
tensorflow数据读取机制 tensorflow中为了充分利用GPU,减少GPU等待数据的空闲时间,使用了两个线程分别执行数据读入和数据计算. 具体来说就是使用一个线程源源不断的将硬盘中的图片数 ...
【转载】 tensorflow中 tf.train.slice_input_producer 和 tf.train.batch 函数
原文地址: https://blog.csdn.net/dcrmg/article/details/79776876 ----------------------------------------- ...
深度学习原理与框架-Tfrecord数据集的读取与训练(代码) 1.tf.train.batch(获取batch图片) 2.tf.image.resize_image_with_crop_or_pad(图片压缩) 3.tf.train.per_image_stand..(图片标准化) 4.tf.train.string_input_producer(字符串入队列) 5.tf.TFRecord(读
1.tf.train.batch(image, batch_size=batch_size, num_threads=1) # 获取一个batch的数据参数说明:image表示输入图片,batch_ ...
【转载】 tf.train.slice_input_producer()和tf.train.batch()
原文地址: https://www.jianshu.com/p/8ba9cfc738c2 ------------------------------------------------------- ...
tensorflow数据读取机制tf.train.slice_input_producer 和 tf.train.batch 函数
tensorflow中为了充分利用GPU,减少GPU等待数据的空闲时间,使用了两个线程分别执行数据读入和数据计算. 具体来说就是使用一个线程源源不断的将硬盘中的图片数据读入到一个内存队列中,另一个线程 ...
tensorflow|tf.train.slice_input_producer|tf.train.Coordinator|tf.train.start_queue_runners
#### ''' tf.train.slice_input_producer :定义样本放入文件名队列的方式[迭代次数,是否乱序],但此时文件名队列还没有真正写入数据 slice_input_prod ...
tfsenflow队列|tf.train.slice_input_producer|tf.train.Coordinator|tf.train.start_queue_runners
#### ''' tf.train.slice_input_producer :定义样本放入文件名队列的方式[迭代次数,是否乱序],但此时文件名队列还没有真正写入数据 slice_input_pr ...
tensorflow中协调器 tf.train.Coordinator 和入队线程启动器 tf.train.start_queue_runners
TensorFlow的Session对象是支持多线程的,可以在同一个会话(Session)中创建多个线程,并行执行.在Session中的所有线程都必须能被同步终止,异常必须能被正确捕获并报告,会话终止 ...

随机推荐

python_MySQL 数据库操作
Python中的mysql操作可以使用MySQLdb模块来完成.它符合Python社区设计的Python Database API SpecificationV2.0标准,所以与其他的数据库操作的AP ...
PCAP文件格式分析(做抓包软件之必备)
转载源:http://blog.csdn.net/anzijin/article/details/2008333 http://www.ebnd.cn/2009/09/07/file-format-a ...
CSS3实现图片渐入效果
很多网站都有那种图片渐入的效果,如:http://www.mi.com/minote/,这种效果用css3和一些js实现起来特别简单. 拿我之前做的页面来说一下怎么利用css3来实现图片渐入效果. 下 ...
"Hello World"团队召开的第三周第七次会议
今天是我们团队“Hello World!”团队召开的第三周的第七次会议.博客内容: 一.会议时间二.会议地点三.会议成员四.会议内容五.Todo List 六.会议照片七.燃尽图一.会议时 ...
团队计划会议（二）——WBS
一.会议及WBS 因为是第一次开发android应用,所以我们对这次开发心里也没底,最后我们商量暂时先实现主要的几个骨架功能,之后再慢慢完善. 会议期间,我们根据自己的能力大致先估算了完成这些功能需要 ...
随机生成30道四则运算-NEW
补充:紧跟上一个随机生成30道四则运算的题目,做了一点补充,可以有真分数之间的运算,于是需要在原来的基础上做一些改进. 首先指出上一个程序中的几个不足:1.每次执行的结果都一样,所以不能每天给孩子出3 ...
Python：装饰器的简单理解
1.装饰器的本质是函数,主要用来装饰其他函数,也就是为其他函数添加附加功能 2.装饰器的原则: (1) 装饰器不能修改被装饰的函数的源代码 (2) 装饰器不能修改被装饰的函数的调用方式 3.实现装饰器 ...
java调试器
javac.exe是编译.java文件 java.exe是执行编译好的.class文件 javadoc.exe是生成Java说明文档 jdb.exe是Java调试器 javaprof.exe是剖析工具 ...
继承&构造函数
子父类中的构造函数的特点. 在子类构造对象时,发现,访问子类构造函数时,父类也运行了. 为什么呢? 原因是:在子类的构造函数中第一行有一个默认的隐式语句. super(); 子类的实例化过程:子类中所 ...
QXmlStreamReader/QXmlStreamWriter实现Qt下xml文件读写
版权声明:若无来源注明,Techie亮博客文章均为原创. 转载请以链接形式标明本文标题和地址: 本文标题:QXmlStreamReader/QXmlStreamWriter实现Qt下xml文件读写 ...

tf.train.batch的偶尔乱序问题

tf.train.batch的偶尔乱序问题

tf.train.batch的偶尔乱序问题

然而tf.train.batch函数往往会有偶尔乱序的情况

实验结果

解决方案

tf.train.batch的偶尔乱序问题的更多相关文章

随机推荐

热门专题