tensorflow的数据输入

tensorflow有两种数据输入方法，比较简单的一种是使用feed_dict，这种方法在画graph的时候使用placeholder来站位，在真正run的时候通过feed字典把真实的输入传进去。比较简单不再介绍。

比较恼火的是第二种方法，直接从文件中读取数据（其实第一种也可以我们自己从文件中读出来之后使用feed_dict传进去，但方法二tf提供很完善的一套类和函数形成一个类似pipeline一样的读取线）：
1.使用tf.train.string_input_producer函数把我们需要的全部文件打包为一个tf内部的queue类型，之后tf开文件就从这个queue中取目录了，要注意一点的是这个函数的shuffle参数默认是True，也就是你传给他文件顺序是1234，但是到时候读就不一定了，我一开始每次跑训练第一次迭代的样本都不一样，还纳闷了好久，就是这个原因。

files_in = ["./data/data_batch%d.bin" % i for i in range(1, 6)]

files = tf.train.string_input_producer(files_in)

2.搞一个reader，不同reader对应不同的文件结构，比如度bin文件tf.FixedLengthRecordReader就比较好，因为每次读等长的一段数据。如果要读什么别的结构也有相应的reader。

reader = tf.FixedLengthRecordReader(record_bytes=1+32*32*3)

3.用reader的read方法，这个方法需要一个IO类型的参数，就是我们上边string_input_producer输出的那个queue了，reader从这个queue中取一个文件目录，然后打开它经行一次读取，reader的返回是一个tensor（这一点很重要，我们现在写的这些读取代码并不是真的在读数据，还是在画graph，和定义神经网络是一样的，这时候的操作在run之前都不会执行，这个返回的tensor也没有值，他仅仅代表graph中的一个结点）。

key, value = reader.read(files)

4.对这个tensor做些数据与处理，比如CIFAR1-10中label和image数据是糅在一起的，这里用slice把他们切开，切成两个tensor（注意这个两个tensor是对应的，一个image对一个label，对叉了后便训练就完了），然后对image的tensor做data augmentation。

data = tf.decode_raw(value, tf.uint8)

label = tf.cast(tf.slice(data, [0], [1]), tf.int64)

raw_image = tf.reshape(tf.slice(data, [1], [32*32*3]), [3, 32, 32])

image = tf.cast(tf.transpose(raw_image, [1, 2, 0]), tf.float32)

lr_image = tf.image.random_flip_left_right(image)

br_image = tf.image.random_brightness(lr_image, max_delta=63)

rc_image = tf.image.random_contrast(br_image, lower=0.2, upper=1.8)

std_image = tf.image.per_image_standardization(rc_image)

5.这时候可以发现，这个tensor代表的是一个样本（[高宽管道]），但是训练网络的时候的输入一般都是一推样本（[样本数高宽*管道]），我们就要用tf.train.batch或者tf.train.shuffle_batch这个函数把一个一个小样本的tensor打包成一个高一维度的样本batch，这些函数的输入是单个样本，输出就是4D的样本batch了，其内部原理似乎是创建了一个queue，然后不断调用你的单样本tensor获得样本，直到queue里边有足够的样本，然后一次返回一堆样本，组成样本batch。

images, labels = tf.train.batch([std_image, label],

                           batch_size=100,

                           num_threads=16,

                           capacity=int(50000* 0.4 + 3 * batch_size))

5.事实上一直到上一部的images这个tensor，都还没有真实的数据在里边，我们必须用Session run一下这个4D的tensor，才会真的有数据出来。这个原理就和我们定义好的神经网络run一下出结果一样，你一run这个4D tensor，他就会顺着自己的operator找自己依赖的其他tensor，一路最后找到最开始reader那里。

除了上边讲的原理，其中还要注意几点
1.tf.train.start_queue_runners(sess=sess)这一步一定要运行，且其位置要在定义好读取graph之后，在真正run之前，其作用是把queue里边的内容初始化，不跑这句一开始string_input_producer那里就没用，整个读取流水线都没用了。

training_images = tf.train.batch(XXXXXXXXXXXXXXX)

tf.train.start_queue_runners(sess=self.sess)

real_images = sess.run(training_images)

2.image和label一定要一起run，要记清楚我们的image和label是在一张graph里边的，跑一次那个graph，这两个tensor都会出结果，且同一次跑出来的image和label才是对应的，如果你run两次，第一次为了拿image第二次为了拿label，那整个就叉了，因为第一次跑出来第0到100号image和0到100号label，第二次跑出来第100到200的image和第100到200的label，你拿到了0~100的image和100~200的label，整个样本分类全不对，最后网络肯定跑不出结果。

training_images, training_labels = read_image()

tf.train.start_queue_runners(sess=self.sess)

real_images = sess.run(training_images) # 读出来是真的图片，但是和label对不上

real_labels = sess.run(training_labels) # 读出来是真的label，但是和image对不上

# 正确调用方法，通过跑一次graph，将成套的label和image读出来

real_images, real_labels = sess.run([training_images, training_labels])

tensorflow的数据输入的更多相关文章

第十二节，TensorFlow读取数据的几种方法以及队列的使用
TensorFlow程序读取数据一共有3种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码来供给数据. 从文件读取数据: 在TensorFlow图的起 ...
TensorFlow中数据读取之tfrecords
关于Tensorflow读取数据,官网给出了三种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码来供给数据. 从文件读取数据: 在TensorFlow ...
tensorflow之数据读取探究(2)
tensorflow之tfrecord数据读取 Tensorflow关于TFRecord格式文件的处理.模型的训练的架构为: 1.获取文件列表.创建文件队列:http://blog.csdn.net/ ...
tensorflow之数据读取探究(1)
Tensorflow中之前主要用的数据读取方式主要有: 建立placeholder,然后使用feed_dict将数据feed进placeholder进行使用.使用这种方法十分灵活,可以一下子将所有数据 ...
由浅入深之Tensorflow(3)----数据读取之TFRecords
转载自http://blog.csdn.net/u012759136/article/details/52232266 原文作者github地址概述关于Tensorflow读取数据,官网给出了三种 ...
关于Tensorflow 的数据读取环节
Tensorflow读取数据的一般方式有下面3种: preloaded直接创建变量:在tensorflow定义图的过程中,创建常量或变量来存储数据 feed:在运行程序时,通过feed_dict传入数 ...
tensorflow学习--数据加载
文章主要来自Tensorflow官方文档,同时加入了自己的理解以及部分代码数据读取 TensorFlow程序读取数据一共有3种方法: 供给数据(Feeding): 在TensorFlow程序运行的每 ...
模拟Select-Options对象实现多项数据输入功能
模拟Select-Options对象实现多项数据输入功能 Select-Options对象可以同时输入多项值并将所输入数据存入内表以供程序使用,不过Select-Options的功能有一定的局限 ...
Web 软件测试 Checklist 应用系列，第 1 部分: 数据输入
Web 软件测试 Checklist 应用系列,第 1 部分: 数据输入本文为系列文章"Web 软件测试 Checklist 应用系列"中的第一篇.该系列文章旨在阐述 Check ...

随机推荐

通过已有Nginx镜像创建私有仓库
想搭建一个私有的Docker仓库,查看了各种资料,大多是使用Nginx做代理.但是因为对于Nginx不熟悉,各种关于权限认证的问题,折腾了两天也没有搞定.后来无意在网上看到一篇使用已有镜像的方法,最终 ...
【剑指offer】斐波那契序列与跳台阶
转载请注明出处:http://blog.csdn.net/ns_code/article/details/25337983 剑指offer上的第9题,简单题,在九度OJ上測试通过. 主要注意下面几点: ...
P3202 [HNOI2009]通往城堡之路神仙题
这个题不是坑人吗...写个tarjan标签,然后拿这么个神仙题来搞...代码有点看不懂,有兴趣的可以去洛谷题解区看看,懒得想了. 题干: 题目描述听说公主被关押在城堡里,彭大侠下定决心:不管一路上有 ...
PCB 钻孔补偿那点事
没有优秀的个人,只有优秀的团队,在团队共同的协作下,PCB CAM自动化[net处理]与[钻孔处理] 第一阶段开发项完成了,,后续工作可以转向PCB规则引擎开发了.这里说说PCB工程钻孔补偿的那点事, ...
E20170619-hm
bucket n. 水桶; open hash [词典] [计] 开放散列,开混列; spirit n. 精神,心灵; 情绪; 勇气; 精髓; flesh n. 肉; 肉体; 果肉; 皮 ...
mybatis传参问题总结
一. 传入单个参数当传入的是单个参数时,方法中的参数名和sql语句中参数名一致即可 List<User> getUser(int id); <select id="get ...
.net C# 格式化时间
1.HtmlEncode="False" 2.DataFormatString="{0:d}" C#格式化日期时间 DateTime dt = DateTime ...
题解报告：hdu 1846 Brave Game（巴什博弈）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1846 Problem Description 十年前读大学的时候,中国每年都要从国外引进一些电影大片, ...
Unity Toast插件(UGUI版)
简介介于自己之前经历的一些开发过程,非常希望unity能有类似Toast的功能用于一些简单的信息显示.但是找来找去找了半天,都木有发现,实在是憋不住了,自己写了个,感觉还可以用,发出来共享一下... ...
Hive扩展功能(一)--Parquet
软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为centos ...

tensorflow的数据输入

tensorflow的数据输入的更多相关文章

随机推荐

热门专题