TensorFlow中数据读取—如何载入样本

　　考虑到要是自己去做一个项目，那么第一步是如何把数据导入到代码中，何种形式呢？是否需要做预处理？官网中给的实例mnist，数据导入都是写好的模块，那么自己的数据呢？

　　一、从文件中读取数据（CSV文件、二进制文件、图片或其他格式）

　　读取文件，都需要一个阅读器reader和一个转换解码操作decode，不同格式的文件对应不同的接口API。

　　1）CSV文件：用的文件读取器和解码器是 TextLineReader 和 decode_csv 。　下面代码来自TensorFlow官网，加了注释。

filename_queue = tf.train.string_input_producer(["file0.csv", "file1.csv"])

#["file0.csv", "file1.csv"]是文件名列表，tf.train.string_input_producer()用来生成文件名队列，有参数shuffle=True可执行乱序，num_epochs=None可设置文件名字符串的生成次数
#对于输入管道，输出文件名字符串到队列中

reader = tf.TextLineReader()#阅读器，个人感觉功能同Python的open()。

key, value = reader.read(filename_queue)#参数是文件名队列，返回一个tuple，key和value，每次返回阅读器的下一条记录（一行）。

# Default values, in case of empty columns. Also specifies the type of the

# decoded result.

record_defaults = [[1], [1], [1], [1], [1]] #定义解析的格式

col1, col2, col3, col4, col5 = tf.decode_csv(

    value, record_defaults=record_defaults)

#将CSV解析为tensor，每列映射为一个tensor，返回一个tensor列表。

features = tf.concat(0, [col1, col2, col3, col4])

#0代表按行合并。参数1是在哪个维度合并，参数2是待合并的值。

with tf.Session() as sess:

  # Start populating the filename queue.

  coord = tf.train.Coordinator()  #创建一个线程协调器

  threads = tf.train.start_queue_runners(coord=coord)  #启动Graph中所有队列的线程

  for i in range(1200):

    # Retrieve a single instance:

    example, label = sess.run([features, col5])

    #运行，获取样本和标签

  coord.request_stop()  #请求停止所有线程

  coord.join(threads)  #等待线程结束

　　2）二进制文件：用的文件读取器和解码器是 tf.FixedLengthRecordReader 和 tf.decode_raw ，读取固定长度的文件。

　　decode_raw操作可以将一个字符串转换为一个uint8的张量。

　　3）标准TensorFlow格式：

　　可以将任意的数据转换为TensorFlow所支持的格式，这种方法可以使TensorFlow的数据集更容易与网络应用架构相匹配。方法就是使用TFRecords文件。

　　写入数据后，通过修改 tf.train.Example 的Features，将 protocol buffer 序列化为一个字符串，再通过 tf.python_io.TFRecordWriter 将序列化的字符串写入 TFRecords文件中。使用tf.TFRecordReader和tf.parse_single_example解析器，可以从TFRecords文件中读取数据。这个parse_single_example操作可以将 protocol buffer 解析为张量。

　　二、供给数据feed_dict参数

　　定义了operation之后，使用sess.run()或tensor.eval()或op.run()时，通过参数feed_dict传递数据，该参数是和placeholder配套使用的。先声明一个占位符，比如x,y。然后在op中使用了x,y进行计算，等到op.run()时，op.run(feed_dict={x:x_batch,y:y_batch})即可。前提是x_batch和y_batch已知，已有数据。

TensorFlow中数据读取—如何载入样本的更多相关文章

TensorFlow中数据读取之tfrecords
关于Tensorflow读取数据,官网给出了三种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码来供给数据. 从文件读取数据: 在TensorFlow ...
tensorflow之数据读取探究(1)
Tensorflow中之前主要用的数据读取方式主要有: 建立placeholder,然后使用feed_dict将数据feed进placeholder进行使用.使用这种方法十分灵活,可以一下子将所有数据 ...
Tensorflow学习-数据读取
Tensorflow数据读取方式主要包括以下三种 Preloaded data:预加载数据 Feeding: 通过Python代码读取或者产生数据,然后给后端 Reading from file: 通 ...
『TensorFlow』数据读取类_data.Dataset
一.资料参考原文: TensorFlow全新的数据读取方式:Dataset API入门教程 API接口简介: TensorFlow的数据集二.背景注意,在TensorFlow 1.3中,Data ...
tensorflow之数据读取探究(2)
tensorflow之tfrecord数据读取 Tensorflow关于TFRecord格式文件的处理.模型的训练的架构为: 1.获取文件列表.创建文件队列:http://blog.csdn.net/ ...
由浅入深之Tensorflow(3)----数据读取之TFRecords
转载自http://blog.csdn.net/u012759136/article/details/52232266 原文作者github地址概述关于Tensorflow读取数据,官网给出了三种 ...
关于Tensorflow 的数据读取环节
Tensorflow读取数据的一般方式有下面3种: preloaded直接创建变量:在tensorflow定义图的过程中,创建常量或变量来存储数据 feed:在运行程序时,通过feed_dict传入数 ...
机器学习: TensorFlow 的数据读取与TFRecords 格式
最近学习tensorflow,发现其读取数据的方式看起来有些不同,所以又重新系统地看了一下文档,总得来说,tensorflow 有三种主流的数据读取方式: 1) 传送 (feeding): Pytho ...
TensorFlow的数据读取机制
一.tensorflow读取机制图解首先需要思考的一个问题是,什么是数据读取?以图像数据为例,读取的过程可以用下图来表示假设我们的硬盘中有一个图片数据集0001.jpg,0002.jpg,0003 ...

随机推荐

python-列表list和元组tuple
list Python内置的一种数据类型是列表:list.list是一种有序的集合,可以随时添加和删除其中的元素. 比如,列出班里所有同学的名字,就可以用一个list表示: >>> ...
csv文件的写操作
import csv sumbmit_csv_path = "submit_have_valid_SGD.csv" with open(sumbmit_csv_path, &quo ...
css外边距重叠及避免方法
<html lang="en"> <head> <meta charset="UTF-8"> <meta name=& ...
题解-洛谷P4229 某位歌姬的故事
题面洛谷P4229 某位歌姬的故事 \(T\) 组测试数据.有 \(n\) 个音节,每个音节 \(h_i\in[1,A]\),还有 \(m\) 个限制 \((l_i,r_i,g_i)\) 表示 \( ...
2020高考倒计时！全屏向下滑动设计HTML源码
全屏竖向滑动效果,自适应,多终端全国高考倒计时,音乐自动播放. 背景图片:img目录下替换bg.jpg 背景音乐:audio目录下替换song.mp3 原本按照正常情况下每年的6月7.8日就是全国 ...
容器编排系统之Kubectl工具的基础使用
前文我们了解了k8s的架构和基本的工作过程以及测试环境的k8s集群部署,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/14126750.html:今天我们主要来 ...
设置定时任务用rman删除归档日志脚本
之前使用数据库数据迁移过程中出现产生大量归档日志的情况(由于迁移的目标库是DG,必须开启归档). 为避免出现归档空间爆掉的情况,设置定时任务删除系统当前时间30分钟前的归档日志,脚本如下: cat d ...
重写Laravel异常处理类
现在开发前后端分离变得越来越流行了,后端只提供接口返回json格式的数据,即使是错误信息也要以json格式来返回,然而目前无论是Laravel框架还是ThinkPHP框架,都只提供了返回json数据的 ...
仵航说 SpringBoot项目配置Log日志服务-仵老大
今天领导让我配置一个log日志服务,我哪里见过哟,然后就去百度了,结果挨个试下去,找到了一个能用的,分享给大家大致四个地方分别是 1.pom文件需要引入依赖 2.创建一个TestLog类 3.在y ...
【Python 1-8】Python手把手教程之——管理列表List
遍历列表在日常开发中,我们经常需要遍历列表的所有元素,对每个元素执行相同的操作.例如,在管理商场的蔬菜时候,需要给所有的蔬菜商品都打7折,并重新生成价格.当我们需要对列表中的每个元素都执行相同的操作 ...

TensorFlow中数据读取—如何载入样本

TensorFlow中数据读取—如何载入样本的更多相关文章

随机推荐

热门专题