tensorflow批量读取数据

Tensorflow 数据读取有三种方式：

Preloaded data: 预加载数据，在TensorFlow图中定义常量或变量来保存所有数据(仅适用于数据量比较小的情况)。

Feeding: Python产生数据，再把数据喂给后端。TensorFlow程序运行的每一步，让Python代码来供给数据。

Reading from file: 从文件中直接读取，在TensorFlow图的起始，让一个输入管线从文件中读取数据。

（https://www.cnblogs.com/jyxbk/p/7773319.html

https://blog.csdn.net/XUEER88888888888888/article/details/86666614

https://www.cnblogs.com/zyly/p/8982335.html

https://blog.csdn.net/chenghtao/article/details/82110434

https://www.cnblogs.com/jyxbk/p/7773319.html

https://www.sogou.com/link?url=DSOYnZeCC_rR_TP93bdO6NeXnRkLS7fcqFq8n02wCL9Pp37pjYjVUJBPmYRRn48s

https://blog.csdn.net/christianashannon/article/details/78966048

）

         对于数据量较小而言，可能一般选择直接将数据加载进内存，然后再分batch输入网络进行训练（tip:使用这种方法时，结合yield 使用更为简洁，大家自己尝试一下吧，我就不赘述了）。但是，如果数据量较大，这样的方法就不适用了，因为太耗内存，所以这时最好使用tensorflow提供的队列queue，也就是第二种方法 从文件读取数据。对于一些特定的读取，比如csv文件格式，官网有相关的描述，在这儿我介绍一种比较通用，高效的读取方法（官网介绍的少），即使用tensorflow内定标准格式——TFRecords

    TensorFlow提供了一个队列机制，通过多线程将读取数据与计算数据分开。因为在处理海量数据集的训练时，无法把数据集一次全部载入到内存中，需要一边从硬盘中读取，一边进行训练，为了加快训练速度，我们可以采用多个线程读取数据，一个线程消耗数据。（队列：https://www.jianshu.com/p/d063804fb272）

TensorFlow里与Queue有关的概念和用法。

其实概念只有三个：

Queue是TF队列和缓存机制的实现

QueueRunner是TF中对操作Queue的线程的封装

Coordinator是TF中用来协调线程运行的工具

Queue

根据实现的方式不同，分成具体的几种类型，例如：

tf.FIFOQueue 按入列顺序出列的队列

tf.RandomShuffleQueue 随机顺序出列的队列

tf.PaddingFIFOQueue 以固定长度批量出列的队列

tf.PriorityQueue 带优先级出列的队列

... ...

这些类型的Queue除了自身的性质不太一样外，创建、使用的方法基本是相同的。

创建函数的参数：

tf.FIFOQueue(capacity, dtypes, shapes=None, names=None ...)

Queue主要包含入列（enqueue）和出列（dequeue）两个操作。enqueue操作返回计算图中的一个Operation节点，dequeue操作返回一个Tensor值。Tensor在创建时同样只是一个定义（或称为“声明”），需要放在Session中运行才能获得真正的数值。（详细请参考：https://blog.csdn.net/fegang2002/article/details/82949863）下面是一个单独使用Queue的例子：

import tensorflow as tf

import os

os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

tf.InteractiveSession()

q = tf.FIFOQueue(2, "float")

init = q.enqueue_many(([0,0],))

x = q.dequeue()

y = x+1

q_inc = q.enqueue([y])

init.run()

q_inc.run()

q_inc.run()

q_inc.run()

x.eval() # 返回1

x.eval() # 返回2

x.eval() # 卡住

如果一次性入列超过Queue Size的数据，enqueue操作会卡住，直到有数据（被其他线程）从队列取出。对一个已经取空的队列使用dequeue操作也会卡住，直到有新的数据（从其他线程）写入

QueueRunner

Tensorflow的计算主要在使用CPU/GPU和内存，而数据读取涉及磁盘操作，速度远低于前者操作。因此通常会使用多个线程读取数据，然后使用一个线程消费数据。QueueRunner就是来管理这些读写队列的线程的。

QueueRunner需要与Queue一起使用（这名字已经注定了它和Queue脱不开干系），但并不一定必须使用Coordinator。看下面这个例子：

增加计数的进程会不停的后台运行，执行入队的进程会先执行10次（因为队列长度只有10），然后主线程开始消费数据，当一部分数据消费被后，入队的进程又会开始执行。最终主线程消费完20个数据后停止，但其他线程继续运行，程序不会结束。

tensorflow批量读取数据的更多相关文章

Tensorflow高效读取数据
关于Tensorflow读取数据,官网给出了三种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码来供给数据. 从文件读取数据: 在TensorFlow ...
Tensorflow高效读取数据的方法
最新上传的mcnn中有完整的数据读写示例,可以参考. 关于Tensorflow读取数据,官网给出了三种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码 ...
TensorFlow高效读取数据的方法——TFRecord的学习
关于TensorFlow读取数据,官网给出了三种方法: 供给数据(Feeding):在TensorFlow程序运行的每一步,让python代码来供给数据. 从文件读取数据:在TensorFlow图的起 ...
python接口自动化测试--批量读取数据
为了便于维护,python接口自动化测试用例可以利用xlrd模块读取excal表格进行数据分离.我们可以利用xlrd模块的row_values()和cell_value()两种方法读取Excal表格. ...
jmeter从表格批量读取数据（一）
1.新建一个文本文档,重命名为2.csv 2.可以在文档中设置如下参数:casenum:用例编号:url:访问路径:para:访问的域名:function:请求方式:expectValue:响应值 3 ...
通过POI实现上传EXCEL的批量读取数据写入数据库
最近公司新增功能要求导入excel,并读取其中数据批量写入数据库.于是就开始了这个事情,之前的文章,记录了上传文件,本篇记录如何通过POI读取excel数据并封装为对象上传. 上代码: 1.首先这是一 ...
吴裕雄 PYTHON 神经网络——TENSORFLOW MNIST读取数据
from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets("E ...
第十二节，TensorFlow读取数据的几种方法以及队列的使用
TensorFlow程序读取数据一共有3种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码来供给数据. 从文件读取数据: 在TensorFlow图的起 ...
TensorFlow queue多线程读取数据
一.tensorflow读取机制图解我们必须要把数据先读入后才能进行计算,假设读入用时0.1s,计算用时0.9s,那么就意味着每过1s,GPU都会有0.1s无事可做,这就大大降低了运算的效率. 解决 ...

随机推荐

[RN] React Native 实现图片预览
[RN] React Native 实现图片预览效果预览: 代码如下: 'use strict'; import React, {Component} from 'react'; import {I ...
PATA1031 Hello World for U
参考代码: #include <cstdio> #include <cstring> int main() { char str[100], ans[40][40]; scan ...
原生 JS 实现最简单的图片懒加载
懒加载什么是懒加载懒加载其实就是延迟加载,是一种对网页性能优化的方式,比如当访问一个页面的时候,优先显示可视区域的图片而不一次性加载所有图片,当需要显示的时候再发送图片请求,避免打开网页时加载过多 ...
使用socket.io实现简单的聊天功能
Socket.io实际上是WebSocket的父集,Socket.io封装了WebSocket和轮询等方法首先得在你的项目中安装socket.io $ npm install socket.io 服 ...
Apache的安装部署 2（加密认证，网页重写，搭建论坛）
一.http和https的基本理论知识1. 关于https: HTTPS(全称:Hypertext Transfer Protocol Secure,超文本传输安全协议),是以安全为目标的HTTP通道 ...
Docker环境下的前后端分离项目部署与运维（六）搭建MySQL集群
单节点数据库的弊病大型互联网程序用户群体庞大,所以架构必须要特殊设计单节点的数据库无法满足性能上的要求单节点的数据库没有冗余设计,无法满足高可用单节点MySQL的性能瓶领颈 2016年春节微信 ...
tcp & 长连接短连接
参考文档: tcp协议 http://blog.chinaunix.net/uid-26833883-id-3627644.html 长连接和短连接 http://blog.csdn.net/free ...
聊一聊 JS 输出为 [object object] 是怎么回事？
聊一聊 JS 输出为 [object object] 是怎么回事? 今天在学习ES6中的 Symbol 数据类型时,在写demo时控制台输出为 Symbol[object object] ,当时有点疑 ...
Jumpserver 5.2版本安装与部署
组件说明 Jumpserver 为管理后台, 管理员可以通过 Web 页面进行资产管理.用户管理.资产授权等操作, 用户可以通过 Web 页面进行资产登录, 文件管理等操作 koko 为 SSH Se ...
mapreduce 变量共享
mapreduce 全局变量共享在编写MapReduce程序时,经常会遇到这样的问题,全局变量如何保存?如何让每个处理都能获取保存的这些全局变量?使用全局变量是不可避免的,但是在MapRdeuce ...

tensorflow批量读取数据

tensorflow批量读取数据的更多相关文章

随机推荐

热门专题