tf.contrib.slim.data数据加载（1） reader

　　reader：适用于原始数据数据形式的Tensorflow Reader

　　在库中parallel_reader.py是与reader相关的，它使用多个reader并行处理来提高速度，但文件中定义的类是继承自基类，所以我们先看基类的功能。

class ParallelReader(io_ops.ReaderBase):

基类

　　基类是各种不同类型reader的基类，它将'work unit'转换为record，比较典型的’work unit'是文件名，records（键值对形式）就是从这些文件中提取的内容。我们想要每一步只产生一个record，但是显然一个'work unit'可能对应多个record，所以我们需要一个存储'work unit'的queue，只有reader读取完一个‘work unit'中所有record之后，它才能获取下一个'work unit'。

　　基类首先使用了一个装饰器，装饰器的主要功能是输出装饰的函数到TF的api，装饰的函数功能不受影响，所以我们可以不用关注它。

@tf_export("ReaderBase")
class ReaderBase(object):

　　基类初始化函数检查是否支持eager execution，初始化类变量。

def __init__(self, reader_ref, supports_serialize=False):
    if context.executing_eagerly():
      raise RuntimeError(
          "Readers are not supported when eager execution is enabled. "
          "Instead, please use tf.data to get data into your model.")

    self._reader_ref = reader_ref #实现reader的op
    self._supports_serialize = supports_serialize #reader是否支持序列化状态

　　read函数会返回一个record。

def read(self, queue, name=None):
    if isinstance(queue, ops.Tensor):
      queue_ref = queue
    else:
      queue_ref = queue.queue_ref
    if self._reader_ref.dtype == dtypes.resource:
      return gen_io_ops.reader_read_v2(self._reader_ref, queue_ref, name=name)
    else:
      # For compatibility with pre-resource queues, create a ref(string) tensor
      # which can be looked up as the same queue by a resource manager.
      old_queue_op = gen_data_flow_ops.fake_queue(queue_ref)
      return gen_io_ops.reader_read(self._reader_ref, old_queue_op, name=name)

　　read_up_to函数返回指定数量的records。

def read_up_to(self, queue, num_records, name=None):
    if isinstance(queue, ops.Tensor):
      queue_ref = queue
    else:
      queue_ref = queue.queue_ref
    if self._reader_ref.dtype == dtypes.resource:
      return gen_io_ops.reader_read_up_to_v2(self._reader_ref,
                                             queue_ref,
                                             num_records,
                                             name=name)
    else:
      # For compatibility with pre-resource queues, create a ref(string) tensor
      # which can be looked up as the same queue by a resource manager.
      old_queue_op = gen_data_flow_ops.fake_queue(queue_ref)
      return gen_io_ops.reader_read_up_to(self._reader_ref,
                                          old_queue_op,
                                          num_records,
                                          name=name)

　　num_records_produced函数返回已经产生的record数量。

def num_records_produced(self, name=None):
    if self._reader_ref.dtype == dtypes.resource:
      return gen_io_ops.reader_num_records_produced_v2(self._reader_ref,
                                                       name=name)
    else:
      return gen_io_ops.reader_num_records_produced(self._reader_ref,
                                                    name=name)

　　num_work_units_completed函数返回已经完成的work units数量。

def num_work_units_completed(self, name=None):
    if self._reader_ref.dtype == dtypes.resource:
      return gen_io_ops.reader_num_work_units_completed_v2(self._reader_ref,
                                                           name=name)
    else:
      return gen_io_ops.reader_num_work_units_completed(self._reader_ref,
                                                        name=name)

　　serialize_state函数产生编码reader状态的一个string tensor。

def serialize_state(self, name=None):
    if self._reader_ref.dtype == dtypes.resource:
      return gen_io_ops.reader_serialize_state_v2(self._reader_ref, name=name)
    else:
      return gen_io_ops.reader_serialize_state(self._reader_ref, name=name)

　　restore_state函数将reader状态加载为指定状态。

def restore_state(self, state, name=None):
    if self._reader_ref.dtype == dtypes.resource:
      return gen_io_ops.reader_restore_state_v2(
          self._reader_ref, state, name=name)
    else:
      return gen_io_ops.reader_restore_state(self._reader_ref, state, name=name)

　　reset_state函数将reader状态重置。

def reset(self, name=None):
    if self._reader_ref.dtype == dtypes.resource:
      return gen_io_ops.reader_reset_v2(self._reader_ref, name=name)
    else:
      return gen_io_ops.reader_reset(self._reader_ref, name=name)

　　还有supports_serialize函数和reader_ref函数则是返回相应类变量，至此基类中所有的函数都已经介绍完毕，可以看到，主要实现reader功能的是reader函数，其他函数则是查看reader状态。（由于gen_io_ops为c++代码实现，这里不予介绍。）

Parallel_reader

　　Parallel_reader是并行使用多个reader提高速度，它的构造函数利用参数构造多个reader，每个reader并行地读取不同的文件，异步地将文件入队到队列（common_queue）中。对列中dtypes必须是[tf.string, tf.string]。

def __init__(self,
               reader_class,
               common_queue,
               num_readers=4,
               reader_kwargs=None):
    if len(common_queue.dtypes) != 2:
      raise TypeError('common_queue.dtypes must be [tf.string, tf.string]')
    for dtype in common_queue.dtypes:
      if not dtype.is_compatible_with(tf_dtypes.string):
        raise TypeError('common_queue.dtypes must be [tf.string, tf.string]')

    reader_kwargs = reader_kwargs or {}
    self._readers = [reader_class(**reader_kwargs) for _ in range(num_readers)]
    self._common_queue = common_queue

　　read函数用QueueRunner执行入队操作后，再从队列中返回一个record。

def read(self, queue, name=None):
    self._configure_readers_by(queue)
    return self._common_queue.dequeue(name=name)

　　read_up_to函数是返回多个record。

def read_up_to(self, queue, num_records, name=None):
    self._configure_readers_by(queue)
    return self._common_queue.dequeue_up_to(num_records, name)

def _configure_readers_by(self, queue):
    enqueue_ops = []
    for reader in self._readers:
      enqueue_ops.append(self._common_queue.enqueue(reader.read(queue)))

    queue_runner.add_queue_runner(
        queue_runner.QueueRunner(self._common_queue, enqueue_ops))

　　num_records_produced函数和num_work_units_completed函数，这两个函数功能和基类中同名函数一样。

def num_records_produced(self, name=None):
    num_records = [r.num_records_produced() for r in self._readers]
    return math_ops.add_n(num_records, name=name)

def num_work_units_completed(self, name=None):
    num_work_units = [r.num_work_units_completed() for r in self._readers]
    return math_ops.add_n(num_work_units, name=name)

　　num_readers函数和common_queue函数则是返回相关属性，至此Parallel_reader函数中所有函数就全部介绍完了，可以看出它的主要作用只是对多个reader的工作使用多线程处理。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　最新一次编辑在：21:36:28 2018-07-16　　　　　

tf.contrib.slim.data数据加载（1） reader的更多相关文章

tf.contrib.slim.data数据加载综述
TF-Slim为了方便加载各种数据类型(如TFRocords或者文本文件)的数据,创建了这个库. Dataset 这里的数据库与通常意义下数据库是不同的,这里数据库是python一个类,它负责将原始数 ...
iOS教程：如何使用Core Data – 预加载和引入数据
这是接着上一次<iOS教程:Core Data数据持久性存储基础教程>的后续教程,程序也会使用上一次制作完成的. 再上一个教程中,我们只做了一个数据模型,之后我们使用这个数据模型中的数据创 ...
spark SQL（三）数据源 Data Source----通用的数据加载/保存功能
Spark SQL 的数据源------通用的数据加载/保存功能 Spark SQL支持通过DataFrame接口在各种数据源上进行操作.DataFrame可以使用关系变换进行操作,也可以用来创建临 ...
Tensorflow 2.0 datasets数据加载
导入包 import tensorflow as tf from tensorflow import keras 加载数据 tensorflow可以调用keras自带的datasets,很方便,就是有 ...
tensorflow学习--数据加载
文章主要来自Tensorflow官方文档,同时加入了自己的理解以及部分代码数据读取 TensorFlow程序读取数据一共有3种方法: 供给数据(Feeding): 在TensorFlow程序运行的每 ...
python多种格式数据加载、处理与存储
多种格式数据加载.处理与存储实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...
flask+sqlite3+echarts3+ajax 异步数据加载
结构: /www | |-- /static |....|-- jquery-3.1.1.js |....|-- echarts.js(echarts3是单文件!!) | |-- /templates ...
浅谈Entity Framework中的数据加载方式
如果你还没有接触过或者根本不了解什么是Entity Framework,那么请看这里http://www.entityframeworktutorial.net/EntityFramework-Arc ...
实现虚拟模式的动态数据加载Windows窗体DataGridView控件 .net 4.5 （一）
实现虚拟模式的即时数据加载Windows窗体DataGridView控件 .net 4.5 原文地址 :http://msdn.microsoft.com/en-us/library/ms171624 ...

随机推荐

KMP字符串模式匹配算法（C++实现）
鉴于原理有点复杂,详细原理可以参考这篇文章http://blog.csdn.net/v_july_v/article/details/7041827 本文直接从结论入手,应付考试和竞赛足够了. 设T为 ...
小白之微信小程序第一次完成搭建本地服务与页面进行交互
如果忘记了搭建json-server的过程,可看上一篇随笔 1. index.xml 代码  <swiper indicator-dots=&qu ...
Centos6.5 安装 python3.5 虚拟环境 virtualenvwrapper
Centos6.5 安装 python3.5 虚拟环境 virtualenvwrapper 1 . 安装 python3.5 下载:https://www.python.org/ https://ww ...
Elemant-UI日期范围的表单验证
Form 组件提供了表单验证的功能,只需要通过 rules 属性传入约定的验证规则,并将 Form-Item 的 prop 属性设置为需校验的字段名即可.但是官网的示例只有普通日期类型的验证,没有时间 ...
Centos 上部署 tomcat7
在 Centos 上部署 tomcat7 搜索tomcat,选下面红色框框的官网选箭头指着的版本7, 选 tar.gz 格式, 下载完压缩包,使用 ftpx 工具,放在 centos 的 /opt ...
Pytorch学习笔记（一）Numpy SciPy MatPlotlib Tutorial
英文原文链接:http://cs231n.github.io/python-numpy-tutorial/ Numpy Numpy是Python中科学计算的核心库.它提供了一个高性能的多维数组对象,以 ...
第十三节，OPenCV学习（二）图像的简单几何变换
图像的简单几何变换几何变换不改变图像的像素值,只是在图像平面上进行像素的重新安排适当的几何变换可以最大程度地消除由于成像角度.透视关系乃至镜头自身原因所造成的几何失真所产生的的负面影响. 一.图像 ...
Linux库多重依赖
源文件: //world.cpp #include <stdio.h> void world(void) { printf("world.\n"); } //hello ...
详解MariaDB数据库的存储过程
1.什么是存储过程很多时候,SQL语句都是针对一个或多个表的单条语句.但是也有时候有的查询语句需要进行多次联表查询才能完成,此时就需要用到存储过程了. 存储过程(Stored Procedure)是 ...
caffe服务器搭建血泪记录
装过很多次caffe了,但这个还是遇到了很多奇葩问题,不过以前都是在ubuntu上,这次是在centos上. 1.import error _caffe.so: undefined symbol: ...

tf.contrib.slim.data数据加载（1） reader

基类

Parallel_reader

tf.contrib.slim.data数据加载（1） reader的更多相关文章

随机推荐

热门专题