低效的IO方式

最近通过观察PAI平台上TensoFlow用户的运行情况，发现大家在数据IO这方面还是有比较大的困惑，主要是因为很多同学没有很好的理解本地执行TensorFlow代码和分布式云端执行TensorFlow的区别。本地读取数据是server端直接从client端获得graph进行计算，而云端服务server在获得graph之后还需要将计算下发到各个worker处理(具体原理可以参考视频教程-Tensorflow高级篇：https://tianchi.aliyun.com/competition/new_articleDetail.html)。

本文通过读取一个简单的CSV文件为例，帮助大家快速了解如何使用TensorFlow高效的读取数据。CSV文件如下：

1,1,1,1,1

2,2,2,2,2

3,3,3,3,3

首先我们来看下大家容易产生问题的几个地方。

1.不建议用python本地读取文件的方式

PAI支持Python的自带IO方式，但是需要将数据源和代码打包上传的方式使用，这种读取方式是将数据写入内存之后再计算，效率比较低，不建议使用。范例代码如下：

import csv

csv_reader=csv.reader(open('csvtest.csv'))

for row in csv_reader:

    print(row)

2.尽量不要用第三方库的读取文件方法

很多同学使用第三方库的一些数据IO的方式进行数据读取，比如TFLearn、Panda的数据IO方式，这些方法很多都是通过封装python的读取方式实现的，所以在PAI平台使用的时候也会造成效率低下问题。

3.尽量不要用preload的方式读取文件

很多人在用PAI的服务的时候表示GPU并没有比本地的CPU速度快的明显，主要问题可能就出在数据IO这块。preload的方式是先把数据全部都读到内存中，然后再通过session计算，比如feed的读取方式。这样要先进行数据读取，再计算，不同步造成性能浪费，同时因为内存限制也无法支持大数据量的计算。举个例子：假设我们的硬盘中有一个图片数据集0001.jpg，0002.jpg，0003.jpg……我们只需要把它们读取到内存中，然后提供给GPU或是CPU进行计算就可以了。这听起来很容易，但事实远没有那么简单。事实上，我们必须要把数据先读入后才能进行计算，假设读入用时0.1s，计算用时0.9s，那么就意味着每过1s，GPU都会有0.1s无事可做，这就大大降低了运算的效率。

下面我们看下高效的读取方式。

高效的IO方式

高效的TensorFlow读取方式是将数据读取转换成OP，通过session run的方式拉去数据。另外，读取线程源源不断地将文件系统中的图片读入到一个内存的队列中，而负责计算的是另一个线程，计算需要数据时，直接从内存队列中取就可以了。这样就可以解决GPU因为IO而空闲的问题！

下面我们看下代码，如何在PAI平台通过OP的方式读取数据：

import argparse

import tensorflow as tf

import os

FLAGS=None

def main(_):

    dirname = os.path.join(FLAGS.buckets, "csvtest.csv")

    reader=tf.TextLineReader()

    filename_queue=tf.train.string_input_producer([dirname])

    key,value=reader.read(filename_queue)

    record_defaults=[[''],[''],[''],[''],['']]

    d1, d2, d3, d4, d5= tf.decode_csv(value, record_defaults, ',')

    init=tf.initialize_all_variables()

    with tf.Session() as sess:

        sess.run(init)

        coord = tf.train.Coordinator()

        threads = tf.train.start_queue_runners(sess=sess,coord=coord)

        for i in range(4):

            print(sess.run(d2))

        coord.request_stop()

        coord.join(threads)

if __name__ == '__main__':

    parser = argparse.ArgumentParser()

    parser.add_argument('--buckets', type=str, default='',

                        help='input data path')

    parser.add_argument('--checkpointDir', type=str, default='',

                        help='output model path')

    FLAGS, _ = parser.parse_known_args()

    tf.app.run(main=main)

dirname:OSS文件路径，可以是数组，方便下一阶段shuffle
reader：TF内置各种reader API，可以根据需求选用
tf.train.string_input_producer：将文件生成队列
tf.decode_csv：是一个splite功能的OP，可以拿到每一行的特定参数
通过OP获取数据，在session中需要tf.train.Coordinator()和tf.train.start_queue_runners(sess=sess,coord=coord)

在代码中，我们的输入是3行5个字段：

1,1,1,1,1

2,2,2,2,2

3,3,3,3,3

我们循环输出4次，打印出第2个字段。结果如图：

输出结果也证明了数据结构是成队列。

其它

我的微信公众号（长期分享机器学习干货）：凡人机器学习
PAI notebook功能上线，支持在线修改代码并且内置各种深度学习框架，欢迎使用：https://data.aliyun.com/product/learn
强烈推荐视频教程：https://tianchi.aliyun.com/competition/new_articleDetail.html
本文参考了互联网上《十图详解TensorFlow数据读取机制（附代码）》一文，关于图片的读取方式也可以参考这篇文章，感谢原作者。

云端TensorFlow读取数据IO的高效方式的更多相关文章

[置顶] 云端TensorFlow读取数据IO的高效方式
低效的IO方式最近通过观察PAI平台上TensoFlow用户的运行情况,发现大家在数据IO这方面还是有比较大的困惑,主要是因为很多同学没有很好的理解本地执行TensorFlow代码和分布式云端执行T ...
第十二节，TensorFlow读取数据的几种方法以及队列的使用
TensorFlow程序读取数据一共有3种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码来供给数据. 从文件读取数据: 在TensorFlow图的起 ...
tensorflow读取数据的方式
转载:https://blog.csdn.net/u014038273/article/details/77989221 TensorFlow程序读取数据一共有四种方法(一般针对图像): 供给数据(F ...
TensorFlow读取数据的三种方法
tensortlfow数据读取有三种方式 placehold feed_dict:从内存中读取数据,占位符填充数据 queue队列:从硬盘读取数据 Dataset:同时支持内存和硬盘读取数据 plac ...
Tensorflow 载入数据的三种方式
Tensorflow 数据读取有三种方式: Preloaded data: 预加载数据 Feeding: Python产生数据,再把数据喂给后端. Reading from file: 从文件中直接读 ...
tensorflow读取数据
线程和队列在使用TensorFlow进行异步计算时,队列是一种强大的机制. 为了感受一下队列,让我们来看一个简单的例子.我们先创建一个“先入先出”的队列(FIFOQueue),并将其内部所有元素初始 ...
Tensorflow高效读取数据
关于Tensorflow读取数据,官网给出了三种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码来供给数据. 从文件读取数据: 在TensorFlow ...
TensorFlow高效读取数据的方法——TFRecord的学习
关于TensorFlow读取数据,官网给出了三种方法: 供给数据(Feeding):在TensorFlow程序运行的每一步,让python代码来供给数据. 从文件读取数据:在TensorFlow图的起 ...
Tensorflow高效读取数据的方法
最新上传的mcnn中有完整的数据读写示例,可以参考. 关于Tensorflow读取数据,官网给出了三种方法: 供给数据(Feeding): 在TensorFlow程序运行的每一步, 让Python代码 ...

随机推荐

C#基础：.NET环境下WebConfig的加密
在将ASP.NET项目部署到服务器上时,内网环境下Web.Config往往是直接复制过去.对于外网环境,则需要对Web.Config文件进行加密. .NET环境下一共提供了2种方式的加密功能,分别是D ...
2017CCPC中南地区赛 H题（最长路）
题目地址:202.197.224.59/OnlineJudge2/ 来自湘潭大学OJ. 这里用到了一个树的直径(树中的最长边)的结论:当你找到一棵树的最长边后,这个树中所有点的最长边必定和这条边的两个 ...
Python3组合数据类型（元组、列表、集合、字典）语法
一.序列类型(字符串,元组(),列表[]) 序列类型支持in,len(),分片[],迭代,5种内置序列类型:bytearray,bytes,list,str,tuple(元组). 1.元组可以嵌套(如 ...
在H3C交换机上开通一个VLAN并且开通一个端口ping通它
<H3C>system-view System View: return to User View with Ctrl+Z. [H3C]interface vlan-interface 2 ...
etcd raft library设计原理和使用
早在2013年11月份,在raft论文还只能在网上下载到草稿版时,我曾经写过一篇blog对其进行简要分析.4年过去了,各种raft协议的讲解铺天盖地,raft也确实得到了广泛的应用.其中最知名的应用莫 ...
Chrome浏览器扩展开发系列之十七：扩展中可用的chrome.events API
chrome.events中定义了一些常见的事件类型,可以供Chrome浏览器扩展程序发出对应的事件对象. 对于关注的事件,首先要通过addListener()在对应的事件上注册监听器,示例如下: c ...
Android系统--输入系统（十三）Dispatcher线程情景分析_Reader线程传递事件
Android系统--输入系统(十三)Dispatcher线程情景分析_Reader线程传递事件 1. 输入按键我们知道Android系统的按键分为三类:(1)Global Key;(2)Syste ...
updateByPrimaryKey和updateByPrimaryKeySelective insert和insertSelective
这两个update都是使用generator生成的mapper.xml文件中,对dao层的更新操作 updateByPrimaryKey对你注入的字段全部更新(不判断是否为Null) updateBy ...
与你们分享我学习linux系统的三大妙招
一说到linux,我们就自然会想到企业服务器系统,目前市场上的网络设备都是使用linux内核操作系统,一些网络服务器也是使用linux操作系统下面的服务搭建实现的:目前操作系统这块也基本被linux占 ...
Spring 自定义注解，配置简单日志注解
java在jdk1.5中引入了注解,spring框架也正好把java注解发挥得淋漓尽致. 下面会讲解Spring中自定义注解的简单流程,其中会涉及到spring框架中的AOP(面向切面编程)相关概念. ...

云端TensorFlow读取数据IO的高效方式