TensorFlow TFRecord封装不定长的序列数据（文本）

在实验室环境中，通常数据都是一次性导入内存的，然后使用手工写的数据mini-batch函数来切分数据，但是这样的做法在海量数据下显得不太合适：1）内存太小不足以将全部数据一次性导入；2）数据切分和模型训练之间无法异步，训练过程易受到数据mini-batch切分耗时阻塞。3）无法部署到分布式环境中去

下面的代码片段采取了TFrecord的数据文件格式，并且支持不定长序列，支持动态填充，基本可以满足处理NLP等具有序列要求的任务需求。

import tensorflow as tf

def generate_tfrecords(tfrecod_filename):

    sequences = [[1], [2, 2], [3, 3, 3], [4, 4, 4, 4], [5, 5, 5, 5, 5],

                 [1], [2, 2], [3, 3, 3], [4, 4, 4, 4]]

    labels = [1, 2, 3, 4, 5, 1, 2, 3, 4]

    with tf.python_io.TFRecordWriter(tfrecod_filename) as f:

        for feature, label in zip(sequences, labels):

            frame_feature = list(map(lambda id: tf.train.Feature(int64_list=tf.train.Int64List(value=[id])), feature))

            example = tf.train.SequenceExample(

                context=tf.train.Features(feature={

                    'label': tf.train.Feature(int64_list=tf.train.Int64List(value=[label]))}),

                feature_lists=tf.train.FeatureLists(feature_list={

                    'sequence': tf.train.FeatureList(feature=frame_feature)

                })

            )

            f.write(example.SerializeToString())

def single_example_parser(serialized_example):

    context_features = {

        "label": tf.FixedLenFeature([], dtype=tf.int64)

    }

    sequence_features = {

        "sequence": tf.FixedLenSequenceFeature([], dtype=tf.int64)

    }

    context_parsed, sequence_parsed = tf.parse_single_sequence_example(

        serialized=serialized_example,

        context_features=context_features,

        sequence_features=sequence_features

    )

    labels = context_parsed['label']

    sequences = sequence_parsed['sequence']

    return sequences, labels

def batched_data(tfrecord_filename, single_example_parser, batch_size, padded_shapes, num_epochs=1, buffer_size=1000):

    dataset = tf.data.TFRecordDataset(tfrecord_filename)\

        .map(single_example_parser)\

        .padded_batch(batch_size, padded_shapes=padded_shapes)\

        .shuffle(buffer_size)\

        .repeat(num_epochs)

    return dataset.make_one_shot_iterator().get_next()

if __name__ == "__main__":

    def model(features, labels):

        return features, labels

    tfrecord_filename = 'test.tfrecord'

    generate_tfrecords(tfrecord_filename)

    out = model(*batched_data(tfrecord_filename, single_example_parser, 2, ([None], [])))

    config = tf.ConfigProto()

    config.gpu_options.allow_growth = True

    with tf.Session(config=config) as sess:

        init_op = tf.group(tf.global_variables_initializer(),

                           tf.local_variables_initializer())

        sess.run(init_op)

        coord = tf.train.Coordinator()

        threads = tf.train.start_queue_runners(sess=sess, coord=coord)

        try:

            while not coord.should_stop():

                print(sess.run(out))

        except tf.errors.OutOfRangeError:

            print("done training")

        finally:

            coord.request_stop()

        coord.join(threads)

TensorFlow TFRecord封装不定长的序列数据（文本）的更多相关文章

STM32串口接收不定长数据原理与源程序（转）
今天说一下STM32单片机的接收不定长度字节数据的方法.由于STM32单片机带IDLE中断,所以利用这个中断,可以接收不定长字节的数据,由于STM32属于ARM单片机,所以这篇文章的方法也适合其他的A ...
【OCR技术系列之七】端到端不定长文字识别CRNN算法详解
在以前的OCR任务中,识别过程分为两步:单字切割和分类任务.我们一般都会讲一连串文字的文本文件先利用投影法切割出单个字体,在送入CNN里进行文字分类.但是此法已经有点过时了,现在更流行的是基于深度学习 ...
STM32之串口DMA接收不定长数据
STM32之串口DMA接收不定长数据引言在使用stm32或者其他单片机的时候,会经常使用到串口通讯,那么如何有效地接收数据呢?假如这段数据是不定长的有如何高效接收呢? 同学A:数据来了就会进入串口 ...
STM32使用串口1配合DMA接收不定长数据，减轻CPU载荷
STM32使用串口1配合DMA接收不定长数据,减轻CPU载荷 http://www.openedv.com/thread-63849-1-1.html 实现思路:采用STM32F103的串口1,并配 ...
关于socket客户端接收不定长数据的解决方案
#!/usr/bin/env python3.5 # -*-coding:utf8-*- """ 本实例客户端用于不断接收不定长数据,存储到变量res "&qu ...
Python3的tcp socket接收不定长数据包接收到的数据不全。
Python Socket API参考出处:http://blog.csdn.net/xiangpingli/article/details/47706707 使用socket.recv(pack_l ...
STM32 HAL库使用中断实现串口接收不定长数据
以前用DMA实现接收不定长数据,DMA的方法接收串口助手的数据,全部没问题,不过如果接收模块返回的数据,而这些数据如果包含回车换行的话就会停止接收,例如接收:AT\r\nOK\r\n,就只能接收到AT ...
Stm32使用串口空闲中断，基于队列来接收不定长、不定时数据
串口持续地接收不定长.不定时的数据,把每一帧数据缓存下来且灵活地利用内存空间,下面提供一种方式供参考.原理是利用串口空闲中断和DMA,每当对方发来一帧完整的数据后,串口接收开始空闲,触发中断,在中断处 ...
使用Python基于VGG/CTPN/CRNN的自然场景文字方向检测/区域检测/不定长OCR识别
GitHub:https://github.com/pengcao/chinese_ocr https://github.com/xiaofengShi/CHINESE-OCR |-angle 基于V ...

随机推荐

Mac版 Slickedit 2013 v18.0.3.3 破解
今天在Windows机器上面,无调试器的情况下,把 Mac系统下的Slickedit给破解了并测试通过. 原始安装包下载: Mac Slickedit 2013 (v18.0.3.3) 破解文件下载地 ...
COGS 1715. [CQOI2011]动态逆序对
★★★ 输入文件:inverse.in 输出文件:inverse.out 简单对比时间限制:2 s 内存限制:128 MB [题目描述] 对于序列A,它的逆序对数定义为满足i<j ...
使Win10用户获得特殊权限以便删除相应文件（夹）
依次访问: 本地用户和组(右击“此电脑”): 用户: 右击:当前用户名: 属性: 添加: 输入:System Managed Accounts Group: 检查名称(可选): 确定: 重启电脑. 参 ...
ansible 通过堡垒机/跳板机访问目标机器需求实战(ssh agent forward)
一. 需求背景: 在我们使用ansible的过程中经常会遇到这样的情况,我们要管理的机器都在内网中,这些内网机器的登录都是通过跳板机或者堡垒机登录.我们的ansible机器不能直接管理到这些后端的机器 ...
tpcc-mysql运行结果解读
前言首先我们需要知道tpcc-mysql是干什么的.TPC-C是专门针对联机交易处理系统(OLTP系统)的规范,一般情况下我们也把这类系统称为业务处理系统.tpcc-mysql是percona基于T ...
git clone 和 download 不一样，能用git clone 就用git clone，download的代码，经常出现安装bug
git clone 和 download 不一样,能用git clone 就用git clone,download的代码,经常出现安装bug
第三章 DOM的基本
节点分为不同的类型:元素节点.属性节点和文本节点 getElementById()方法这个方法将返回一个与那个有着给定id属性值的元素节点相对应的对象.注意大小写.该方法只有一个参数.这个参数也就是 ...
vector 下标操作
比如:vector<int> ivec(3).. 当采用下标操作ivec[10]的时候,该操作是未定义的,在自己的机器上输出的值是零．建议使用迭代器进行操作．
python-判断alter是否存在
from selenium import webdriver import time from selenium.webdriver.support.ui import WebDriverWait f ...
JavaScript中面向对象的三大特性（一个菜鸟的不正经日常）
经过几天的学习,把jQuery给啃会了,但是运用的还不算特别熟练,总感觉自己在JavaScript方面的基础十分欠缺,所以继续拾起JavaScript,开始更好的编程之旅~ 今天学的是JavaScri ...

TensorFlow TFRecord封装不定长的序列数据（文本）

TensorFlow TFRecord封装不定长的序列数据（文本）

TensorFlow TFRecord封装不定长的序列数据（文本）的更多相关文章

随机推荐

热门专题