tensorflow数据集加载

本篇涉及的内容主要有小型常用的经典数据集的加载步骤，tensorflow提供了如下接口：keras.datasets、tf.data.Dataset.from_tensor_slices(shuffle、map、batch、repeat)，涉及的数据集如下：boston housing、mnist/fashion mnist、cifar10/100、imdb

1.keras.datasets

通过该接口可以直接下载指定数据集。boston housing提供了和房价有关的一些因子（面积、居民来源等），mnist提供了手写数字的图片和对应label，fashion mnist提供了10种衣服的灰度图和对应label，cifar10/100是用来进行简单图像识别的数据集，分别包含10类物品和100类物品，imdb是一个类似于淘宝好评的数据集，即通过评语及其标注（好评或差评），来实现一个好评或差评的分类器。

注：通过该接口得到的数据集格式为numpy格式。

2.tf.data.Dataset.from_tensor_slices()

该方法可以用来进行数据的迭代，过程中可以直接将numpy格式转化为tensor格式，然后通过调用next(iter())方法实现迭代，使用示例如下：

# 加载数据集

(x,y),(x_test,y_test) = keras.datasets.mnist.load_data()

# 转化为tensor并实现迭代

db = tf.data.Dataset.from_tensor_slices(x_test)

# 打印迭代数据的shape

print(next(iter(db)).shape)

# 将img和label封装为同一次迭代

db = tf.data.Dataset.from_tensor_slices((x_test,y_test))

print(next(iter(db))[0].shape)

print(next(iter(db))[1].shape)

3.shuffle

通过shuffle函数可以将数据集打散，从而提高模型的泛化能力，使用方法：db.shuffle(10000)，参数设置范围，通常值设置比较大

4.map

# deep learning一般使用float32，而numpy格式多为float64，所以需要转化

def preprocess(x,y):

    x = tf.cast(x,dtype=tf.float32)/255

    y = tf.cast(y,dtype=tf.int32)

    y = tf.one_hot(y,depth=10)

    return x,y

db2 = db.map(preprocess)

res = next(iter(db2))

print(res[0].shape,res[1].shape)

5.batch

db3 = db2.batch(32)

res = next(iter(db3))

print(res[0].shape,res[1].shape)

6.StopIteration

因为迭代多次后会到达数据集的末尾，如果不进行异常处理则会报StopIteration异常，如下处理方式就是错误的：

db_iter = iter(db3)

while True:

    next(db_iter)

只要加上异常处理语句对db_iter重新赋值即可

tensorflow数据集加载的更多相关文章

OFRecord 数据集加载
OFRecord 数据集加载在数据输入一文中知道了使用 DataLoader 及相关算子加载数据,往往效率更高,并且学习了如何使用 DataLoader 及相关算子. 在 OFrecord 数据格式 ...
什么是pytorch（4.数据集加载和处理）(翻译)
数据集加载和处理这里主要涉及两个包:torchvision.datasets 和torch.utils.data.Dataset 和DataLoader torchvision.datasets是一 ...
tensorflow数据加载、模型训练及预测
数据集 DNN 依赖于大量的数据.可以收集或生成数据,也可以使用可用的标准数据集.TensorFlow 支持三种主要的读取数据的方法,可以在不同的数据集中使用:本教程中用来训练建立模型的一些数据集介绍 ...
Windows下pycharm远程连接服务器调试-tensorflow无法加载问题
最近打算在win系统下使用pycharm开发程序,并远程连接服务器调试程序,其中在import tensorflow时报错如图所示(在远程服务器中执行程序正常): 直观错误为: ImportError ...
Tensorflow模型加载与保存、Tensorboard简单使用
先上代码: from __future__ import absolute_import from __future__ import division from __future__ import ...
tensorflow学习笔记2：c++程序静态链接tensorflow库加载模型文件
首先需要搞定tensorflow c++库,搜了一遍没有找到现成的包,于是下载tensorflow的源码开始编译: tensorflow的contrib中有一个makefile项目,极大的简化的接下来 ...
TensorFlow模型加载与保存
我们经常遇到训练时间很长,使用起来就是Weight和Bias.那么如何将训练和测试分开操作呢? TF给出了模型的加载与保存操作,看了网上都是很简单的使用了一下,这里给出一个神经网络的小程序去测试. 本 ...
Tensorflow同时加载使用多个模型
在Tensorflow中,所有操作对象都包装到相应的Session中的,所以想要使用不同的模型就需要将这些模型加载到不同的Session中并在使用的时候申明是哪个Session,从而避免由于Sessi ...
PIE SDK 多数据源的复合数据集加载
1. 功能简介 GIS遥感图像数据复合是将多种遥感图像数据融合成一种新的图像数据的技术,是目前遥感应用分析的前沿,PIESDK通过复合数据技术可以将多幅幅影像数据集(多光谱和全色数据)组合成一幅多波段 ...

随机推荐

CCF_201503-1_图像旋转
水. #include<iostream> #include<cstdio> using namespace std; ][]; int main() { int n,m; c ...
罗德里格斯旋转公式（Rodrigues' rotation formula）推导
本文综合了几个相关的维基百科,加了点自己的理解,从比较基础的向量投影和叉积讲起,推导出罗德里格斯旋转公式.公式比较繁杂,如有错误,欢迎评论区指出. 对于向量的三维旋转问题,给定旋转轴和旋转角度,用罗德 ...
机器学习（ML）十四之凸优化
优化与深度学习优化与估计尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同. 优化方法目标:训练集损失函数值深度学习目标:测试集损失函数值(泛化性) ...
CentOS安装了iRedMail停用Amavisd + ClamAV + SpamAssassin
转自:http://blog.sina.com.cn/s/blog_56ef54cf0100t0p3.html 可怜的我VPS内存资源有限,而邮件系统的防病毒功能很占内存. 如果希望停用杀毒和发垃圾的 ...
Java面试题之“==”和“equals()”方法的区别？
一.“== ”:运算符 1.可以使用在基本数据类型变量和引用数据类型变量中. 2.如果比较的是基本数据类型变量:比较的是两个变量保存的数据是否相等.(不一定类型要相同) 3.如果比较的是引用数据类型变 ...
07-HTML&CSS
今日知识 1. HTML表单标签 2. CSS 3.总结表单标签 * 表单: * 概念:用于采集用户输入的数据的.用于和服务器进行交互. * form:用于定义表单的.可以定义一个范围,范围代表采集 ...
一个基于图的数据管理系统-gStore
gStore是遵循 BSD协议的一个开源项目.一个基于图的 RDF 三元组存储的数据管理系统.该项目是北京大学.滑铁卢大学.香港科技大学的联合研究项目.中国北京大学计算机科学与技术研究所的数据库组对该 ...
React之JSX的语法细节
带注释 import React, { Component, Fragment } from 'react' import './style.css' class TodoList extends C ...
centos7安装Elasticsearch及Es-head插件详细教程(图文)
懒惰了很久,今天来写一下Elasticsearch在centos7上安装教程以及安装过程中可能出现的报错解决方式,有不对的地方,烦请各位看官多多指教! 一.ES安装 1.环境检查确保有java环境, ...
ASP.NET Core MVC 网站学习笔记
ASP.NET Core MVC 网站学习笔记魏刘宏 2020 年 2 月 17 日最近因为” 新冠” 疫情在家办公,学习了 ASP.NET Core MVC 网站的一些知识,记录如下. 一.新建 ...

tensorflow数据集加载

tensorflow数据集加载的更多相关文章

随机推荐

热门专题