Pytorch Dataset和Dataloader 学习笔记(二)

Pytorch Dataset & Dataloader

Pytorch框架下的工具包中，提供了数据处理的两个重要接口，Dataset 和 Dataloader，能够方便的使用和加载自己的数据集。

数据的预处理，加载数据并转化为tensor格式
使用Dataset构建自己的数据
使用Dataloader装载数据

【数据】链接：https://pan.baidu.com/s/1gdWFuUakuslj-EKyfyQYLA

提取码：10d4

复制这段内容后打开百度网盘手机App，操作更方便哦

数据的预处理与加载

import torch

import numpy as np

from torch.utils.data import DataLoader, Dataset

## 1. 数据的处理，加载转化为tensor

x_data = 'X.csv'

y_data = 'y.csv'

x = np.loadtxt(x_data, delimiter=' ', dtype=np.float32)

y = np.loadtxt(y_data, delimiter=' ', dtype=np.float32).reshape(-1, 1)

x = torch.from_numpy(x[:, :])

y = torch.from_numpy(y[:, :])

torch.utils.data.Dataset

Dataset抽象类，用于包装构建自己的数据集，该类包括三个基本的方法：

__init__ 进行数据的读取操作
__getitem__ 数据集需支持索引访问
__len__ 返回数据集的长度

## 2. 构建自己的数据集

class Mydataset(Dataset):

    def __init__(self, train_data, label_data):

        self.train = train_data

        self.label = label_data

        self.len = len(train_data)

    def __getitem__(self, item):

        return self.train[item], self.label[item]

    def __len__(self):

        return self.len

dataset = Mydataset(x, y)

samples = dataset.__len__()

print("总样本数：",samples)

torch.utils.data.Dataloader

Dataloader抽象类，构建可迭代的数据集装载器，从Dataset实例对象中按batch_size装载数据以送入训练。包含以下几个参数：

batch_size 批大小
shuffle 装载的batch是否乱序
drop_last 不足batch大小的最后部分是否舍去
num_workers 是否多进程读取数据

## 3. 创建数据集装载器

train_loader = DataLoader(dataset=dataset,

                          batch_size=64,

                          shuffle=True,

                          drop_last=True,

                          num_workers=4)

测试

if __name__ == "__main__":

    iteration = 0

    for train_data, train_label in train_loader:

        print("x: ", train_data, "\ny: ", train_label)

        iteration += 1

    ### 这里dataloader中drop_last为True，所以迭代次数应为 samples/batch_size = 6

    print("每个epoch迭代次数：",iteration)

完整代码

import torch

import numpy as np

from torch.utils.data import DataLoader, Dataset

## 1. 数据的处理，加载转化为tensor

x_data = 'X.csv'

y_data = 'y.csv'

x = np.loadtxt(x_data, delimiter=' ', dtype=np.float32)

y = np.loadtxt(y_data, delimiter=' ', dtype=np.float32).reshape(-1, 1)

x = torch.from_numpy(x[:, :])

y = torch.from_numpy(y[:, :])

## 2. 构建自己的数据集

class Mydataset(Dataset):

    def __init__(self, train_data, label_data):

        self.train = train_data

        self.label = label_data

        self.len = len(train_data)

    def __getitem__(self, item):

        return self.train[item], self.label[item]

    def __len__(self):

        return self.len

dataset = Mydataset(x, y)

## 3. 创建数据集装载器

train_loader = DataLoader(dataset=dataset,

                          batch_size=64,

                          shuffle=True,

                          drop_last=True,

                          num_workers=4)

if __name__ == "__main__":

    iteration = 0

    samples = dataset.__len__()

    print("总样本数：", samples)

    for train_data, train_label in train_loader:

        print("x: ", train_data, "\ny: ", train_label)

        iteration += 1

    ### 这里dataloader中drop_last为True，所以迭代次数应为 samples/batch_size = 6

    print("每个epoch迭代次数：",iteration)

Pytorch Dataset和Dataloader 学习笔记(二)的更多相关文章

amazeui学习笔记二（进阶开发4）--JavaScript规范Rules
amazeui学习笔记二(进阶开发4)--JavaScript规范Rules 一.总结 1.注释规范总原则: As short as possible(如无必要,勿增注释):尽量提高代码本身的清晰性. ...
微信小程序学习笔记二数据绑定 + 事件绑定
微信小程序学习笔记二 1. 小程序特点概述没有DOM 组件化开发: 具备特定功能效果的代码集合体积小, 单个压缩包体积不能大于2M, 否则无法上线小程序的四个重要的文件 *js *.wxml - ...
WPF的Binding学习笔记(二)
原文: http://www.cnblogs.com/pasoraku/archive/2012/10/25/2738428.htmlWPF的Binding学习笔记(二) 上次学了点点Binding的 ...
AJax 学习笔记二(onreadystatechange的作用)
AJax 学习笔记二(onreadystatechange的作用) 当发送一个请求后,客户端无法确定什么时候会完成这个请求,所以需要用事件机制来捕获请求的状态XMLHttpRequest对象提供了on ...
[Firefly引擎][学习笔记二][已完结]卡牌游戏开发模型的设计
源地址:http://bbs.9miao.com/thread-44603-1-1.html 在此补充一下Socket的验证机制:socket登陆验证.会采用session会话超时的机制做心跳接口验证 ...
JMX学习笔记(二)-Notification
Notification通知,也可理解为消息,有通知,必然有发送通知的广播,JMX这里采用了一种订阅的方式,类似于观察者模式,注册一个观察者到广播里,当有通知时,广播通过调用观察者,逐一通知. 这里写 ...
java之jvm学习笔记二(类装载器的体系结构)
java的class只在需要的时候才内转载入内存,并由java虚拟机的执行引擎来执行,而执行引擎从总的来说主要的执行方式分为四种, 第一种,一次性解释代码,也就是当字节码转载到内存后,每次需要都会重新 ...
Java IO学习笔记二
Java IO学习笔记二流的概念在程序中所有的数据都是以流的方式进行传输或保存的,程序需要数据的时候要使用输入流读取数据,而当程序需要将一些数据保存起来的时候,就要使用输出流完成. 程序中的输入输 ...
《SQL必知必会》学习笔记二)
<SQL必知必会>学习笔记(二) 咱们接着上一篇的内容继续.这一篇主要回顾子查询,联合查询,复制表这三类内容. 上一部分基本上都是简单的Select查询,即从单个数据库表中检索数据的单条语 ...

随机推荐

Vip视频解析端口
------------恢复内容开始------------ 本教程仅供学习交流使用,请不要用于商业用途,支持正版,人人有责我们怎么免费看VIP视频呢?一个简单的方法,就是通过解析接口 VIP视频解 ...
浅谈src与href的区别
src 和 href 都是用来引入外部资源的属性,例如:图片.视频.CSS 文件.JavaScript 文件等. 那么它们两者之间究竟有什么样的区别呢? <link href="sty ...
GUI简单实战——贪吃蛇
将前面学到的GUI基础知识完成实战,完成一个简单的贪吃蛇项目项目功能用键盘上下左右实现贪吃蛇的自动移动贪吃蛇吃到食物后,长度加一,分数加一贪吃蛇吃到自己的身体,则游戏结束按空格键实现游戏的暂 ...
QQ可以登录，网页无法访问
之前以为是网络的问题,但是,后来发现QQ却可以登录,这是第二次碰到这个情况,所以总结一下一般我们电脑上都会安装一个杀毒软件,比如火绒等等.我电脑上用的联想自带的电脑管家我们可以在工具箱中找到网络诊 ...
Compare the contents of two arrays
✍️Define a methed to compare the contents of two arrays and return the result . 定义一个方法,用于比较两个数组的内容是否 ...
一、Github+Pycharm基础
GitHub为版本管理工具常用的版本管理工具:本地化版本管理系统.集中式版本管理系统SVN.分布式版本管理系统一.安装git(自行百度) 二.文件操作与分支管理基础 1.版本控制系统分类集中化版 ...
使用JSONassert进行JSON对象对比
在日常工作中,会接到用户提出一张订单,修改后需要记录每次修改的信息,然后需要查看修改前后的差异信息这样的需求.要实现这样的功能方式有很多.下面介绍下JSONassert的简单使用,也方便自己后续使 ...
25.数据结构，LinkedList ，泛型，类型通配符
3.数据结构数据结构是计算机存储,组织数据的方式.是指相互之间存在的一种或多种特定关系的数据元素的集合通常情况下,精心选择的数据结构可以带来更高的运行或者存储效率 ---------常见的数据结构 ...
JAVA的基本介绍和JDK的安装
JAVA帝国 JAVA特性和优势简单面向对象可复制性高性能分布式动态性多线性安全性健壮性 JAVA三大版本 javaSE:标准版(桌面程序.控制台开发) javaME(嵌入式开发) ...
[Java] 数据分析--统计
二项分布需求:5个四面体筛子,筛子三面绿色,一面红色,模拟1000000次,统计每次试验红色落地筛子个数的分布实现:用循环实现5个筛子和1000000次试验,定义函数numRedDown模拟5个筛 ...