原文：https://likewind.top/2019/02/01/Pytorch-dataprocess/

Pytorch系列：

参考：

本文首先介绍了有关预处理包的源码，接着介绍了在数据处理中的具体应用；其主要目录如下：

1 PyTorch数据预处理以及源码分析 (torch.utils.data)

torch.utils.data脚本码源

1.1 Dataset

Dataset

1

class torch.utils.data.Dataset

表示Dataset的抽象类。所有其他数据集都应该进行子类化。 所有子类应该override__len__和__getitem__，前者提供了数据集的大小，后者支持整数索引，范围从0到len(self)。

class Dataset(object):

	# 强制所有的子类override getitem和len两个函数，否则就抛出错误；

	# 输入数据索引，输出为索引指向的数据以及标签；

	def __getitem__(self, index):

		raise NotImplementedError

	# 输出数据的长度

	def __len__(self):

		raise NotImplementedError

	def __add__(self, other):

		return ConcatDataset([self, other])

TensorDataset

class torch.utils.data.TensorDataset(*tensors)

Dataset的子类。包装tensors数据集；输入输出都是元组；通过沿着第一个维度索引一个张量来回复每个样本。个人感觉比较适用于数字类型的数据集，比如线性回归等。

class TensorDataset(Dataset):

	def __init__(self, *tensor):

		assert all(tensors[0].size(0) == tensor.size(0) for tensor in tensors)

		self.tensors = tensors

	def __getitem__(self, index):

		return tuple(tensor[index] for tensor in tensors

	def __len__(self):

		return self.tensors[0].size(0)

ConcatDateset

class torch.utils.data.ConcatDateset(datasets)

连接多个数据集。目的：组合不同的数据集，可能是大规模数据集，因为连续操作是随意连接的。 datasets的参数：要连接的数据集列表 datasets的样式：iterable

class ConcatDataset(Dataset):

	@staticmethod

	def cumsum(sequence):

		# sequence是一个列表，e.g. [[1,2,3], [a,b], [4,h]]

		# return 一个数据大小列表，[3, 5, 7], 明显看的出来包含数据多少，第一个代表第一个数据的大小，第二个代表第一个+第二数据的大小，最后代表所有的数据大学；

	...

	def __getitem__(self, idx):

		# 主要是这个函数，通过bisect的类实现了任意索引数据的输出；

		dataset_idx = bisect.bisect_right(self.cumulative_size, idx)

		if dataset_idx == 0:

			sample_idx == idx

		else:

			sample_idx = idx - self.cumulative_sizes[dataset_idx -1]

		return self.datasets[dataset_idx][sample_idx]

	...

Subset

class torch.utils.data.Subset(dataset, indices)

选取特殊索引下的数据子集； dataset：数据集； indices：想要选取的数据的索引；

random_split

class torch.utils.data.random_split(dataset, lengths):

随机不重复分割数据集； dataset：要被分割的数据集 lengths：长度列表，e.g. [7, 3]， 保证7+3=len(dataset)

1.2 DataLoader

DataLoader

class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=<function default_collate>, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None)

数据加载器。组合数据集和采样器，并在数据集上提供单进程或多进程迭代器。参数：

dataset (Dataset) - 从中加载数据的数据集。
batch_size (int, optional) - 批训练的数据个数。
shuffle (bool, optional) - 是否打乱数据集（一般打乱较好）。
sampler (Sampler, optional) - 定义从数据集中提取样本的策略。如果指定，则忽略shuffle参数。
batch_sampler (Sample, optional) - 和sampler类似，返回批中的索引。
num_workers (int, optional) - 用于数据加载的子进程数。
collate_fn (callable, optional) - 合并样本列表以形成小批量。
pin_memory (bool, optional) - 如果为True，数据加载器在返回去将张量复制到CUDA固定内存中。
drop_last (bool, optional) - 如果数据集大小不能被batch_size整除，设置为True可以删除最后一个不完整的批处理。
timeout (numeric, optional) - 正数，收集数据的超时值。
worker_init_fn (callabel, optional) - If not None, this will be called on each worker subprocess with the worker id (an int in [0, num_workers - 1]) as input, after seeding and before data loading. (default: None)

特别重要：DataLoader中是不断调用DataLoaderIter

DataLoaderIter

class _DataLoaderIter(loader)

从DataLoader’s数据中迭代一次。其上面DataLoader功能都在这里； 插个眼，有空在分析这个

1.3 sampler

Sampler

class torch.utils.data.sampler.Sampler(data_source)

所有采样器的基础类；每个采样器子类必须提供一个__iter__方法，提供一种迭代数据集元素的索引的方法，以及返回迭代器长度__len__方法。

class Sampler(object):

	def __init__(self, data_source):

		pass

	def __iter__(self):

		raise NotImplementedError

	def __len__(self):

		raise NotImplementedError

SequentialSampler

class torch.utils.data.SequentialSampler(data_source)

样本元素顺序排列，始终以相同的顺序。 参数：-data_source (Dataset) - 采样的数据

RandomSampler

class torch.utils.data.RandomSampler(data_source, replacement=False, num_samples=None)

样本随机排列，如果没有Replacement，将会从打乱的数据采样，否则，。。 参数：

data_source (Dataset) - 采样数据
num_samples (int) - 采样数据大小，默认是全部。
replacement (bool) - 是否放回

SubsetRandomSampler

class torch.utils.data.SubsetRandomSampler(indices)

从给出的索引中随机采样，without replacement。 参数：

indices (sequence) - 索引序列。

BatchSampler

class torch.utils.data.BatchSampler(sampler, batch_size, drop_last)

将采样封装到批处理索引。 参数：

sampler (sampler) - 基本采样
batch_size (int) - 批大小
drop_last (bool) - 是否删掉最后的批次

weightedRandomSampler

class torch.utils.data.WeightedRandomSampler(weights, num_samples, replacement=True)

样本元素来自[0,…,len(weights)-1]，给定概率（权重）。 参数：

weights (list) - 权重列表。不需要加起来为1
num_samplers (int) - 要采样数目
replacement (bool) -

1.4 Distributed

DistributedSampler

class torch.utils.data.distributed.DistributedSampler(dataset, num_replicas=None, rank=None)

????没读呢

1.5 其它链接

PyTorch源码解读之torch.utils.data.DataLoader

2 torchvision

计算机视觉用到的库，文档以及码源如下：

torchvision documentation
torchvision 其库主要包含一下内容：

torchvision.datasets
- MNIST
- Fashion-MNIST
- EMNIST
- COCO
- LSUN
- ImageFolder
- DatasetFolder
- Imagenet-12
- CIFAR
- STL10
- SVHN
- Photo Tour
- SBU
- Flickr
- VOC
torchvision.models
- Alexnet
- VGG
- ResNet
- SqueezeNet
- DenseNet
- Inception v3
torchvision.transforms
- Transforms on PIL Image
- Transfroms on torch.* Tensor
- Conversion Transforms
- Generic Transforms
- Functional Transforms
torchvision.utils

3 应用

3.1 init

具有一下图像数据如下表示：

train
- normal
  - 1.png
  - 2.png
  - …
  - 8000.png
- tumor
  - 1.png
  - 2.png
  - …
  - 8000.png
validation
- normal
  - 1.png
- tumor
  - 1.png

希望能够训练模型，使得能够识别tumor, normal两类，将tumor–>1, normal–>0。

3.2 数据读取

在PyTorch中数据的读取借口需要经过，Dataset和DatasetLoader (DatasetloaderIter)。下面就此分别介绍。

Dataset

首先导入必要的包。

import os

import numpy as np

from torch.utils.data import Dataset

from PIL import Image

np.random.seed(0)

其次定义MyDataset类，为了代码整洁精简，将不必要的操作全删，e.g. 图像剪切等。

class MyDataset(Dataset):

	def __init__(self, root, size=229, ):

		"""

		Initialize the data producer

		"""

		self._root = root

		self._size = size

		self._num_image = len(os.listdir(root))

		self._img_name = os.listdir(root)

	def __len__(self):

		return self._num_image

	def __getitem__(self, index):

		img = Image.open(os.path.join(self._root, self._img_name[index]))

		# PIF image: H × W × C

		# torch image: C × H × W

		img = np.array(img, dtype-np.float32).transpose((2, 0, 1))

		return img

DataLoader

将MyDataset封装到loader器中。

from torch.utils.data import DataLoader

# 实例化MyData

dataset_tumor_train = MyDataset(root=/img/train/tumor/)

dataset_normal_train = MyDataset(root=/img/train/normal/)

dataset_tumor_validation = MyDataset(root=/img/validation/tumor/)

dataset_normal_validation = MyDataset(root=/img/validation/normal/)

# 封装到loader

dataloader_tumor_train = DataLoader(dataset_tumor_train, batch_size=10)

dataloader_normal_train = DataLoader(dataset_normal_train, batch_size=10)

dataloader_tumor_validation = DataLoader(dataset_tumor_validation, batch_size=10)

dataloader_normal_validation = DataLoader(dataset_normal_validation, batch_size=10)

3.3 train_epoch

简单将数据流接口与训练连接起来

def train_epoch(model, loss_fn, optimizer, dataloader_tumor, dataloader_normal):

	model.train()

	# 由于tumor图像和normal图像一样多，所以将tumor，normal连接起来，steps=len(tumor_loader)=len(normal_loader)

	steps = len(dataloader_tumor)

	batch_size = dataloader_tumor.batch_size

	dataiter_tumor = iter(dataloader_tumor)

	dataiter_normal = iter(dataloader_normal)

	for step in range(steps):

		data_tumor = next(dataiter_tumor)

		target_tumor = [1, 1,..,1] # 和data_tumor长度相同的tensor

		data_tumor = Variable(data_tumor.cuda(async=True))

		target_tumor = Variable(target_tumor.cuda(async=True))

		data_normal = next(dataiter_normal)

		target_normal = [0, 0,..,0] #

		data_normal = Variable(data_normal.cuda(async=True))

		target_normal = Variable(target_normal.cuda(async=True))

		idx_rand = Variable(torch.randperm(batch_size*2).cuda(async=True))

		data = torch.cat([data_tumor, data_normal])[idx_rand]

		target = torch.cat([target_tumor, target_normal])[idx_rand]

		output = model(data)

		loss = loss_fn(output, target)

		optimizer.zero_grad()

		loss.backward()

		optimizer.step()

		probs = output.sigmoid()

【转载】PyTorch系列 (二)：pytorch数据读取的更多相关文章

pytorch系列 -- 9 pytorch nn.init 中实现的初始化函数 uniform, normal, const, Xavier, He initialization
本文内容:1. Xavier 初始化2. nn.init 中各种初始化函数3. He 初始化 torch.init https://pytorch.org/docs/stable/nn.html#to ...
infobright系列二：数据迁移
安装之后把之前infobright的数据迁移到新安装的infobright上. 1:挺掉相关的服务 2:scp 把旧数据拷到新安装的infobright上 3:修改/etc/my-ib.cnf的数据目 ...
zico源代码分析（二）数据读取和解析部分
第一部分:分析篇首先,看一下zico的页面,左侧是hostname panel,右侧是该主机对应的traces panel. 点击左侧zorka主机名,右侧panel会更新信息,在火狐浏览器中使用f ...
Pytorch系列:（二）数据加载
DataLoader DataLoader(dataset,batch_size=1,shuffle=False,sampler=None, batch_sampler=None,num_worker ...
[Pytorch]PyTorch Dataloader自定义数据读取
整理一下看到的自定义数据读取的方法,较好的有一下三篇文章, 其实自定义的方法就是把现有数据集的train和test分别用含有图像路径与label的list返回就好了,所以需要根据数据集随机应变. 所 ...
从零搭建Pytorch模型教程（一）数据读取
前言本文介绍了classdataset的几个要点,由哪些部分组成,每个部分需要完成哪些事情,如何进行数据增强,如何实现自己设计的数据增强.然后,介绍了分布式训练的数据加载方式,数据读取的整个 ...
Pytorch数据读取框架
训练一个模型需要有一个数据库,一个网络,一个优化函数.数据读取是训练的第一步,以下是pytorch数据输入框架. 1)实例化一个数据库假设我们已经定义了一个FaceLandmarksDataset数 ...
Pytorch数据读取与预处理实现与探索
在炼丹时,数据的读取与预处理是关键一步.不同的模型所需要的数据以及预处理方式各不相同,如果每个轮子都我们自己写的话,是很浪费时间和精力的.Pytorch帮我们实现了方便的数据读取与预处理方法,下面记录 ...
Pytorch系列教程-使用字符级RNN对姓名进行分类
前言本系列教程为pytorch官网文档翻译.本文对应官网地址:https://pytorch.org/tutorials/intermediate/char_rnn_classification_t ...

随机推荐

CentOS7.x编译安装zabbix4.0
编译安装zabbix Zabbix简介 Zabbix 是一个企业级的分布式开源监控方案. Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件.Zabbix使用灵活的通知机制,允许用户 ...
揽货最短路径解决方案算法 - V2（增加了时间维度-客户允许的服务时间段，C#/JAVA同步实现，带python作图）
继上篇,这里改进增加了客户允许服务的时间范围这个维度,并且把C#版本翻译成java,加强了更加形象的图表展示路径(继续是用python的matplotlib作图). 这里的时间范围维度是指:每个客户都 ...
Putnam竞赛一道题及中科大自主招生试题的联系
Putnam试题 For any positive integer n let denote the closest integer to $\sqrt{n}$,Evaluate $$\sum_{n= ...
NodeJs操作MongoDB之多表查询($lookup)与常见问题
NodeJs操作MongoDB之多表查询($lookup)与常见问题一,方法介绍 aggregate()方法来对数据进行聚合操作.aggregate()方法的语法如下 1 aggregate(ope ...
css实现垂直水平居中的方法
html结构: <div class="box"> <div>垂直居中</div> </div> 方法1:display:flex ...
LeetCode21—合并两个有序链表
方法一:这是我一开始的想法,将链表L2的各个元素与链表L1的元素进行逐一比较,将L2中的数据元素插入L1中的合适位置. 时间复杂度:O(m+n):空间复杂度:O(1) 1)首先,可能要对第一个元素进行 ...
Java定义三个点Object...
从Java 5开始,Java语言对方法参数支持一种新写法,叫可变长度参数列表,其语法就是类型后跟...,表示此处接受的参数为0到多个Object类型的对象,或者是一个Object[]. public ...
HTML&CSS_基础03
一.Meta标签: 1.可以设置网页的关键字 2.用来指定网页描述 3.可以用来网页重定向具体参数参见:http://www.w3school.com.cn/html5/tag_meta.asp 二 ...
react16 渲染流程
前言 react升级到16之后,架构发生了比较大的变化,现在不看,以后怕是看不懂了,react源码看起来也很麻烦,也有很多不理解的地方. 大体看了一下渲染过程. react16架构的变化 react ...
查看macOS下正在使用的zsh
使用dscl . -read /Users/$USER UserShell查看如果你的结果是/bin/zsh,又恰巧用brew安装了zsh的话,那么你可能就白安装了将brew安装的zsh添加到/e ...

【转载】PyTorch系列 (二)：pytorch数据读取

1 PyTorch数据预处理以及源码分析 (torch.utils.data)

1.1 Dataset

Dataset

TensorDataset

ConcatDateset

Subset

random_split

1.2 DataLoader

DataLoader

DataLoaderIter

1.3 sampler

Sampler

SequentialSampler

RandomSampler

SubsetRandomSampler

BatchSampler

weightedRandomSampler

1.4 Distributed

DistributedSampler

1.5 其它链接

2 torchvision

3 应用

3.1 init

3.2 数据读取

Dataset

DataLoader

3.3 train_epoch

【转载】PyTorch系列 (二)：pytorch数据读取的更多相关文章

随机推荐

热门专题