PyTorch 的数据增强

我们在安装PyTorch时，还安装了torchvision，这是一个计算机视觉工具包。有 3 个主要的模块：

torchvision.transforms: 里面包括常用的图像预处理方法
torchvision.datasets: 里面包括常用数据集如 mnist、CIFAR-10、Image-Net 等
torchvision.models: 里面包括常用的预训练好的模型，如 AlexNet、VGG、ResNet、GoogleNet 等

深度学习模型是由数据驱动的，数据的数量和分布对模型训练的结果起到决定性作用。所以我们需要对数据进行预处理和数据增强。下面是用数据增强，从一张图片经过各种变换生成 64 张图片，增加了数据的多样性，这可以提高模型的泛化能力。

常用的图像预处理方法有：

数据中心化
数据标准化
缩放
裁剪
旋转
翻转
填充
噪声添加
灰度变换
线性变换
仿射变换
亮度、饱和度以及对比度变换。

在人民币图片二分类实验中，我们对数据进行了一定的增强。

# 设置训练集的数据增强和转化

train_transform = transforms.Compose([

    transforms.Resize((32, 32)),# 缩放

    transforms.RandomCrop(32, padding=4), #裁剪

    transforms.ToTensor(), # 转为张量，同时归一化

    transforms.Normalize(norm_mean, norm_std),# 标准化

])

# 设置验证集的数据增强和转化，不需要 RandomCrop

valid_transform = transforms.Compose([

    transforms.Resize((32, 32)),

    transforms.ToTensor(),

    transforms.Normalize(norm_mean, norm_std),

])

当我们需要多个transforms操作时，需要作为一个list放在transforms.Compose中。需要注意的是transforms.ToTensor()是把图片转换为张量，同时进行归一化操作，把每个通道 0~255 的值归一化为 0~1。在验证集的数据增强中，不再需要transforms.RandomCrop()操作。然后把这两个transform操作作为参数传给Dataset，在Dataset的__getitem__()方法中做图像增强。

def __getitem__(self, index):

	# 通过 index 读取样本

	path_img, label = self.data_info[index]

	# 注意这里需要 convert('RGB')

	img = Image.open(path_img).convert('RGB')     # 0~255

	if self.transform is not None:

		img = self.transform(img)   # 在这里做transform，转为tensor等等

	# 返回是样本和标签

	return img, label

其中self.transform(img)会调用Compose的__call__()函数：

def __call__(self, img):

	for t in self.transforms:

		img = t(img)

	return img

可以看到，这里是遍历transforms中的函数，按顺序应用到 img 中。

transforms.Normalize

torchvision.transforms.Normalize(mean, std, inplace=False)

功能：逐 channel 地对图像进行标准化

output = ( input - mean ) / std

mean: 各通道的均值
std: 各通道的标准差
inplace: 是否原地操作

该方法调用的是F.normalize(tensor, self.mean, self.std, self.inplace)

而``F.normalize()`方法如下：

def normalize(tensor, mean, std, inplace=False):

    if not _is_tensor_image(tensor):

        raise TypeError('tensor is not a torch image.')

    if not inplace:

        tensor = tensor.clone()

    dtype = tensor.dtype

    mean = torch.as_tensor(mean, dtype=dtype, device=tensor.device)

    std = torch.as_tensor(std, dtype=dtype, device=tensor.device)

    tensor.sub_(mean[:, None, None]).div_(std[:, None, None])

    return tensor

首先判断是否为 tensor，如果不是 tensor 则抛出异常。然后根据inplace是否为 true 进行 clone，接着把 mean 和 std 都转换为 tensor (原本是 list)，最后减去均值除以方差：tensor.sub_(mean[:, None, None]).div_(std[:, None, None])

对数据进行均值为 0，标准差为 1 的标准化，可以加快模型的收敛。

在逻辑回归的实验中，我们的数据生成代码如下：

sample_nums = 100

mean_value = 1.7

bias = 1

n_data = torch.ones(sample_nums, 2)

# 使用正态分布随机生成样本，均值为张量，方差为标量

x0 = torch.normal(mean_value * n_data, 1) + bias      # 类别0 数据 shape=(100, 2)

# 生成对应标签

y0 = torch.zeros(sample_nums)                         # 类别0 标签 shape=(100, 1)

# 使用正态分布随机生成样本，均值为张量，方差为标量

x1 = torch.normal(-mean_value * n_data, 1) + bias     # 类别1 数据 shape=(100, 2)

# 生成对应标签

y1 = torch.ones(sample_nums)                          # 类别1 标签 shape=(100, 1)

train_x = torch.cat((x0, x1), 0)

train_y = torch.cat((y0, y1), 0)

生成的数据均值是mean_value+bias=1.7+1=2.7，比较靠近 0 均值。模型在 380 次迭代时，准确率就超过了 99.5%。

如果我们把 bias 修改为 5。那么数据的均值变成了 6.7，偏离 0 均值较远，这时模型训练需要更多次才能收敛 (准确率达到 99.5%)。

**参考资料**

深度之眼 PyTorch 框架班

如果你觉得这篇文章对你有帮助，不妨点个赞，让我有更多动力写出好文章。

[PyTorch 学习笔记] 2.2 图片预处理 transforms 模块机制的更多相关文章

[PyTorch 学习笔记] 1.4 计算图与动态图机制
本章代码:https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson1/computational_graph.py 计算图深 ...
SQL反模式学习笔记12 存储图片或其他多媒体大文件
目标:存储图片或其他多媒体大文件反模式:图片存储在数据库外的文件系统中,数据库表中存储文件的对应的路径和名称. 缺点: 1.文件不支持Delete操作.使用SQL语句删除一条记录时,对应的文 ...
Node.js学习笔记（2）：基本模块
Node.js学习笔记(2):基本模块模块引入模块为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,很多编程语言都采用这种组织代码的方式.在No ...
Apollo学习笔记（一）：canbus模块与车辆底盘之间的CAN数据传输过程
Apollo学习笔记(一):canbus模块与车辆底盘之间的CAN数据传输过程博主现在从车载自组网信道分配和多跳路由转向了自动驾驶,没啥经验,想快些做出来个Demo还是得站在巨人的肩膀上才行,我选择 ...
[Firefly引擎][学习笔记三][已完结]所需模块封装
原地址:http://www.9miao.com/question-15-54671.html 学习笔记一传送门学习笔记二传送门学习笔记三导读: 笔记三主要就是各个模块的封装了,这里贴 ...
Python学习笔记（十四）：模块高级
以Mark Lutz著的<Python学习手册>为教程,每天花1个小时左右时间学习,争取两周完成. --- 写在前面的话 2013-7-23 21:30 学习笔记 1,包导入是把计算机上的 ...
python 学习笔记 13 -- 经常使用的时间模块之time
Python 没有包括相应日期和时间的内置类型.只是提供了3个相应的模块,能够採用多种表示管理日期和时间值: * time 模块由底层C库提供与时间相关的函数.它包括一些函数用于获取时钟时间和处 ...
【pytorch】pytorch学习笔记（一）
原文地址:https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html 什么是pytorch? pytorch是一个基于p ...
Pytorch学习笔记（一）——简介
一.Tensor Tensor是Pytorch中重要的数据结构,可以认为是一个高维数组.Tensor可以是一个标量.一维数组(向量).二维数组(矩阵)或者高维数组等.Tensor和numpy的ndar ...

随机推荐

Python网络编程基础 PDF 完整超清版|网盘链接内附提取码下载|
点此获取下载地址提取码:y9u5 Python网络编程最好新手入门书籍!175个详细案例,事实胜于雄辩,Sockets.DNS.Web Service.FTP.Email.SMTP.POP.IMAP. ...
__name__=='__main__'作用
.pyw:python源文件,常用语图形界面程序文件.pyc:Python字节码文件举个例子吧!!先写一个py文件,命名为MyModule.py,里面内容如下: def mymain(): prin ...
Python Tuple(元组) len()方法
描述 Python 元组 len() 函数计算元组元素个数.高佣联盟 www.cgewang.com 语法 len()方法语法: len(tuple) 参数 tuple -- 要计算的元组. 返回值 ...
PHP fscanf() 函数
定义和用法 fscanf() 函数根据指定的格式对来自打开的文件的输入进行解析. 语法 fscanf(file,format,mixed) 参数描述 file 必需.规定要检查的文件. format ...
PHP ftp_ssl_connect() 函数
定义和用法 ftp_ssl_connect() 函数打开一个安全的 SSL-FTP 连接. 当连接打开,您就可以在服务器运行 FTP 函数. 语法 ftp_ssl_connect(host,port, ...
PHP imagecolorallocatealpha - 为一幅图像分配颜色和透明度
imagecolorallocatealpha — 为一幅图像分配颜色和透明度.高佣联盟 www.cgewang.com 语法 int imagecolorallocatealpha ( resour ...
PHP strripos() 函数
实例查找 "php" 在字符串中最后一次出现的位置: <?php高佣联盟 www.cgewang.comecho strripos("I love php, I ...
luogu P3223 [HNOI2012]排队
LINK:排队\ 原谅我没学过组合数学没有高中数学基础水平... 不过凭着隔板法的应用还是可以推出来的. 首先考虑女生发现一个排列数m! 两个女生不能相邻那么理论上来说存在无解的情况而这道题好 ...
Java和Scala容器转换
参考:https://blog.csdn.net/dymkkj/article/details/77921573 Java和Scala互操作的一个重要的内容就是容器的转换,容器是一个语言的数据结构,表 ...
python 创建字典以及操作字典----这是基础知识
当你编程久了,发现所有的东西都是建立在基础之上的,庞大的代码你要识别出它的类型是什么或者返回后类型是什么!? 根据返回的类型或者需要操作的对象是什么类型就可以选择相应的方法进行处理 #创建字 ...

[PyTorch 学习笔记] 2.2 图片预处理 transforms 模块机制

PyTorch 的数据增强

transforms.Normalize

[PyTorch 学习笔记] 2.2 图片预处理 transforms 模块机制的更多相关文章

随机推荐

热门专题