在使用 torchvision.transforms进行数据处理时我们经常进行的操作是:

transforms.Normalize((0.485,0.456,0.406), (0.229,0.224,0.225))

前面的(0.485,0.456,0.406)表示均值,分别对应的是RGB三个通道;后面的(0.229,0.224,0.225)则表示的是标准差

这上面的均值和标准差的值是ImageNet数据集计算出来的,所以很多人都使用它们

但是如果你想要计算自己的数据集的均值和标准差,让其作为你的transforms.Normalize函数的参数的话可以进行下面的操作

代码get_mean_std.py:

# coding:utf-
import os
import numpy as np
from torchvision.datasets import ImageFolder
import torchvision.transforms as transforms
from dataloader import Dataloader
from options import options
import pickle
"""
在训练前先运行该函数获得数据的均值和标准差
""" class Dataloader():
def __init__(self, opt):
# 训练,验证,测试数据集文件夹名
self.opt = opt
self.dirs = ['train', 'test', 'testing'] self.means = [, , ]
self.stdevs = [, , ] self.transform = transforms.Compose([transforms.Resize(opt.isize),
transforms.CenterCrop(opt.isize),
transforms.ToTensor(),#数据值从[0,255]范围转为[0,1],相当于除以255操作
# transforms.Normalize((0.485,0.456,0.406), (0.229,0.224,0.225))
]) # 因为这里使用的是ImageFolder,按文件夹给数据分类,一个文件夹为一类,label会自动标注好
self.dataset = {x: ImageFolder(os.path.join(opt.dataroot, x), self.transform) for x in self.dirs} def get_mean_std(self, type, mean_std_path):
"""
计算数据集的均值和标准差
:param type: 使用的是那个数据集的数据,有'train', 'test', 'testing'
:param mean_std_path: 计算出来的均值和标准差存储的文件
:return:
"""
num_imgs = len(self.dataset[type])
for data in self.dataset[type]:
img = data[]
for i in range():
# 一个通道的均值和标准差
self.means[i] += img[i, :, :].mean()
self.stdevs[i] += img[i, :, :].std() self.means = np.asarray(self.means) / num_imgs
self.stdevs = np.asarray(self.stdevs) / num_imgs print("{} : normMean = {}".format(type, self.means))
print("{} : normstdevs = {}".format(type, self.stdevs)) # 将得到的均值和标准差写到文件中,之后就能够从中读取
with open(mean_std_path, 'wb') as f:
pickle.dump(self.means, f)
pickle.dump(self.stdevs, f)
print('pickle done') if __name__ == '__main__':
opt = options().parse()
dataloader = Dataloader(opt)
for x in dataloader.dirs:
mean_std_path = 'mean_std_value_' + x + '.pkl'
dataloader.get_mean_std(x, mean_std_path)

然后再从相应的文件读取均值和标准差放到dataloader.py的transforms.Normalize函数中即可:

# coding:utf-
import os
import torch
import torchvision.transforms as transforms
from torchvision.datasets import ImageFolder
import numpy as np
import pickle """
用于加载训练train、验证test和测试数据testing
""" class Dataloader():
def __init__(self, opt):
# 训练,验证,测试数据集文件夹名
self.opt = opt
self.dirs = ['train', 'test', 'testing']
# 均值和标准差存储的文件路径
self.mean_std_path = {x: 'mean_std_value_' + x + '.pkl' for x in self.dirs} # 初始化为0
self.means = {x: [, , ] for x in self.dirs}
self.stdevs = {x: [, , ] for x in self.dirs}
print(type(self.means['train']))
print(self.means)
print(self.stdevs) for x in self.dirs:
#如果存在则说明之前有获取过均值和标准差
if os.path.exists(self.mean_std_path[x]):
with open(self.mean_std_path[x], 'rb') as f:
self.means[x] = pickle.load(f)
self.stdevs[x] = pickle.load(f)
print('pickle load done') print(self.means)
print(self.stdevs)
# 将相应的均值和标准差设置到transforms.Normalize函数中
self.transform = {x: transforms.Compose([transforms.Resize(opt.isize),
transforms.CenterCrop(opt.isize),
transforms.ToTensor(),
transforms.Normalize(self.means[x], self.stdevs[x]),
]) for x in self.dirs}
...

pytorch 计算图像数据集的均值和标准差的更多相关文章

  1. 计算图像数据集的RGB均值

    最近在跑代码的时候,需要用到RGB三个通道上的均值,如下图所示: 写了一个程序,如下: import os import cv2 import random import numpy as np #数 ...

  2. opencv学习之路(38)、Mat像素统计基础——均值,标准差,协方差;特征值,特征向量

    本文部分内容转自 https://www.cnblogs.com/chaosimple/p/3182157.html 一.统计学概念 二.为什么需要协方差 三.协方差矩阵 注:上述协方差矩阵还需要除以 ...

  3. OpenCV2+入门系列(四):计算图像的直方图,平均灰度,灰度方差

    本篇懒得排版,直接在网页html编辑器编辑 在图像处理时,我们常常需要求出图像的直方图.灰度平均值.灰度的方差,这里给出一个opencv2+自带程序,实现这些功能. 直方图 对于直方图,使用cv::c ...

  4. Caffe学习系列(15):计算图片数据的均值

    图片减去均值后,再进行训练和测试,会提高速度和精度.因此,一般在各种模型中都会有这个操作. 那么这个均值怎么来的呢,实际上就是计算所有训练样本的平均值,计算出来后,保存为一个均值文件,在以后的测试中, ...

  5. 计算图像相似度——《Python也可以》之一

    声明:本文最初发表于赖勇浩(恋花蝶)的博客http://blog.csdn.net/lanphaday 先将两张图片转化为直方图,图像的相似度计算就转化为直方图的距离计算了,本文依照如下公式进行直方图 ...

  6. OpenCV 学习(计算图像的直方图)

    OpenCV 计算图像的直方图 计算图像的直方图是图像处理领域一个非经常见的基本操作. OpenCV 中提供了 calcHist 函数来计算图像直方图.只是这个函数说实话挺难用的,研究了好久才掌握了些 ...

  7. C语言之文件操作07——读取文件数据并计算均值方差标准差

    //文件 /* =============================================================== 题目:从文本文件"high.txt" ...

  8. 动手学深度学习6-认识Fashion_MNIST图像数据集

    获取数据集 读取小批量样本 小结 本节将使用torchvision包,它是服务于pytorch深度学习框架的,主要用来构建计算机视觉模型. torchvision主要由以下几个部分构成: torchv ...

  9. 什么是pytorch(4.数据集加载和处理)(翻译)

    数据集加载和处理 这里主要涉及两个包:torchvision.datasets 和torch.utils.data.Dataset 和DataLoader torchvision.datasets是一 ...

随机推荐

  1. php最快测试环境建立

    win下待验证,但linux下真快. 不要nginx,不要php-fpm,就一个字,快! 1, 安装php yum install php 输出如下: Dependencies Resolved == ...

  2. 小程序生命周期(onLaunch、onShow、onHide、onReady、onLoad、onUnloa)

    (1)onlaunch:当小程序初始化完成时,会触发 onLaunch(全局只触发一次)(app.js):(2)onLoad: 页面加载小程序注册完成后,加载页面,触发onLoad方法.一个页面只会调 ...

  3. Redis的缓存穿透问题和雪崩问题?

    缓存穿透:就是访问redis中一个不存在的key的时候,会直接穿过缓存,去数据库中进行查询. 如果是黑客,进行恶意攻击的时候,每次都请求超过2000个/秒的时候,这个时候mysql基本上就挂了. 解决 ...

  4. 题解 洛谷P2503 【[HAOI2006]均分数据】

    看了眼题目和数据范围\(n \leq 20,k \leq 6\)自然想到了\(dfs\)分组求解,主要是被这道题坑自闭过. 然而硬来\(dfs\)肯定会被蜜汁\(T\)掉,因为暴力\(n\)个数所在集 ...

  5. 为什么在项目中data需要使用return返回数据呢?

    问:为什么在项目中data需要使用return返回数据呢? 答:不使用return包裹的数据会在项目的全局可见,会造成变量污染:使用return包裹后数据中变量只在当前组件中生效,不会影响其他组件.

  6. 什么情况下使用large training data会非常有效

    收集大量的数据可能比算法的优劣更重要 Banko和Brill在2001年做了一个研究,是关于在句子中对易混单词进行识别,画出了上图的右边的那个图,这个图显示了对于不同的算法,它们的表现相似,但是随着t ...

  7. react 学习记录

    1.  脚手架搭建项目  create-react-app https://www.jianshu.com/p/d196761c8332 2. UI框架 https://ant.design/docs ...

  8. SpringBoot学习(四)开发web应用

    Spring Boot非常适合web应用程序开发.可以使用嵌入式Tomcat.Jetty.Undertow或Netty创建自包含的HTTP服务器.大多数web应用程序使用spring-boot-sta ...

  9. work,工作模式

    work,工作模式 一个消息只能被一个消费者获取 工作模式就是simple模式多了几个消费者,其他一样 来自为知笔记(Wiz)

  10. OPCode详解及汇编与反汇编原理

    1. 何为OPCode 在计算机科学领域中,操作码(Operation Code, OPCode)被用于描述机器语言指令中,指定要执行某种操作的那部分机器码,构成OPCode的指令格式和规范由处理器的 ...