python 将Mnist数据集转为jpg，并按比例/标签拆分为多个子数据集

现有条件：Mnist数据集，下载地址：跳转下载后的四个.gz文件解压后放到同一个文件夹下，如：/raw

Step 1：将Mnist数据集转为jpg图片(代码来自这篇博客)

 1 import os

 2 from skimage import io

 3 import torchvision.datasets.mnist as mnist

 4

 5 root='./raw'

 6 train_set = (

 7     mnist.read_image_file(os.path.join(root, 'train-images.idx3-ubyte')),

 8     mnist.read_label_file(os.path.join(root, 'train-labels.idx1-ubyte'))

 9         )

10 test_set = (

11     mnist.read_image_file(os.path.join(root, 't10k-images.idx3-ubyte')),

12     mnist.read_label_file(os.path.join(root, 't10k-labels.idx1-ubyte'))

13         )

14 # print("training set :",train_set[0].size())

15 # print("test set :",test_set[0].size())

16

17 def convert_to_img(train=True):

18     if(train):

19         f=open(root+'train.txt','w')

20         data_path=root+'/train/'

21         if(not os.path.exists(data_path)):

22             os.makedirs(data_path)

23         for i, (img,label) in enumerate(zip(train_set[0],train_set[1])):

24             img_path=data_path+str(i)+'.jpg'

25             # io.imsave(img_path,img.numpy())

26             f.write(img_path+' '+str(label)+'\n')

27         f.close()

28     else:

29         f = open(root + 'test.txt', 'w')

30         data_path = root + '/test/'

31         if (not os.path.exists(data_path)):

32             os.makedirs(data_path)

33         for i, (img,label) in enumerate(zip(test_set[0],test_set[1])):

34             img_path = data_path+ str(i) + '.jpg'

35             # io.imsave(img_path, img.numpy())

36             f.write(img_path + ' ' + str(label) + '\n')

37         f.close()

38

39 convert_to_img(True)#转换训练集

40 convert_to_img(False)#转换测试集

此时，转换后的jpg存储格式如下：

test和train中的图片全是未按标签分类的混合jpg图片

Step 1.1: 将数据根据txt文件按label分类

在train和test文件夹下分别手动创建10个文件夹，命名从0-9，如新建一个文件夹，文件夹名字为6

代码实现过程中由于有些需要重复操作，为了便于直接使用我下面直接按使用步骤全部贴出（可能重复代码有点多，看懂后你可以直接修改

 1 # 1.1.1 将train文件中的tensor(换为=

 2     fileName = 'rawtrain.txt'

 3     f = open(fileName,'w')

 4     lines = f.readlines()

 5

 6     for line in lines:

 7         f.write(line.replace("tensor(","="))

 8     f.close()

 9 # 1.1.2 将train文件中的）去掉，不能同时执行tensor(和）的操作，必须顺序执行

10     fileName = 'rawtrain.txt'

11     f = open(fileName,'w')

12     lines = f.readlines()

13

14     for line in lines:

15         f.write(line.replace(")", ""))

16     f.close()

17

18 # 1.1.3 将上述的文件名换为'rawtest.txt' 重复执行

19

20 # 1.1.4 按rawtrain.txt文件将图片移动至对对应标签的文件夹下

21     fileName = 'rawtrain.txt'

22     f = open(fileName,'r')

23     lines = f.readlines()

24     label = [-1]

25     f = open(fileName,'w')

26

27     for line in lines:

28         splitL = line.split('=')

29         labelnum = int(splitL[1])

30         label.append(labelnum)

31     f.close()

32     del label[0]

33     #  此时label存储图片标签

34

35     # 读取图片并移动

36     root = './raw/train'

37     i = 0

38     lens = len(os.listdir(root))

39     while(lens > 10):

40         img_path = os.path.join(root, str(i)+'.jpg')

41         img_label = label[i]

42         img_new_path = os.path.join(root, str(img_label), str(i)+'.jpg')

43         shutil.move(img_path, img_new_path)

44         i += 1

45         lens = len(os.listdir(root))

46

47

48 # 1.1.5 按rawtest.txt文件将图片移动至对对应标签的文件夹下

49     fileName = 'rawtest.txt'

50     f = open(fileName,'r')

51     lines = f.readlines()

52     label = [-1]

53     f = open(fileName,'w')

54

55     for line in lines:

56         # f.write(line.replace("tensor(","="))

57         # f.write(line.replace(")", ""))

58         splitL = line.split('=')

59         labelnum = int(splitL[1])

60         label.append(labelnum)

61     f.close()

62     del label[0]

63     #  此时label存储图片标签

64

65     # 读取图片

66     root = './raw/test'

67     i = 0

68     lens = len(os.listdir(root))

69     while(lens > 10):

70         img_path = os.path.join(root, str(i)+'.jpg')

71         img_label = label[i]

72         img_new_path = os.path.join(root, str(img_label), str(i)+'.jpg')

73         shutil.move(img_path, img_new_path)

74         i += 1

75         lens = len(os.listdir(root))

Step 2: 将raw下的jpg图片随机分为10个数据集，每个数据集中的图片数相同(包括train and test)，并且每个数据集下的图片按标签分类

分类后的结构如下图：

代码实现：

Step 2.1：新建所需要的所有文件夹

 1 root = './newDataSet/'

 2     for labelname in range(10):

 3         # domain

 4         domain_path = os.path.join(root, "domain"+str(labelname))

 5         # train / test

 6         for use2 in range(2):

 7             useName = ''

 8             if use2 == 0:

 9                 useName = 'train'

10             else:

11                 useName = 'test'

12             use_path = os.path.join(domain_path, useName)

13             # label

14             for i in range(10):

15                 label_path = os.path.join(use_path, str(i))

16                 if os.path.exists(label_path) != True:

17                     try:

18                         os.mkdir(label_path)  # 创建单层文件夹

19                     except Exception as e:

20                         os.makedirs(label_path)  # 创建多层文件夹

Step 2.2: 将raw下的数据按一定比例复制到新的文件夹下(我的代码下不同子数据集的训练数据是来自train的每个标签200张-无交叉，test每个标签50张)

 1    num = 0

 2     d_num = 0

 3     src_root = './raw/train'

 4     # src_root = './raw/test'  # 先执行train 执行结束后再注释掉train 执行test图片复制

 5     dst_root = './newDataSet/'

 6     aims = 'train'

 7     # aims = 'test'

 8     for label in os.listdir(src_root):  # 0

 9         label_path = os.path.join(src_root, label)

10         for img in os.listdir(label_path):  # 1.jpg

11             img_path = os.path.join(label_path, str(img))

12             img_new_path = os.path.join(dst_root, "domain"+str(d_num), aims, str(label), str(img))

13             shutil.copyfile(img_path, img_new_path)

14             num += 1

15             if num == 200:

16             # if num == 50:  # for test

17                 d_num += 1

18                 num = 0

19                 if d_num == 10:

20                     d_num = 0

21                     break

Step 3: 将raw下的jpg图片分为10个数据集，每个数据集中的图片数相同(包括train and test)，并且每个数据集下的图片仅包含一个标签的图片，虽然文件夹结构和第2步相同，但是，如/domain 8/train/1路径下无图片，仅/domain 8/train/8下有数字8的图片，而domain0也仅是Label为0的文件夹下有数字为0的图片

Step 3.1：新建所需的所有文件夹，代码参考Step 2.1 只是需要将root名称换一个

Step 3.2: 将raw下数据按标签和一定比例复制到新的文件夹下。

 1  num = 0

 2     # src_root = './raw/test'

 3     src_root = './raw/train'  # 对train文件操作后需要对test文件执行相同的操作

 4     dst_root = './newDatSet1/'

 5     aims = 'train'

 6     # aims = 'test'

 7     for label in os.listdir(src_root):  # 0

 8         label_path = os.path.join(src_root, label)

 9         for img in os.listdir(label_path):  # 1.jpg

10             img_path = os.path.join(label_path, str(img))

11             img_new_path = os.path.join(dst_root, "domain" + str(label), aims, str(label), str(img))

12             shutil.copyfile(img_path, img_new_path)

13             num += 1

14             if num == 2000:  # train数据为2k,测试数据为500，全部为一个Label的数据

15             # if num == 500:

16                 num = 0

17                 break

至此两个需要的新的拆分格式的数据集创建完毕。所有代码已经测试，均正常运行。

后续：我的方法好像有点繁琐了...参考这篇tensorflow的博客好像更简单。。。

Step 2: 将raw下的jpg图片随机分为10个数据集，每个数据集中的图片数相同(包括train and test)，并且每个数据集下的图片按标签分类

python 将Mnist数据集转为jpg，并按比例/标签拆分为多个子数据集的更多相关文章

Python读取MNIST数据集
MNIST数据集获取 MNIST数据集是入门机器学习/模式识别的最经典数据集之一.最早于1998年Yan Lecun在论文: Gradient-based learning applied to do ...
python读取mnist
python读取mnist 其实就是python怎么读取binnary file mnist的结构如下,选取train-images TRAINING SET IMAGE FILE (train-im ...
python 如何将md5转为16字节
python的hashlib库中提供的hexdigest返回长度32的字符串. md5sum是128bit,也就是16字节,如何将python生成字符串的转为16字节呢? 请看下面代码 import ...
python将nan, inf转为特定的数字
最近,处理两个矩阵的点除,得到结果后,再作其他的计算,发现有些内置的函数不work:查看得到的数据,发现有很多nan和inf,导致python的基本函数运行不了,这是因为在除的过程中分母出现0的缘故. ...
用Python递归解决阿拉伯数字转为中文财务数字格式的问题(2)--打开思路的一种方法
几天前自己写了个将阿拉伯数字转为中文财务数字的程序.用的递归,不幸的是它是树形递归. 虽然实际过程中不太可能出现金额数字大到让Python递归栈溢出,但是始终是一块心病,这玩意终究在理论上是受限制的. ...
10分钟教你用Python玩转微信之好友性别比例统计分析
01 前言+效果展示想必,微信对于大家来说,是再熟悉不过的了.那么,大家想不想探索一下微信上的各种奥秘呢?今天,我们一起来简单分析一下微信上的好友性别比例吧~废话不多说,开始干活. 结果如下: 02 ...
Python 如何将字符串转为字典
在工作中遇到一个小问题,需要将一个 python 的字符串转为字典,比如字符串: user_info = '{"name" : "john", "ge ...
Python数据处理pdf （中文版带书签）、原书代码、数据集
Python数据处理前言 xiii第1 章 Python 简介 11.1 为什么选择Python 41.2 开始使用Python 41.2.1 Python 版本选择 51.2.2 安装Python ...
python画图库及函数，绘制图片从文件提取出来的数据集转化为int，不然作为坐标轴的时候因为是字符串而无法排序
转化int:

随机推荐

keycloak~管理平台的查询bug与自定rest中文检索
对于keycloak来说,它的管理平台在它的源码中的admin-client中,它会定义相关的rest接口规范:在我们使用keycloak管理平台时,其中有一个组的查询,在我们查询中文组时,它是不支持 ...
《汇编语言程序设计》(Professional Assembly Language)学习笔记（二）
挖坑:学习笔记(一)讲述如何在 Windows Vmware 上安装 Ubuntu 20.04 实践环境本文是基于Ubuntu 20.04平台进行实验,下文中的解决方法都基于此前提问题记录问题一 ...
CRM系统用多种形式与客户无障碍沟通
当您与潜在客户.联系人交流,或者团队内部沟通时,是不是经常要在CRM系统和第三方应用之间来回切换,仅仅是为了打电话.开会等,简直不要太麻烦.而CRM客户管理系统与Zoho Meeting的集成,就能够 ...
通过CRM客户系统改变销售工作模式
CRM客户管理软件对于企业来说,能够优化销售流程.维护客户关系.销售流程管理等.但是很多销售人员认为企业购买CRM软件,是用来监视他们的武器,自然会受到销售团队的抵触.所以经常会出现管理者辛苦的选型, ...
想用Electron做个小工具？这个或许是终极版
故事背景之前在网上有看到很多小伙伴基于 electron 实现了非常多好用的桌面端工具,比如图床管理工具 PicGo,就专门做图床工具.也有一些其他的类似的小工具,比如 saladict-deskt ...
fail-fast 与 fail-safe
fail-fast: fail-fast(快速失败),是Java集合的一种错误检测机制.当在遍历集合的过程中该集合在结构(改变集合大小)上发生变化时候,有可能发生fail-fast(快速失败行为不能得 ...
创建者模式 -- 单例模式(反射&序列化)
看的视频:https://www.bilibili.com/video/av43896218/?p=286 实现方式:(构造器私有,提供一个外部可以访问的方法(可以提供实例)) 1.饿汉式:线程安全, ...
java基础---集合(2)
一. Set 集合 java.util.Set集合是Collection集合的子集合,与List集合平级.该集合中元素没有先后放入次序,且不允许重复. 存储的数据在底层数组中并非按照数组索引的顺序添加 ...
Linux磁盘配额与LVM
一.LVM概述逻辑卷管理 Logical Volume Manager二.LVM机制的基本概念三.LVM的管理命令 ① 主要命令 ② ==LVM逻辑卷操作流程== ③ 举例四.磁盘配额概述 ...
EditPlus运行java时如何从键盘输入数据
在练习Java的Scanner时,EditPlus如何读取从键盘输入的数呢? 例如如下程序,编译通过,运行时却输入不了数据: 1 package myP101; 2 3 import java.uti ...

python 将Mnist数据集转为jpg，并按比例/标签拆分为多个子数据集

python 将Mnist数据集转为jpg，并按比例/标签拆分为多个子数据集的更多相关文章

随机推荐

热门专题