将Mnist手写数字库转化为图片形式和标签形式

Mnist 数据文件有两种，一种是图片文件，一种是标签文件，那么如何把他们解析出来呢？

（1）解析图片文件

　　可以看出在train-images.idx3-ubyte中，第一个数为32位的整数（魔数，图片类型的数），第二个数为32位的整数（图片的个数），第三和第四个也是32为的整数（分别代表图片的行数和列数），接下来的都是一个字节的无符号数（即像素，值域为0~255），因此，我们只需要依次获取魔数和图片的个数，然后获取图片的长和宽，最后逐个像素读取就可以了。

（2）解析标签文件

　　可以发现，与上面的非常相似，只不过这里每一个字节变成了标签而已（标签大小为0~9）
　　如何使用python解析数据呢? 首先需要安装python的图形处理库PIL，这个库支持像素级别的图像处理，对于学习数字图像处理有很大的帮助。安装完成之后，就可以进行图像的解析了。看一下代码：

from PIL import Image

import struct

def read_image(filename):

    f = open(filename,'rb')

    index = 0

    buf = f.read()

    f.close()

    magic, images, rows, columns = struct.unpack_from('>IIII' , buf , index)

    index += struct.calcsize('>IIII')

    for i in range(images):

        image = Image.new('L', (columns, rows))

        for x in range(rows):

            for y in range(columns):

                image.putpixel((y, x), int(struct.unpack_from('>B', buf, index)[0]))

                index += struct.calcsize('>B')

        print('save ' + str(i) + 'image')

        image.save('E:/Mnist/' + str(i) + '.png')

def read_label(filename, saveFilename):

    f = open(filename, 'rb')

    index = 0

    buf = f.read()

    f.close()

    magic, labels = struct.unpack_from('>II' , buf , index)

    index += struct.calcsize('>II')

    labelArr = [0] * labels

    for x in range(labels):

        labelArr[x] = int(struct.unpack_from('>B', buf, index)[0])

        index += struct.calcsize('>B')

        save = open(saveFilename, 'w')

        save.write(','.join(map(lambda x: str(x), labelArr)))

        save.write('\n')

        save.close()

        print('save labels success')

if __name__ == '__main__':

     read_image('E:/Python/t10k-images.idx3-ubyte')

    read_label('E:/Python/t10k-labels.idx1-ubyte', 'E:/Mnist_Label/label.txt')

程序的具体流程为：

　　首先打开文件，然后分别读取魔数，图片个数，以及行数和列数，在struct中，可以看到，使用了’>IIII’，这是什么意思呢？意思就是使用大端规则，读取四个整形数（Integer），如果要读取一个字节，则可以用’>B’（当然，这里用没用大端规则都是一样的，因此只有两个或两个以上的字节才有用）。

　　什么是大端规则呢？不懂的可以百度一下，这个不再赘述（http://baike.baidu.com/link?url=Bgg8b0vRr3b_SeGyOl8U4DmAbIQT9swGuNtD_21ctEI_NliqsQ-mKF73YT90EILF2EQy50mEua_M4z6Cma3rmK）

引自博客：

原文：https://blog.csdn.net/u014046170/article/details/47445919

最后效果：

将Mnist手写数字库转化为图片形式和标签形式的更多相关文章

[机器学习] keras：MNIST手写数字体识别（DeepLearning 的 HelloWord程序）
深度学习界的Hello Word程序:MNIST手写数字体识别 learn from(仍然是李宏毅老师<机器学习>课程):http://speech.ee.ntu.edu.tw/~tlka ...
MNIST手写数字数据库
手写数字库很容易建立,但是总会很浪费时间.Google实验室的Corinna Cortes和纽约大学柯朗研究所的Yann LeCun建有一个手写数字数据库,训练库有60,000张手写数字图像,测试库有 ...
用tensorflow搭建RNN(LSTM)进行MNIST 手写数字辨识
用tensorflow搭建RNN(LSTM)进行MNIST 手写数字辨识循环神经网络RNN相比传统的神经网络在处理序列化数据时更有优势,因为RNN能够将加入上(下)文信息进行考虑.一个简单的RNN如 ...
TensorFlow系列专题（六）：实战项目Mnist手写数据集识别
欢迎大家关注我们的网站和系列教程:http://panchuang.net/ ,学习更多的机器学习.深度学习的知识! 目录: 导读 MNIST数据集数据处理单层隐藏层神经网络的实现多层隐藏层神经 ...
如何用卷积神经网络CNN识别手写数字集？
前几天用CNN识别手写数字集,后来看到kaggle上有一个比赛是识别手写数字集的,已经进行了一年多了,目前有1179个有效提交,最高的是100%,我做了一下,用keras做的,一开始用最简单的MLP, ...
tensorflow笔记（四）之MNIST手写识别系列一
tensorflow笔记(四)之MNIST手写识别系列一版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7436310.html ...
Android+TensorFlow+CNN+MNIST 手写数字识别实现
Android+TensorFlow+CNN+MNIST 手写数字识别实现 SkySeraph 2018 Email:skyseraph00#163.com 更多精彩请直接访问SkySeraph个人站 ...
【TensorFlow篇】--Tensorflow框架实现SoftMax模型识别手写数字集
一.前述本文讲述用Tensorflow框架实现SoftMax模型识别手写数字集,来实现多分类. 同时对模型的保存和恢复做下示例. 二.具体原理代码一:实现代码 #!/usr/bin/python ...
基于tensorflow的MNIST手写数字识别（二）--入门篇
http://www.jianshu.com/p/4195577585e6 基于tensorflow的MNIST手写字识别(一)--白话卷积神经网络模型基于tensorflow的MNIST手写数字识 ...

随机推荐

背景图片之background的用法
常用的background背景属性有: background-color 设置颜色作为对象背景颜色background-image 设置图片作为背景图片background-repeat 设置背景平铺 ...
php socket简单使用
php的socket编程算是比较难以理解的东西吧,不过,我们只要理解socket几个函数之间的关系,以及它们所扮演的角色,那么理解起来应该不是很难了,在笔者看来,socket编程,其实就是建立一个网络 ...
react- 相关
生命周期方法组件的生命周期分成三个状态: Mounting:已插入真实 DOM Updating:正在被重新渲染 Unmounting:已移出真实 DOM React 为每个状态都提供了两种处理函数 ...
php网站修改默认访问文件的nginx配置
搭建好lnmp后,有时候并不需要直接访问index.php,配置其他的默认访问文件比如index.html这时候需要配置一下nginx才能访问到你想要设置的文件直接上代码,如下是我的配置的一份简单的 ...
开源框架 epics，开源画面编辑软件 edm
epics Experimental Physics and Industrial Control System 一套开源软件框架,实验物理和工业控制系统 http://www.aps.anl.gov ...
node实现爬虫
node实现获取到豆瓣电影排行榜页面. 准备工作: 1.新建一个文件夹node 在当前文件夹中打开cmd 下载 npm install 初始化 npm init(注意一下:如果你的npm init没有 ...
解决robotframework安装时提示wxPython not found问题
背景:想把现在pc的项目做成关键字的形式,可以让功能测试人员也参与到自动化测试中,于是就找到robotframework这个框架,试用下怎么样,在安装时就遇到很多问题,安装的帖子有很多,很详细,如:h ...
Android（java）学习笔记65：Clock App 编写报错02
1. 首先之间看错误: 07-13 10:07:55.354: E/AndroidRuntime(8008): FATAL EXCEPTION: main 07-13 10:07:55.354: E/ ...
计算最大矩形面积,POJ(2082)
题目链接:http://poj.org/problem?id=2082 把矩形按照高度一次递增的循序排列,当违反这一规则的时候,更新ans,用新的data替换之前的矩形.然后最后扫一遍. #inclu ...
lintcode 77.Longest Common Subsequence(最长公共子序列)、79. Longest Common Substring(最长公共子串)
Longest Common Subsequence最长公共子序列: 每个dp位置表示的是第i.j个字母的最长公共子序列 class Solution { public: int findLength ...

将Mnist手写数字库转化为图片形式 和标签形式

将Mnist手写数字库转化为图片形式 和标签形式的更多相关文章

随机推荐

热门专题

将Mnist手写数字库转化为图片形式和标签形式

将Mnist手写数字库转化为图片形式和标签形式的更多相关文章