开源标准数据集 —— mnist(手写字符识别)

下载地址:mnist.pkl.gz

1. 使用 python 读取和解析 mnist.pkl.gz

import pickle
import gzip
from PIL import Image def load_data():
with gzip.open('./mnist.pkl.gz') as fp:
training_data, valid_data, test_data = pickle.load(fp)
return training_data, valid_data, test_data training_data, valid_data, test_data = load_data()
print len(training_data[0])
print len(valid_data[0])
print len(test_data[0])
print len(training_data[0][0]) I = training_data[0][0]
I.resize((28, 28))
im = Image.fromarray((I*256).astype('uint8'))
im.show()
im.save('5.png')

可以看出,mnist.pkl.gz 分为训练集,校验集和测试集;

使用 PIL 中的图像相关 api,我们可对其中的图像显示出来并保存;

2. Python中的单行、多行、中文注释

在大量的数据处理或者计算机视觉的文献和著作中,我们常见如下的数据集可视化(甚至对参数也可进行可视化,毕竟图像的本质是二维数组),通过文章末尾的代 码我们发现只需对布局及间距的慎重设置,便可对大量丰富的图像以”地板贴砖(tiles on a floor)”的形式进行组织,也即可视化,展示数据或相关工作,可以起到十分直观的效果,下图即是对深度神经网络的权值矩阵进行的贴砖可视化:

def normalize(darr, eps=1e-8):
# normalize(x) = (x-min)/(max-min)
darr -= darr.min()
darr *= 1./(darr.max()+eps)
return darr def tile_raster_images(X, image_shape, tile_shape,
tile_spacing=(0, 0), normalize_rows=True, output_pixel_vals=True):
# image_shape:每一个砖的高和宽,
# tile_shape:在横纵两个方向上分别有多少砖
# tile_spacing:砖与砖之间的距离
# normalize_rows:是否对砖进行归一化
# output_pixel_vals:是否对砖以图像的形式进行显示 assert len(image_shape) == 2
assert len(tile_shape) == 2
assert len(tile_spacing) == 2
# 对参数进行断言,确保它们都是二维元组
output_shape = [
(ishp + tsp)*tshp-tsp
for ishp, tshp, tsp in zip(image_shape, tile_shape, tile_spacing)
]
# image_shape == (28, 28) mnist data
# tile_shape == (10, 10), tile_spacing == (1, 1)
# [(28+1)*10-1]*[(28+1)*10-1] H, W = image_shape
Hs, Ws = tile_spacing
dt = 'uint8' if output_pixel_vals else X.dtype
# python 风格的三目运算符
output_array = numpy.zeros(output_shape, dtype=dt) # 开始贴砖
for i in range(tile_shape[0]):
for j in range(tile_shape[1]):
if i*tile_shape[1]+j < X.shape[0]:
# X的每一行是一个图像(二维)flatten后的(一维的行向量)
this_x = X[i*tile_shape[1]+j]
this_image = normalize(this_x.reshape(image_shape)) if normalize_rows else this_x.reshape(image_shape)
c = 255 if output_pixel_vals else 1
output_array[
i*(H+Hs):i*(H+Hs)+H, j*(W+Ws):j*(W+Ws)+W
] = this_image*c
return output_array import numpy
from PIL import Image X = numpy.random.randn(500, 28*28)
arr = tile_raster_images(X, image_shape=(28, 28),
tile_shape=(12, 12), tile_spacing=(1, 1))
img = Image.fromarray(arr)
img.show()
img.save('./砖块可视化.png')
# 这里也可使用 matplotlib 进行显示
# plt.imshow(img, cmap='gray')
# plt.show()

可视化可以更直观的观察数据,让工作更加高效。

3. 数据可视化,贴砖

一、python单行注释符号(#)

示例:#this is a comment

二、批量、多行注释符号

多行注释是用三引号”’ ”’包含的,引号可以使单引号也可以是双引号

例如:

'''
ABC
ABC
ABC
'''
"""
ABC
ABC
ABC
"""

三、python中文注释方法

如果文件里有非ASCII字符,需要在第一行或第二行指定编码声明。把ChineseTest.py文件的编码重新改为ANSI,并加上编码声明:

一定要在第一行或者第二行加上这么一句话:

#coding=utf-8

# -*- coding: utf-8 -*-

我刚开始加上了依然出错,是因为我的py文件的前三行是注释声明,我把这句话放在了第四行,所以依然报错。

py脚本的前两行一般都是:

#!/usr/bin/python

# -*- coding: utf-8 -*-

python 读写数据的更多相关文章

  1. python读写数据篇

    一.读写数据1.读数据 #使用open打开文件后一定要记得调用文件对象的close()方法.比如可以用try/finally语句来确保最后能关闭文件.file_object = open('thefi ...

  2. python操作txt文件中数据教程[1]-使用python读写txt文件

    python操作txt文件中数据教程[1]-使用python读写txt文件 觉得有用的话,欢迎一起讨论相互学习~Follow Me 原始txt文件 程序实现后结果 程序实现 filename = '. ...

  3. Python StringIO实现内存缓冲区中读写数据

    StringIO的行为与file对象非常像,但它不是磁盘上文件,而是一个内存里的“文件”,我们可以像操作磁盘文件那样来操作StringIO.这篇文章主要介绍了Python StringIO模块,此模块 ...

  4. Python 学习 第17篇:从SQL Server数据库读写数据

    在Python语言中,从SQL Server数据库读写数据,通常情况下,都是使用sqlalchemy 包和 pymssql 包的组合,这是因为大多数数据处理程序都需要用到DataFrame对象,它内置 ...

  5. Python中异常和JSON读写数据

    异常可以防止出现一些不友好的信息返回给用户,有助于提升程序的可用性,在java中通过try ... catch ... finally来处理异常,在Python中通过try ... except .. ...

  6. Python读写文件

    Python读写文件1.open使用open打开文件后一定要记得调用文件对象的close()方法.比如可以用try/finally语句来确保最后能关闭文件. file_object = open('t ...

  7. python 读写、创建 文件

    python中对文件.文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块. 得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd() 返回指定目录下的所有文件和目 ...

  8. [转]用Python读写Excel文件

    [转]用Python读写Excel文件   转自:http://www.gocalf.com/blog/python-read-write-excel.html#xlrd-xlwt 虽然天天跟数据打交 ...

  9. [Python]读写文件方法

    http://www.cnblogs.com/lovebread/archive/2009/12/24/1631108.html [Python]读写文件方法 http://www.cnblogs.c ...

随机推荐

  1. JDK7集合框架源码阅读(二) LinkedList

    基于版本jdk1.7.0_80 java.util.LinkedList 代码如下 /* * Copyright (c) 1997, 2011, Oracle and/or its affiliate ...

  2. 牛客网 牛客小白月赛5 I.区间 (interval)-线段树 or 差分数组?

    牛客小白月赛5 I.区间 (interval) 休闲的时候写的,但是写的心情有点挫,都是完全版线段树,我的一个队友直接就水过去了,为啥我的就超内存呢??? 试了一晚上,找出来了,多初始化了add标记数 ...

  3. Bug预防体系

    Web常见产品问题及预防 测试人员在每次版本迭代中,会对项目的整体质量有一个把控,对于项目常见的问题,开发经常犯的错误都会有所了解,为了避免或者减少这样的错误或不规范的事情在发生,测试人员可以整理构建 ...

  4. ESLint 的使用和.eslintrc.js配置

    在团队协作中,为避免低级 Bug.产出风格统一的代码,会预先制定编码规范.使用 Lint 工具和代码风格检测工具,则可以辅助编码规范执行,有效控制代码质量. ESLint 简介 ESLint 由 Ja ...

  5. [CF617E]XOR and Favorite Number/[CQOI2018]异或序列

    题目大意: 给定一个长度为$n(n\leq10^5)$的数列$A$和数$k$$(A_i,k\leq10^6)$.$m$组询问,每次询问区间$[l,r]$中有多少对$i,j(l\leq i\leq j\ ...

  6. Unity3d之MonoBehavior的各个函数的执行顺序,回调,顺序,次数等

    Update 当MonoBehaviour启用时,其Update在每一帧被调用.仅调用一次(每帧) LateUpdate 当Behaviour启用时,  每帧调用一次: FixedUpdate 当Mo ...

  7. hdu 1556 Color the ball 线段树

    题目链接:HDU - 1556 N个气球排成一排,从左到右依次编号为1,2,3....N.每次给定2个整数a b(a <= b),lele便为骑上他的“小飞鸽"牌电动车从气球a开始到气 ...

  8. 四. Java继承和多态1. 继承的概念与实现

    继承是类与类之间的关系,是一个很简单很直观的概念,与现实世界中的继承(例如儿子继承父亲财产)类似. 继承可以理解为一个类从另一个类获取方法和属性的过程.如果类B继承于类A,那么B就拥有A的方法和属性. ...

  9. CentOS 6.9设置IP、网关、DNS

    在/etc/sysconfig/network-scripts目录下,用vi命令编辑eth0: DEVICE=eth0 #设备名称 HWADDR=C8:1F:66:B8:EB:9F #物理地址 ONB ...

  10. EDM邮件群发十大技巧提升邮件群发效果

    有很多人抱怨现在邮件群发没有什么效果,其实不然,每一种推广方式都有他的优势,没有看到效果说明你没有掌握好方法.个人觉得EDM邮件群发的优势在于传播速度快.不受地域限制.不受时间限制.邮件内容能够多元化 ...