numpy数组之读写文件

通过 numpy 读写 txt 或 csv 文件
通过 numpy 读写 npy 或 npz 文件
- 读写 npy 文件
- 读写 npz 文件
通过 h5py 读写 hdf5 文件
- 简单读取
- 通过切片赋值
总结
References

将 numpy 数组存入文件，有多种文件类型可供选择，对应地就有不同的方法来读写。

下面我将介绍读写 numpy 的三类文件：

txt 或者 csv 文件
npy 或者 npz 文件
hdf5 文件

通过 numpy 读写 txt 或 csv 文件

import numpy as np

a = np.array(range(20)).reshape((4, 5))

print(a)

# 后缀改为 .txt 一样

filename = 'data/a.csv'

# 写文件

np.savetxt(filename, a, fmt='%d', delimiter=',')

# 读文件

b = np.loadtxt(filename, dtype=np.int32, delimiter=',')

print(b)

缺点：

只能保存一维和二维 numpy 数组，当 numpy 数组 a 有多维时，需要将其 a.reshape((a.shape[0], -1)) 后才能用这种方式保存。
不能追加保存，即每次 np.savetxt() 都会覆盖之前的内容。

通过 numpy 读写 npy 或 npz 文件

读写 npy 文件

import numpy as np

a = np.array(range(20)).reshape((2, 2, 5))

print(a)

filename = 'data/a.npy'

# 写文件

np.save(filename, a)

# 读文件

b = np.load(filename)

print(b)

print(b.shape)

优点：

npy 文件可以保存任意维度的 numpy 数组，不限于一维和二维；
npy 保存了 numpy 数组的结构，保存的时候是什么 shape 和 dtype，取出来时就是什么样的 shape 和 dtype。

缺点：

只能保存一个 numpy 数组，每次保存会覆盖掉之前文件中存在的内容（如果有的话）。

读写 npz 文件

import numpy as np

a = np.array(range(20)).reshape((2, 2, 5))

b = np.array(range(20, 44)).reshape(2, 3 ,4)

print('a:\n', a)

print('b:\n', b)

filename = 'data/a.npz'

# 写文件， 如果不指定key，那么默认key为'arr_0'、'arr_1'，一直排下去。

np.savez(filename, a, b=b)

# 读文件

c = np.load(filename)

print('keys of NpzFile c:\n', c.keys())

print("c['arr_0']:\n", c['arr_0'])

print("c['b']:\n", c['b'])

优点：

npy 文件可以保存任意维度的 numpy 数组，不限于一维和二维；
npy 保存了 numpy 数组的结构，保存的时候是什么 shape 和 dtype，取出来时就是什么样的 shape 和 dtype；
可以同时保存多个 numpy 数组；
可以指定保存 numpy 数组的 key，读取的时候很方便，不会混乱。

缺点：

保存多个 numpy 数组时，只能同时保存，即 np.savez(filename, a, b=b)。每次保存会覆盖掉之前文件中存在的内容（如果有的话）。

通过 h5py 读写 hdf5 文件

优点：

不限 numpy 数组维度，可以保持 numpy 数组结构和数据类型；
适合 numpy 数组很大的情况，文件占用空间小；
可以通过 key 来访问 dataset（可以理解为 numpy.array），读取的时候很方便，不会混乱。
可以不覆盖原文件中含有的内容。

简单读取

import numpy as np

import h5py

a = np.array(range(20)).reshape((2, 2, 5))

b = np.array(range(20)).reshape((1, 4, 5))

print(a)

print(b)

filename = 'data/data.h5'

# 写文件

h5f = h5py.File(filename, 'w')

h5f.create_dataset('a', data=a)

h5f.create_dataset('b', data=b)

h5f.close()

# 读文件

h5f = h5py.File(filename, 'r')

print(type(h5f))

# 通过切片得到numpy数组

print(h5f['a'][:])

print(h5f['b'][:])

h5f.close()

通过切片赋值

import numpy as np

import h5py

a = np.array(range(20)).reshape((2, 2, 5))

print(a)

filename = 'data/a.h5'

# 写文件

h5f = h5py.File(filename, 'w')

# 当数组a太大，需要切片进行操作时，可以不直接对h5f['a']进行初始化；

# 当之后不需要改变h5f['a']的shape时，可以省略maxshape参数

h5f.create_dataset('a', shape=(2, 2, 5), maxshape=(None, 2, 5), dtype=np.int32, compression='gzip')

for i in range(2):

    # 采用切片的形式赋值

    h5f['a'][i] = a[i]

h5f.close()

# 读文件

h5f = h5py.File(filename, 'r')

print(type(h5f))

print(h5f['a'])

# 通过切片得到numpy数组

print(h5f['a'][:])

同一个 hdf5 文件可以创建多个 dataset，读取的时候按照 key 来即可。

总结

csv 和 txt 只能用来存一维或二维 numpy 数组；
npy 用来存单个 numpy 数组，npz 可以同时存多个 numpy 数组，两者都不限 numpy 维度，且都保持 numpy 数组的 shape 和 dtype，写文件时若原文件存在只能覆盖原文件内容；
当 numpy 数组很大时，最好使用 hdf5 文件，hdf5 文件相对更小；
当 numpy 数组很大时，对整个 numpy 数组进行运算容易发生 MemoryError，那么此时可以选择对 numpy 数组切片，将运算后的数组保存到 hdf5 文件中，hdf5 文件支持切片索引。

References

当Python遇上HDF5--性能优化实战 -- 张玉腾

 杂： PYTHON上数据储存：推荐h5py -- Pony_s

numpy数组之读写文件的更多相关文章

python：将numpy数组写入csv文件
import numpy as np np.savetxt('E:\\forpython\\featvector.csv',data_to_save,delimiter=',')
python : 将txt文件中的数据读为numpy数组或列表
很多时候,我们将数据存在txt或者csv格式的文件里,最后再用python读取出来,存到数组或者列表里,再做相应计算.本文首先介绍写入txt的方法,再根据不同的需求(存为数组还是list),介绍从tx ...
numpy数组与python的list互转，然后用json写入文件与c交互
1.对于numpy的tofile方法,一个一维数组可以直接写成二进制形式,用c语言或者numpy.fromfile()可以读出来内容.而如果数组超过一维,tofile并不区分,也就是arr1=[1,2 ...
java读写文件小心缓存数组
一般我们读写文件的时候都是这么写的,看着没问题哈. public static void main(String[] args) throws Exception { FileInputStr ...
玩转NumPy数组
一.Numpy 数值类型 1.前言:Python 本身支持的数值类型有 int(整型, long 长整型).float(浮点型).bool(布尔型) 和 complex(复数型).而 Numpy 支持 ...
计算机程序的思维逻辑 (60) - 随机读写文件及其应用 - 实现一个简单的KV数据库
57节介绍了字节流, 58节介绍了字符流,它们都是以流的方式读写文件,流的方式有几个限制: 要么读,要么写,不能同时读和写不能随机读写,只能从头读到尾,且不能重复读,虽然通过缓冲可以实现部分重读,但 ...
C语言读写文件
对文件的读和写是最常用的文件操作.在C语言中提供了多种文件读写的函数: 字符读写函数 :fgetc和fputc 字符串读写函数:fgets和fputs 数据块读写函数:freed和fwrite 格式 ...
C#常用IO流与读写文件
.文件系统 ()文件系统类的介绍文件操作类大都在System.IO命名空间里.FileSystemInfo类是任何文件系统类的基类:FileInfo与File表示文件系统中的文件:Directory ...
java读写文件大全
java读写文件大全最初java是不支持对文本文件的处理的,为了弥补这个缺憾而引入了Reader和Writer两个类,这两个类都是抽象类,Writer中 write(char[] ch,int o ...

随机推荐

java在线聊天项目 swt可视化窗口Design 重新设计好友列表窗口增加菜单栏
增加的菜单栏效果图如下: eclipse 中调整到 swt的design视图下控件区域选择Menu Controls 将Menu Bar拖动到窗口标题栏将Cascaded Menu拖动到Menu ...
vue父子传值的具体应用
最近我负责的项目已经迭代到第四版了,我作为一个没啥经验的小菜鸟也成长了很多. 在这一版开发开始之前,我老大就要求我在开发过程中尽量实现组件化,因此,我也遇到了很多问题,但基本都解决了,所以趁周末把这些 ...
centos7系统优化
优化说明: 一.关闭selinux 二.更改为阿里yum源三.提权dm用户可以使用sudo 四.优化ssh远程登录配置五.设置中文字符集六.设置时间同步七.历史记录数及登录超时环境变量设置八 ...
jenkins插件开发（二）
https://wiki.jenkins.io/display/JENKINS/Extend+Jenkins http://commons.apache.org/proper/commons-jell ...
条款40：明智而审慎地使用多重继承（use multiple inheritance judiciously）
NOTE: 1.多重继承比单一继承复杂.它可能导致新的歧义性,以及对virtual继承的需要. 2.virtual 继承会增加大小速度初始化(及赋值)复杂度等等成本.如果virtual base ...
python--初识html前端
一.HTML文档结构最基本的HTML文档: <!DOCTYPE html> <html lang="zh-CN"> #这个lang表示语言,zh-CN是中 ...
[Redis]ResponseError: Client sent AUTH, but no password is set
由于在代码中给redis添加了密码,如下 redis_store = redis.Redis(host='localhost', port=6379, db=4, password='root') 然 ...
Java面试之基础题---对象Object
参数传递:Java支持两种数据类型:基本数据类型和引用数据类型. 原始数据类型是一个简单的数据结构,它只有一个与之相关的值.引用数据类型是一个复杂的数据结构,它表示一个对象.原始数据类型的变量将该值直 ...
jquery map.js
(function ($) { HashMap = function () { var index = 0; var content = ''; var keyV = new Array(); var ...
五、docker配置镜像加速器之阿里云
1 配置docker加速器实在忍受不了pull的速度--------- 访问网址: https://dev.aliyun.com/search.html 点击管理中心: 根据操作稳定配置:

numpy数组之读写文件

通过 numpy 读写 txt 或 csv 文件

通过 numpy 读写 npy 或 npz 文件

读写 npy 文件

读写 npz 文件

通过 h5py 读写 hdf5 文件

简单读取

通过切片赋值

总结

References

numpy数组之读写文件的更多相关文章

随机推荐

热门专题