技术背景

一般情况下我们会选择使用明文形式来存储数据，如json、txt、csv等等。如果是需要压缩率较高的存储格式，还可以选择使用hdf5或者npz等格式。还有一种比较紧凑的数据存储格式，就是直接按照二进制格式存储。这种格式下，存储的数据之间没有间隔符，在没有压缩的情况下应该是体积最小的存储类型。

使用方法

在Python中，我们可以使用numpy.tofile()功能，直接将numpy数组类型存储到一个二进制文件中。读取的时候，虽然可以直接使用open(file_name, 'rb')来进行读取，但是为了适配大量IO的场景，这里我们使用内存映射mmap的形式来进行数据读取。

完整示例

如下是一个完整的示例代码，相关的功能直接用注释的形式在代码中标记：

import numpy as np

import mmap

import resource

# 获取页数据量大小（单位：字节）

PAGE_SIZE = resource.getpagesize()

# 定义单精度浮点数数据占用字节（单位：字节）

DATA_SIZE = 4

# 计算页存储数据数量（num_float32）

PAGE_FNUM = int(PAGE_SIZE/DATA_SIZE)

print ("The PAGE_SIZE is: {}".format(PAGE_SIZE))

print ("Corresponding float32 numbers should be: {}".format(PAGE_FNUM))

# 生成示例数据，使用PAGE_FNUM+4大小的数据量定义两页数据

tmp_arr = np.arange(PAGE_FNUM+4).astype(np.float32)

# 数据存储路径

tmp_file = '/tmp/tmp.dat'

# 将数组存储到二进制文件中

tmp_arr.tofile(tmp_file)

# 每次从二进制文件中读取4个数据

READ_NUM = 4

with open(tmp_file, 'rb') as file:

    # 第一页数据的内存映射

    mm = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ, offset=0)

    # 第一页数据的1、2、3、4位数据

    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))

    # 第一页数据的5、6、7、8位数据

    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))

    # 第二页数据的内存映射

    mm = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ, offset=PAGE_SIZE)

    # 第二页数据的1~4位数据

    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))

    # 第二页数据的5~8位数据

    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))

    # 关闭内存映射

    mm.close()

# 退出文件IO

该脚本的输出结果为：

The PAGE_SIZE is: 4096

Corresponding float32 numbers should be: 1024

[0. 1. 2. 3.]

[4. 5. 6. 7.]

[1024. 1025. 1026. 1027.]

[]

结果解析

我们打印的第一个数据是页大小，这里显示是4096个字节。而一个单精度浮点数占4个字节，所以一页存了1024个单精度浮点数，也就是第二个打印输出的结果。由于我们定义的numpy数组是一个从0开始的递增数组，因此第一页数据的前8位数字就是从0到7。而第二页的数据是1024~1027一共4个浮点数，占16个字节。所以我们在第二页第二次使用numpy.frombuffer()去读取数据的时候，得到的是一个空的数组。此外我们可以查看一下这个二进制文件的大小：

In [1]: import os

In [2]: os.path.getsize('/tmp/tmp.dat')

Out[2]: 4112

一共是4112个字节，刚好是4096+16个字节。

总结概要

本文介绍了一种在Python中将Numpy数组转存为一个紧凑的二进制格式的文件，及其使用内存映射的形式进行读取的方案。一个二进制的数据流，不仅可以更加方便页形式的内存映射，相比于传统的Numpy单精度浮点数数组还有一个可哈希的特性。总体来说是一个对于高性能计算十分友好的存储格式，在cudaSPONGE中作为一个分子动力学模拟轨迹输出的格式使用。

版权声明

本文首发链接为：https://www.cnblogs.com/dechinphy/p/dat.html

作者ID：DechinPhy

更多原著文章：https://www.cnblogs.com/dechinphy/

请博主喝咖啡：https://www.cnblogs.com/dechinphy/gallery/image/379634.html

Python存储与读写二进制文件的更多相关文章

Python之文件读写
本节内容: I/O操作概述文件读写实现原理与操作步骤文件打开模式 Python文件操作步骤示例 Python文件读取相关方法文件读写与字符编码一.I/O操作概述 I/O在计算机中是指Input ...
[Matlab+C/C++] 读写二进制文件
introduction 因为Matlab操作简单.方便,它被应用于很多领域:音频处理,图像处理,数值计算等.尽管MATLAB容易操作,但受限于他的语言解释机制,MATLAB的执行速度通常较低.C/C ...
Python中怎么读写文件
python中对文件的操作大概分为三步:打开文件.操作文件(读.写.追加写入).关闭文件. 1.无论对文件做哪种操作,操作前首先要保证文件被打开了,即需要一个打开的操作. 例:open(XXX.txt ...
【转】Python之文件读写
[转]Python之文件读写本节内容: I/O操作概述文件读写实现原理与操作步骤文件打开模式 Python文件操作步骤示例 Python文件读取相关方法文件读写与字符编码一.I/O操作概述 ...
(转)Python之文件读写
Python之文件读写原文:https://www.cnblogs.com/huilixieqi/p/6494891.html 本节内容: I/O操作概述文件读写实现原理与操作步骤文件打开模式 ...
Python IO编程-读写文件
1.1给出规格化得地址字符串,这些字符串是经过转义的能直接在代码里使用的字符串需要导入os模块 import os >>>os.path.join('user','bin','sp ...
python 基础-文件读写'r' 和 'rb'区别
原文链接: python基础-文件读写'r' 和 'rb'区别一.Python文件读写的几种模式: r,rb,w,wb 那么在读写文件时,有无b标识的的主要区别在哪里呢? 1.文件使用方式标识 'r ...
【转】C++读写二进制文件
原文网址:http://blog.csdn.net/lightlater/article/details/6364931 摘要: 使用C++读写二进制文件,在开发中操作的比较频繁,今天有幸找到一篇文章 ...
Python使用openpyxl读写excel文件
Python使用openpyxl读写excel文件这是一个第三方库,可以处理xlsx格式的Excel文件.pip install openpyxl安装.如果使用Aanconda,应该自带了. 读取E ...
Android简易实战教程--第十五话《在外部存储中读写文件》
第七话里面介绍了在内部存储读写文件点击打开链接. 这样有一个比较打的问题,假设系统内存不够用,杀本应用无法执行,或者本应用被用户卸载重新安装后.以前保存的用户名和密码都不会得到回显.所以,有必要注意 ...

随机推荐

java dom4j解析xml
jar包下载官网地址:点我直达将jar包导入工程 package com.cyb; import java.io.InputStream; import java.security.Message ...
OffscreenCanvas-离屏canvas使用说明
OffscreenCanvas 是一个实验中的新特性,主要用于提升 Canvas 2D/3D 绘图的渲染性能和使用体验.OffscreenCanvas 的 API 很简单,但是要真正掌握好如何使用. ...
手把手帮助你搭建属于自己的个人博客，使用cervel部署，无需后端
1.项目简介项目使用了vue+elementUI技术栈,通过读取本地md文件实现博客文章的展示,使用vercel实现自动化部署,纯前端项目,无需后端第一步:下载源码仓库地址: github:ht ...
git篇-- Git在项目实操中常见的使用命令--02
Git是现代软件开发中不可或缺的版本控制工具.它能帮助开发者跟踪项目的所有变更,并与团队成员高效协作.本文将介绍一些在项目实操中常见的Git命令,帮助你更好地管理代码. 1. 初始化和配置初始化仓库 ...
adb shell 批处理文件
adb shell 批处理文件手机截屏,并把图片传到电脑
B站上教虚幻引擎做游戏的博主 —— 谌嘉诚
个人主页地址: https://space.bilibili.com/31898841/ 课程地址: https://www.bilibili.com/video/BV164411Y732/
python中numpy.random.seed设置随机种子是否影响子进程
给出代码: from multiprocessing import Process import numpy as np class NN(Process): def __init__(self, i ...
VcXsrv: 一个好用的Windows X11 Server
windows10没有系统自带的X11服务器,使用了几款X11的windows下X11服务器软件后发现了一个好用的软件--VcXsrv. 下载地址: https://sourceforge.net/p ...
How to 'apt-get install python-opengl' on Ubuntu22.04
ImportError: Error occurred while running `from pyglet.gl import *` HINT: make sure you have OpenGL ...
VSCode配置git
1.背景 vscode中基础git; 前提:本地已经安装好了git 有这样的菜单,并且可以正常上传下载代码 2.步骤步骤一:找的git的安装路径: D:\Program Files\Git 步骤二: ...

Python存储与读写二进制文件