h5py学习(一)核心概念
因pandas的to_hdf5函数有bug TypeError: object of type 'int' has no len(),写dataframe数据出现了报错,遂决定直接使用h5py来写数据。
以下翻译自https://www.h5py.org/
核心概念
h5py包是用于HDF5二进制数据格式的Python接口
HDF5可以让你储存大量数值数据,以及很容易的操作NumPy的数据。比如,你可以将储存在磁盘上多个T大小的数据进行切片,就像他们是真实的Numpy数组一样。数以千计的数据集可以被储存到一个文件,可以根据需要进行分类和标记。
一个HDF5文件是一共包含两种对象的容器:datasets,他们是类似于数组的数据的集合。groups,他们是类似于文件夹的容器,包含了datasets和其他的groups。
何时使用h5py的最基本的事是:
Groups是像字典一样工作,而datasets像NumPy数组一样工作。
假设有人给你发了一个HDF5文件,mytestfile.hdf5. (关于如何创建此文件,请阅读附录:创建文件)您需要做的第一件事就是打开文件进行读取:
>>> import h5py
>>> f = h5p.file('mytestfile.hdf5', 'r')
这个文件对象是你的出发点。这个文件中存储了什么?记得h5py.File文件就像一个Python字典,因此我们可以查看键,
>>> list(f.keys())
['mydataset']
根据我们的观察,文件里有一组数据,mydataset。让我们将这个数据集作为Dataset对象
>>> dset = f['mydataset']
我们得到的对象不是数组,而是HDF5 dataset.与NumPy数组一样,datasets既有形状也有数据类型:
>>> dset.shape
(100,)
>>> dset.dtype
dtype('int32')
它们还支持和数组一样的的切片。这就是你读写数据的方式从文件中的数据集:
附录:创建文件
在这一点上,你可能想知道mytestdata.hdf5文件是如何被创建的。我在file对象初始化时,将mode设置成w。而其他的一些模式是a(用于读/写/创建访问)和r+(用于读/写访问)。
>>> import h5py
>>> import numpy as np
>>> f = h5py.File("mytestfile.hdf5", "w")
这个file对象具有几个有趣的方法。其中一个是create_dataset,顾名思义,是创建给定形状和数据类型的数据集
>>> dset = f.create_dataset("mydataset", (100,), dtype='i')
file对象是一个上下文管理器;所以下面的代码也可以工作
>>> import h5py
>>> import numpy as np
>>> with h5py.File("mytestfile.hdf5", "w") as f:
>>> dset = f.create_dataset("mydataset", (100,), dtype='i')
Groups与分层结构
“HDF”意为“Hierarchical Data Format分层数据格式”。HDF5文件中的每个对象有一个名称,并且它们用 / 分隔符以POSIX风格的层次进行排列:
>>> dset.name
'/mydataset'
这个系统中的“folders”称为groups. 我们创建的file对象本身就是一个group,在本例中是root group,名称为 /:
>>> f.name
'/'
创建子组是通过恰当命名的create_group来实现. 但我们需要先以“append”模式(如果存在,则读/写,否则创建)打开文件:
>>> f = h5py.File('mydataset.hdf5', 'a')
>>> grp = f.create_group("subgroup")
和file对象一样,所有Group对象都具有create_*的方法:
>>> dset2 = grp.create_dataset("another_dataset", (50,), dtype='f')
>>> dset2.name
'/subgroup/another_dataset'
顺便说一句,您不必手动创建所有的中间groups。指定完整路径就可以了:(即所谓的层次创建)
>>> dset3 = f.create_dataset('subgroup2/dataset_three', (10,), dtype='i')
>>> dset3.name
'/subgroup2/dataset_three'
Group支持大多数Python字典样式的接口。使用item-retrieval语法检索文件中的对象:
>>> dataset_three = f['subgroup2/dataset_three']
迭代groups可提供其成员的名称:
>>> for name in f:
... print(name)
mydataset
subgroup
subgroup2
还可以使用名称来测试成员是否存在:
>>> "mydataset" in f
True
>>> "somethingelse" in f
False
您甚至可以使用完整的路径名:
>>> "subgroup/another_dataset" in f
True
还有熟悉的keys(), values(), items()和iter()方法,以及get()方法。
因为迭代一个组只会产生其直接连接的成员,对整个文件的迭代是用group方法visit()和visititems(),需要调用:
>>> def printname(name):
... print(name)
>>> f.visit(printname)
mydataset
subgroup
subgroup/another_dataset
subgroup2
subgroup2/dataset_three
更多信息,请参见组.
属性
HDF5的一个最好的特性是您可以立即存储元数据它所描述的数据。所有groups和datasets都支持附加一串属性.
属性通过attrs代理对象实现字典接口:
>>> dset.attrs['temperature'] = 99.5
>>> dset.attrs['temperature']
99.5
>>> 'temperature' in dset.attrs
True
h5py学习(一)核心概念的更多相关文章
- Hadoop YARN学习之核心概念(2)
Hadoop YARN学习之核心概念(2) 1. Hadoop 2.X YARN引入的新服务 1.1 新的ResourceManager纯碎作为资源调度器,是集群资源的唯一仲裁者: 1.2 用户应用程 ...
- fusionjs 学习二 核心概念
核心概念 middleware 类似express 的中间件模型(实际上是构建在koa中间件模型上的),但是和koa 的中间件有差异 fusionjs 的中间件同时可以运行在浏览器页面加载的时候 se ...
- Facebook币Libra学习-1.核心概念
Libra区块链是一个基于Libra协议的加密认证的分布式数据库.本文将简略介绍Libra协议的核心概念.其详细说明请参阅Libra技术白皮书. Libra区块链由分布式的Validator节点网络维 ...
- 【ShardingSphere】ShardingSphere学习(二)-核心概念-SQL
逻辑表 水平拆分的数据库(表)的相同逻辑和数据结构表的总称. 例:订单数据根据主键尾数拆分为10张表,分别是t_order_0到t_order_9,他们的逻辑表名为t_order. 真实表 在分片的数 ...
- ElasticSearch学习笔记-01 简介、安装、配置与核心概念
一.简介 ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎.设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便.支持通过HTTP使用JSON进 ...
- JAVA入门(1.JAVA平台应用 2.核心概念:JVM,JDK,JRE 3.搭建JAVA开发环境 4.学习JAVA的原则)
主要内容: 1.JAVA平台应用 2.核心概念:JVM,JDK,JRE 3.搭建JAVA开发环境 4.学习JAVA的原则 JAVA的平台应用 JAVA的平台应用分为3个部分: 一.JAVA SE,主要 ...
- 学习 JavaScript (四)核心概念:操作符
JavaScript 的核心概念主要由语法.变量.数据类型.操作符.语句.函数组成,前面三个上一篇文章已经讲解完了.后面三个内容超级多,这篇文章主要讲解的是操作符. 操作符 什么叫做操作符? 这是一种 ...
- 学习 JavaScript (三)核心概念:语法、变量、数据类型
JavaScript 的核心概念主要由语法.变量.数据类型.操作符.语句.函数组成,这篇文章主要讲解的是前面三个,后面三个下一篇文章再讲解. 01 语法 熟悉 JavaScript 历史的人应该都知道 ...
- 框架源码系列十:Spring AOP(AOP的核心概念回顾、Spring中AOP的用法、Spring AOP 源码学习)
一.AOP的核心概念回顾 https://docs.spring.io/spring/docs/5.1.3.RELEASE/spring-framework-reference/core.html#a ...
- (转)Maven学习总结(四)——Maven核心概念
孤傲苍狼只为成功找方法,不为失败找借口! Maven学习总结(四)——Maven核心概念 一.Maven坐标 1.1.什么是坐标? 在平面几何中坐标(x,y)可以标识平面中唯一的一点. 1.2.Mav ...
随机推荐
- Qt实现简单的TCP协议(客户端的实现)
1.QT提供了QTcpSocket类,可以直接实例化一个客户端.需要在pro文件中添加 QT += network 2.连接服务端 connect(connectbutton,SIGNAL(cli ...
- 【3】java之string类
String 是一个字符串类型的类,使用双引号定义的内容都是字符串,但是 String 本身是一个类,使用上会有一些特殊. 一. String类对象的两种实例化方式 1.1 直接赋值 public c ...
- Java学习笔记(三)java方法
学习笔记3 Java方法 一.什么是方法 System.out.println() 是什么 System是一个类,out是一个对象,println()就是一个方法 意思是调用System中的out对象 ...
- CF1744F MEX vs MED
个人思路: 条件可以转化成长度为 \(x\) 的区间需要包含 \([0,\lfloor \frac{(x-1)}{2} \rfloor]\). 我们从小到大枚举每一个数 \(i\),计算长度为 \(i ...
- tdlib成功编译版本20230205(java)
tdjni是java本地调用接口dll文件夹下的三个动态链接是供tdjni调用的使用时这三个加到系统环境变量里 编译文件在本人的文件里,可以下载
- 179. 最大数 (Medium)
问题描述 179. 最大数 (Medium) 给定一组非负整数 nums,重新排列每个数的顺序(每个数不可拆分)使之组成一个最大的整数. 注意: 输出结果可能非常大,所以你需要返回一个字符串而不是整数 ...
- pytest框架增加log打印(包括pytest的执行结果、自定义的log信息)
前言: 之前同事在跑脚本的时候报错了,发现没法把需要的log信息打印出来,我这边定位问题比较麻烦,所以增加了log的打印.这个问题之前已经处理过了,本来以为是小问题,结果今天又要用到这个小技巧的时候居 ...
- Nginx 虚拟主机中配置 server_name ⼀个server块中配置多个站点 ⼀个站点配置多个⼆级域名
⼀个server块中配置多个站点 server { listen 80; server_name ~^(www.)?(.+)$; index index.php index.html; root /h ...
- MeterSphere中dubbo接口测试分享
一.域名解释 1.1.接口文档:UserAccountAssetServiceI.getUserAccountVirtualAsset UserAccountAssetServiceI(接口名,需要用 ...
- Vue.js中使用iView日期选择器并设置开始时间结束时间校验
废话不多说直接上代码,拷贝代码保存为 html 文件,用浏览器打开就可以看到效果. 在线查看效果:https://run.iviewui.com/PmGsUW3P 1 <!DOCTYPE htm ...