Python数据存储之shelve和dbm

一、shelve 和 dbm 的介绍

shelve 和 dbm 都是 python 自带的数据库管理模块，可以用于持久化存储和检索 python 中的对象。

虽然这两个模块的本质都是建立 key-value 对应关系的数据库，但 shelve 模块更像是 python 中的持久化字典。

支持存储 python 中的几乎所有对象（如整型、字符串、字典、列表等），并且具有一定的数据压缩功能。

而 dbm 则仅支持字符串类型的键和值，并且它们会以二进制文件的方式存储在硬盘上。

shelve 需要使用 pickle 模块对 python 对象进行序列化和反序列化，而 dbm 则直接使用字节序列进行存储。

因此，如果需要实现 python 对象的持久化存储和检索，建议使用 shelve；否则，如果采用 dbm 更为合适。

不仅如此，shelve 和 dbm 在使用上还存在许多区别，例如 shelve 具有锁支持。

而 dbm 不支持锁操作，这意味着在一些数据安全性较高的场景下，shelve 更为适合。

接下来，我们将重点介绍 shelve 和 dbm 的用法、优势以及不同点等方面。

1.shelve 的用法

使用 shelve 模块建立和打开数据库非常简单，我们只需要执行如下代码：

import shelve

db = shelve.open('mydata.db')

这里，我们建立了一个名字为 mydata.db 的数据库文件，并使用 shelve 模块中的 open() 方法建立了一个 shelve 对象 db。

此时，我们可以使用 python 字典的方式来存储和读取对象：

import shelve

db = shelve.open('mydata.db')

db['key1'] = 'value1'

db['key2'] = 2

db['key3'] = {'name': 'Jack', 'age': 25}

print(db['key1']) # 输出 value1

print(db['key2']) # 输出 2

print(db['key3']) # 输出 {'name': 'Jack', 'age': 25}

可以看到，我们成功地将不同类型的 python 对象存储到了 shelve 数据库中，并且通过相应的键名完成了对其的读取操作。

需要注意的是，在使用 shelve 存储自定义对象时，通过 setstate__() 和 __getstate() 方法来实现对象的序列化和反序列化。

shelve 对象也可以使用 python 的 with 语句进行上下文管理：

import shelve

with shelve.open('mydata.db') as db:

    db['key4'] = {'name': 'Tom', 'age': 22}

print(db['key4']) # 输出 KeyError: 'key4'

使用 with 语句可以确保在代码块结束时，shelve 对象会被关闭，并将其所包含的对象保存到硬盘上。

此时，需要注意的是，由于已经关闭了 shelve 对象，无法再直接使用 db 对象访问键值 key4。

最后，我们需要手动关闭 shelve 数据库：

import shelve

db = shelve.open('mydata.db')

# 操作数据库

db.close()

2.dbm 的用法

与 shelve 类似，使用 dbm 模块建立和打开数据库也非常简单：

import dbm

db = dbm.open('mydata.db', 'c')

这里，我们建立了一个名字为 mydata.db 的数据库文件，并使用 dbm 的 open() 方法建立了一个 dbm 对象 db。

需要注意的是，与 shelve 不同的是，dbm 只支持字符串类型的键和值，并且需要用字节串的形式作为键和值。

我们可以使用字节串来存储字符串：

import dbm

db = dbm.open('mydata.db', 'c')

db[b'key1'] = b'value1'

db[b'key2'] = b'value2'

print(db[b'key1']) # 输出 value1

print(db[b'key2']) # 输出 value2

需要注意的是，我们使用了字节串作为键和值，以便在存储和读取时使用。

如果要将 Unicode 字符串存储到 dbm 中，需要使用 encode() 方法将其编码为字节串，例如：

import dbm

db = dbm.open('mydata.db', 'c')

db[b'key3'] = '这是一个字符串'.encode('utf-8')

print(db[b'key3'].decode('utf-8')) # 输出 这是一个字符串

与 shelve 一样，dbm 对象也可以使用 python 的 with 语句进行上下文管理：

import dbm

with dbm.open('mydata.db', 'c') as db:

    db[b'key4'] = b'value4'

print(db[b'key4']) # 输出 KeyError: b'key4'

需要注意的是，在使用 with 语句时，db 对象也会在离开代码块时自动关闭。

最后，我们需要手动关闭 dbm 数据库：

import dbm

db = dbm.open('mydata.db', 'c')

# 操作数据库

db.close()

二、shelve 和 dbm 的优势

shelve 和 dbm 模块的优势在于它们非常方便，无需安装任何第三方库即可使用。

它们的 API 与 python 内置的类型非常相似，因此使用起来非常简单。

此外，它们对于小型数据存储和检索非常高效，并且具有跨平台的优势。

尽管这些特点不一定具有普适性，但在许多程序中都是优秀且合理的选择。

此外，shelve 模块具有数据压缩的功能，可以在一定程度上提高存储效率。

这是由于 shelve 会将 python 对象转换为字符串，并压缩这些字符串，从而减小数据文件的大小。

因此，如果需要长期存储比较多的数据，使用 shelve 可以使得磁盘占用量更小，并且可以加速数据存储和检索的速度。

三、shelve 和 dbm 的不同点

shelve 和 dbm 在使用上具有许多不同点。下面我们将重点讨论它们的几种不同之处。

1. 数据类型不同

最引人注目的是，shelve 和 dbm 支持的数据类型不同。

shelve 可以存储任意的 python 对象，包括列表、字典、元组、自定义对象等，而 dbm 仅支持字节串类型的键和值。

具体来说，对于数据类型的限制，shelve 要比 dbm 更小。

这取决于具体应用需求，但是如果需要存储 python 对象，则可以使用 shelve，否则可以使用 dbm。

2. 支持不同的锁

shelve 具有锁支持，这意味着它可以被多个进程或线程同时访问，可以有效避免并发冲突的情况。

相比之下，dbm 不支持锁操作，这意味着在访问 dbm 数据库时需要自己实现自己的锁逻辑，以确保并发访问的正确性。

3. 磁盘空间占用不同

尽管 shelve 和 dbm 都是将数据存储在硬盘上，但是占用的磁盘空间大小却有所不同。

通常情况下，shelve 会压缩数据并存储它们，因此在许多情况下，shelve 会占用更少的磁盘空间。

而 dbm 不需要进行压缩操作，因此当存储的数据量较小时，dbm 相对于 shelve 更为节省磁盘空间。