Python pickle 二进制序列化和反序列化

模块 pickle 实现了对一个 Python 对象结构的二进制序列化和反序列化。 "pickling" 是将 Python 对象及其所拥有的层次结构转化为一个字节流的过程，而 "unpickling" 是相反的操作，会将（来自一个 binary file 或者 bytes-like object 的）字节流转化回一个对象层次结构。 pickling（和 unpickling）也被称为“序列化”, “编组” 1 或者 “平面化”。而为了避免混乱，此处采用术语 “封存 (pickling)” 和 “解封 (unpickling)”。

pickle 模块并不安全。你只应该对你信任的数据进行 unpickle 操作。

构建恶意的 pickle 数据来在解封时执行任意代码是可能的。绝对不要对不信任来源的数据和可能被篡改过的数据进行解封。

请考虑使用 hmac 来对数据进行签名，确保数据没有被篡改。

在你处理不信任数据时，更安全的序列化格式如 json 可能更为适合。

与 json 模块的比较

在 pickle 协议和 JSON (JavaScript Object Notation) 之间有着本质上的差异:

JSON 是一个文本序列化格式（它输出 unicode 文本，尽管在大多数时候它会接着以 utf-8 编码），而 pickle 是一个二进制序列化格式；
JSON 是我们可以直观阅读的，而 pickle 不是；
JSON是可互操作的，在Python系统之外广泛使用，而pickle则是Python专用的；
默认情况下，JSON 只能表示 Python 内置类型的子集，不能表示自定义的类；但 pickle 可以表示大量的 Python 数据类型（可以合理使用 Python 的对象内省功能自动地表示大多数类型，复杂情况可以通过实现 specific object APIs 来解决）。
不像pickle，对一个不信任的JSON进行反序列化的操作本身不会造成任意代码执行漏洞。

Pickle的基本用法

序列化（Pickling）

要将Python对象序列化为二进制数据，可以使用pickle.dump()函数。以下是一个简单的示例，将一个Python列表保存到文件中：

import pickle

data = [1, 2, 3, 4, 5]

# 打开一个文件以写入二进制数据

with open('data/data.pkl', 'wb') as file:

    pickle.dump(data, file)

在上述代码中，使用pickle.dump()函数将data列表序列化为二进制数据，并将其保存到名为data.pkl的文件中。参数'wb'表示以二进制写入模式打开文件。

反序列化（Unpickling）

要从文件中加载并反序列化二进制数据，可以使用pickle.load()函数。以下是加载data.pkl文件并还原Python对象的示例：

import pickle

# 打开文件以读取二进制数据

with open('data/data.pkl', 'rb') as file:

    loaded_data = pickle.load(file)

print("反序列化 %s" % loaded_data)

在上述代码中，使用pickle.load()函数从data.pkl文件中加载数据，并将其还原为Python对象。

Pickle的工作原理

pickle模块的工作原理涉及到将Python对象转换为一种可序列化的中间格式，然后再将该中间格式序列化为二进制数据。这个中间格式是一个自包含的表示对象的字典，其中包含了对象的数据和其类型信息。

当使用pickle.dump()序列化对象时，pickle 模块首先创建一个包含对象数据和类型信息的中间字典。然后，它将该字典转换为二进制数据。反序列化时，pickle模块将二进制数据还原为中间字典，然后再从字典中还原Python对象。

这种方法使pickle模块非常灵活，因为它可以序列化几乎所有Python对象，包括自定义对象，只要它们可以在中间字典中表示。

Pickle的适用场景

pickle模块在以下情况下非常有用：

数据持久化：你可以使用pickle将Python对象保存到文件中，以便稍后读取。这对于保存模型、配置文件、数据缓存等非常有用。
数据传输：你可以使用pickle将Python对象序列化并通过网络传输，以便不同的Python程序之间共享数据。
对象复制：你可以使用pickle将Python对象进行深拷贝，以便创建对象的独立副本，而不是引用原始对象。
测试和调试：pickle也用于创建模拟数据，以便进行测试和调试。

Pickle的注意事项

尽管pickle非常方便，但在使用它时需要注意一些事项：

安全性：反序列化数据时要小心，因为pickle可以执行任意代码。不要从不受信任的来源加载pickle数据，以免遭受安全风险。
版本兼容性：在不同版本的Python之间，pickle数据的兼容性可能会有问题。因此，确保在不同版本之间测试并验证pickle数据的兼容性。
自定义对象：一些自定义对象的序列化和反序列化可能会受到限制，因此需要额外的配置。你可能需要实现特定的__reduce__方法来控制对象的序列化行为。

示例代码

以下是一个示例代码，演示如何使用pickle模块来序列化和反序列化一个自定义Python对象：

import pickle

class Person:

    def __init__(self, name, age):

        self.name = name

        self.age = age

    def __str__(self):

        return f"Person(name='{self.name}', age={self.age})"

# 创建一个自定义对象

person = Person("Alice", 30)

# 序列化并保存到文件

with open('data/person.pkl', 'wb') as file:

    pickle.dump(person, file)

# 从文件中加载并反序列化

with open('data/person.pkl', 'rb') as file:

    loaded_person = pickle.load(file)

print(loaded_person)  # 输出: Person(name='Alice', age=30)

在上述代码中，我们首先定义了一个自定义类Person，然后创建了一个Person对象。我们使用pickle将该对象序列化为二进制数据，然后再从二进制数据中反序列化还原对象。