pickle是一个Python的内置模块，用于在Python中实现对象结构序列化和反序列化。Python序列化是一个将Python对象层次结构转换为可以本地存储或者网络传输的字节流的过程，反序列化则是将字节流还原为将Python对象层次结构。

数据序列化的功能简单理解为把不能直接存储的数据存储到磁盘中，从而延长对象的生命周期。Python的常用序列化库有两个，即json和pickle。json库和pickle库的主要区别有两点：

pickle可以序列化Python中所有的数据类型，包括类，函数，一般存储为二进制文件。而json只能序列化Python基本的数据类型，转储结果非常容易阅读。
pickle只能在Python中使用，而json是能够在不同语言之间交换数据的。

pickle一般情况下比json慢，尤其是数据量很大的情况下。pickle和json都有四种基础方法：

方法	作用
dump	序列化写入文件
load	读取文件反序列化
dumps	序列化返回对象
loads	反序列化对象

1 pickle使用

pickle.dump()函数用于将python结构序列化，并存为二进制文件。 pickle.dump函数接受三个参数，其中第一个参数包含要存储在文件中的对象，第二个参数给出以二进制模式写入所需文件时获得的文件对象。第三个参数表示序列化协议。

对于pickle的协议选取，目前有5种不同的协议可用(出自Python object serialization)。使用的协议越高，读取生成的pickle所需的Python版本越新。这些协议包括：

协议版本0是原始的“人类可读”协议，与Python的早期版本向后兼容。
协议版本1是一种旧的二进制格式，也与Python的早期版本兼容。
协议版本2于Python2.3引入，提供了更为有效的序列化方式。
协议版本3于Python3.0引入。它明确支持bytes对象，这也是Python的默认协议，也是需要与其他Python3版本兼容时的推荐协议。
协议版本4于Python3.4引入。它增加了对超大对象的支持，对更多类型的对象进行序列化，并对一些数据格式优化。

通过0到4可以设置不同的协议，该协议参数默认为None，None表示使用Python版本使用的默认协议。选择-1表示最高协议。此外可以通过常量设置该协议，分别是：

pickle.HIGHEST_PROTOCOL：表示最高协议。
pickle.DEFAULT_PROTOCOL：表示默认协议。

import pickle

print("当前python环境最高序列化协议版本为：{}".format(pickle.HIGHEST_PROTOCOL))

print("当前python环境默认序列化协议版本为：{}".format(pickle.DEFAULT_PROTOCOL))

当前python环境最高序列化协议版本为：4

当前python环境默认序列化协议版本为：3

# 序列化实例

import pickle

import numpy as np

data = {

    "name": "data struct",

    "number": 123.456,

    "tuple": ("first", False, 10.01),

    "numpy_data": np.ones((9,9),np.uint8)

}

# 保存到本地，这个文件名包含后缀可以随意命名，反正是二进制文件

with open('data.bin', 'wb') as f:

    # 设置最底层协议

    pickle.dump(data, f, 0)

# 查看文件大小

!du -h data.bin

print('---分界线---')

# 查看文件前十行，发现有可读文字

!cat data.bin | head -n 5

4.0K	data.bin

---分界线---

(dp0

Vname

p1

Vdata struct

p2

# 保存到本地，这个文件名包含后缀可以随意命名，反正是二进制文件

with open('data.bin', 'wb') as f:

    # 设置最底层协议

    pickle.dump(data, f, 1)

# 查看文件大小

!du -h data.bin

print('---分界线---')

# 查看文件前2行

!cat data.bin | head -n 2

4.0K	data.bin

---分界线---

}q (X   nameqX   data structqX   numberqG@^�/��wX   tupleq(X   firstqI00

G@$�Q�tqX

# 保存到本地，这个文件名包含后缀可以随意命名，反正是二进制文件

with open('data.bin', 'wb') as f:

    # 设置默认协议

    pickle.dump(data, f, pickle.DEFAULT_PROTOCOL)

# 查看文件大小

!du -h data.bin

print('---分界线---')

# 查看文件前2行

!cat data.bin | head -n 2

4.0K	data.bin

---分界线---

�}q (X   nameqX   data structqX   numberqG@^�/��wX   tupleqX   firstq�G@$�Q녇qX

   numpy_dataqcnumpy.core.multiarray

# 保存到本地，这个文件名包含后缀可以随意命名，反正是二进制文件

with open('data.bin', 'wb') as f:

    # 设置默认协议

    pickle.dump(data, f, 4)

# 查看文件大小

!du -h data.bin

print('---分界线---')

# 查看文件前2行

!cat data.bin | head -n 2

4.0K	data.bin

---分界线---

��/      }�(�name��data struct��number�G@^�/��w�tuple��first��G@$�Q녇��

numpy_data��numpy.core.multiarray��_reconstruct����numpy��ndarray���K ��Cb���R�(KK	K	��h�dtype����u1�����R�(K�|�NNNJ����J����K t�b�CQ�t�bu.

如果想反序列化，重新读入文件，直接用pickle.load函数就行了。序列化协议是自动检测的，不需要指定。此外还有两个参数encoding和errors告诉pickle如何反序列低于当前python版本的序列化文件，默认值就行了。

import pickle

with open('data.bin', 'rb') as f:

    data = pickle.load(f)

    print(type(data))

    print(data['name'])

    print(data.keys())

<class 'dict'>

data struct

dict_keys(['name', 'number', 'tuple', 'numpy_data'])

通过dumps函数将对象的序列化表示作为bytes对象返回，而不是将其写入文件。通过loads函数则将bytes对象反序列化。注意bytes是 Python3新增的类型，bytes只负责以二进制形式来存储数据。

data = [1,2,3]

# 序列化，返回bytes对象

dumped = pickle.dumps(data)

print(dumped)

print(type(dumped))

print(len(dumped))

# 反序列化

loaded = pickle.loads(dumped)

print(loaded)

b'\x80\x03]q\x00(K\x01K\x02K\x03e.'

<class 'bytes'>

14

[1, 2, 3]

序列化和反序列化的过程可以通过__getstate__ 和__setstate__函数来影响。其中__getstate__函数在序列化时调用，__setstate__函数在反序列化时调用。

一个实例如下，在序列化时指定序列化某些参数，反序列化时恢复参数。

import pickle

class MyData:

    def __init__(self, x):

        self.x = x

        self.y = self.sqrt(x)

    def sqrt(self,x):

        return x**x

    def __getstate__(self):

        self.state = "ok"

        print("enter getstate")

        #  self.__dict__存储关于self.xxx的一些东西

        odict = self.__dict__.copy()

        del odict['y']

        print(odict)

        return odict

    def __setstate__(self, input):

        print("enter setstate")

        print(input)

        self.x = input['x']

        self.y = self.sqrt(self.x)

obj = MyData(3)

# 序列化

print("序列化")

dumped = pickle.dumps(obj)

# 反序列化

print("反序列化")

loaded = pickle.loads(dumped)

print("反序列化结果", loaded.y)

序列化

enter getstate

{'x': 3, 'state': 'ok'}

反序列化

enter setstate

{'x': 3, 'state': 'ok'}

反序列化结果 27

2 pickle加速

当要序列化的对象特别大时，pickle加载和保存序列化对象会成为代码的性能瓶颈。一般有三种办法加速pickle序列化过程。主要有：

使用更高的协议版本
使用cPickle代替pickle
禁用垃圾收集器

下面几个例子会给出使用方法，不过加速效果不明显，因为数据量不大，写个代码mark下。

直接使用pickle

import time

import pickle

import numpy as np

import os

def time_count(func):

    def inner(*args,**kwargs):

        start = time.time()

        func(*args,**kwargs)

        end = time.time()

        print('{}用时:{}秒'.format(func.__name__,end-start))

    return inner

@time_count

def pickle_dump(data,filepath):

    with open(filepath, 'wb') as f:

        pickle.dump(data, f)

@time_count

def pickle_load(filepath):

    with open(filepath, 'rb') as f:

        data = pickle.load(f)

    return data

data = np.ones((10000, 10000))

filepath = "file.dat"

pickle_dump(data,filepath)

pickle_load(filepath)

os.remove(filepath)

time.sleep(2)

pickle_dump用时:1.7647628784179688秒

pickle_load用时:1.7913622856140137秒

使用pickle最高协议

将参数协议指定为-1，即可，但是加速可能效果不明显。具体看数据。

import time

import pickle

import numpy as np

import os

def time_count(func):

    def inner(*args,**kwargs):

        start = time.time()

        func(*args,**kwargs)

        end = time.time()

        print('{}用时:{}秒'.format(func.__name__,end-start))

    return inner

@time_count

def pickle_dump(data,filepath):

    with open(filepath, 'wb') as f:

        # 使用最高版本协议

        pickle.dump(data, f, -1)

@time_count

def pickle_load(filepath):

    with open(filepath, 'rb') as f:

        data = pickle.load(f)

    return data

data = np.ones((10000, 10000))

filepath = "file.dat"

pickle_dump(data,filepath)

pickle_load(filepath)

os.remove(filepath)

time.sleep(2)

pickle_dump用时:1.731525182723999秒

pickle_load用时:1.7664134502410889秒

用cPickle代替pickle

最简单方式是使用cPickle而不是pickle。cPickle与pickle是完全相同的模块，具有相同的功能、相同的参数。唯一区别是cPickle用C语言编写的，这使cPickle速度更快。

import time

# python3 导入cPickle方式

import _pickle as cPickle

import numpy as np

import os

def time_count(func):

    def inner(*args,**kwargs):

        start = time.time()

        func(*args,**kwargs)

        end = time.time()

        print('{}用时:{}秒'.format(func.__name__,end-start))

    return inner

@time_count

def pickle_dump(data,filepath):

    with open(filepath, 'wb') as f:

        # 使用最高版本协议

        cPickle.dump(data, f, -1)

@time_count

def pickle_load(filepath):

    with open(filepath, 'rb') as f:

        data = cPickle.load(f)

    return data

data = np.ones((10000, 10000))

filepath = "file.dat"

pickle_dump(data,filepath)

pickle_load(filepath)

os.remove(filepath)

time.sleep(2)

pickle_dump用时:1.7443737983703613秒

pickle_load用时:1.7894999980926514秒

禁用垃圾回收

垃圾收集器会减慢处理速度，禁用它可以提高性能。

import time

import pickle

import numpy as np

import os

import gc

# 禁用垃圾回收

gc.disable()

def time_count(func):

    def inner(*args,**kwargs):

        start = time.time()

        func(*args,**kwargs)

        end = time.time()

        print('{}用时:{}秒'.format(func.__name__,end-start))

    return inner

@time_count

def pickle_dump(data,filepath):

    with open(filepath, 'wb') as f:

        # 使用最高版本协议

        pickle.dump(data, f, -1)

@time_count

def pickle_load(filepath):

    with open(filepath, 'rb') as f:

        data = pickle.load(f)

    return data

data = np.ones((10000, 10000))

filepath = "file.dat"

pickle_dump(data,filepath)

pickle_load(filepath)

os.remove(filepath)

time.sleep(2)

# 开启垃圾回收

gc.enable()

pickle_dump用时:1.8271889686584473秒

pickle_load用时:1.7800366878509521秒

3 参考

[python] Python数据序列化模块pickle使用笔记的更多相关文章

Python 基础之序列化模块pickle与json
一:pickle 序列化模块把不能够直接存储的数据,变得可存储就是序列化把存储好的数据,转化成原本的数据类型,加做反序列化 php: 序列化和反序列化(1)serialize(2)unserializ ...
【转】Python之数据序列化（json、pickle、shelve）
[转]Python之数据序列化(json.pickle.shelve) 本节内容前言 json模块 pickle模块 shelve模块总结一.前言 1. 现实需求每种编程语言都有各自的数据类型 ...
Python之数据序列化（json、pickle、shelve）
本节内容前言 json模块 pickle模块 shelve模块总结一.前言 1. 现实需求每种编程语言都有各自的数据类型,其中面向对象的编程语言还允许开发者自定义数据类型(如:自定义类),Py ...
Python序列化模块pickle和json使用和区别
这是用于序列化的两个模块: • json: 用于字符串和python数据类型间进行转换 • pickle: 用于python特有的类型和python的数据类型间进行转换 Json模块提供了四个功能:d ...
Python中的序列化以及pickle和json模块介绍
Python中的序列化指的是在程序运行期间,变量都是在内存中保存着的,如果我们想保留一些运行中的变量值,就可以使用序列化操作把变量内容从内存保存到磁盘中,在Python中这个操作叫pickling,等 ...
json&pickle数据序列化模块
用于序列化的模块 json,通用的序列化方式,序列化成为str类型,支持所有语言识别,序列化的数据具有局限性. pickle,python的所有数据类型都可以被序列化,序列化为bites格式,只适用于 ...
Python进阶(九)----json模块, pickle模块, os模块,sys模块,hashlib模块
Python进阶----json模块, pickle模块, os模块,sys模块,hashlib模块一丶序列化模块什么是序列化: 将一种数据结构,转换成一个特殊的序列(特殊字符串,用于网络传输 ...
Python内置模块之序列化模块
序列化模块 json dumps loads dump load pickle dumps loads dump load shelve json 1: dumps/loads import json ...
python存取数据进阶技巧-pickle,array模块
我们在存/取数据时,没有必要存成文本形式,多试试二进制形式,文本只是骗骗眼睛的,要更快和更高效 1.数组形式如果我们需要一个之包含数字的列表,那就试试array.array,注意,不是numpy模块 ...

随机推荐

重写 hashcode()真有那么简单嘛？
万万没想到一个 hashcode() 方法,既然会引出一堆的知识盲区,简直了. 起因: 老八股:为什么重写Equals方法要重写HashCode方法. 大声告诉我为什么,闭着眼睛先把答案背出来,啥?这 ...
JS逆向实战8——某网实战（基于golang-colly）
其实本章算不上逆向教程只是介绍golang的colly框架而已列表页分析根据关键字搜索通过抓包分析可知下一页所请求的参数如下上图标红的代表所需参数所以其实我们真正需要的也就是Search ...
HTML5和CSS3新特性
1.HTML5新标签和属性 1.1 兼容性前缀与语义化兼容低版本的写法.比较新的浏览器,可以直接写.兼容性前缀,是每个浏览器私有的. 内核兼容性前缀浏览器 Gecko -moz- Firefox ...
Redisson源码解读-公平锁
前言我在上一篇文章聊了Redisson的可重入锁,这次继续来聊聊Redisson的公平锁.下面是官方原话: 它保证了当多个Redisson客户端线程同时请求加锁时,优先分配给先发出请求的线程.所有请 ...
js高级之对象高级部分
基于尚硅谷的尚硅谷JavaScript高级教程提供笔记撰写,加入一些个人理解 github源码博客下载对象的创建模式 Object构造函数模式套路: 先创建空Object对象, 再动态添加属性/ ...
mybatis不知道取什么名字的标题
 <foreach collection="ids" index="index" item="item& ...
思维分析逻辑 1 DAY
数据分析原则:坚决不做提数机器. 数据分析工作模块日报了解业务现状提升数据敏感性数据波动解释周报了解数据的短期趋势版本迭代分析为结论型报告背书月报梳理业务的流程为决策提供部分建议 ...
将C#的bitmap格式转换为Halcon的图像格式
/// <summary> /// Bitmap转HObject灰度图 /// </summary> /// <param name="bmp"> ...
元数据Metadata到底有什么用
什么是元数据元数据Metadata很简单,是关于数据的数据.这就意味着是数据的描述和上下文.他有助于组织和发现理解数据. 举例: 1张照片中除了照片本身还是,照片的时间日期,大小,格式相机设置,地理 ...
mybatis中association和collection使用
mybatis中association和collection使用一.概述 association:一个复杂的类型关联.许多结果将包成这种类型 collection:复杂类型的集合这2个属性的使用, ...

[python] ​Python数据序列化模块pickle使用笔记

文章目录

1 pickle使用

2 pickle加速

3 参考

[python] ​Python数据序列化模块pickle使用笔记的更多相关文章

随机推荐

热门专题

[python] Python数据序列化模块pickle使用笔记

[python] Python数据序列化模块pickle使用笔记的更多相关文章