How collections.deque works?

Cosven

前言：在 Python 生态中，我们经常使用 collections.deque 来实现栈、队列这些只需要进行头尾操作的数据结构，它的 append/pop 操作都是 O(1) 时间复杂度。list 的 pop(0) 的时间复杂度是 O(n)，在这个场景中，它的效率没有 deque 高。那 deque 内部是怎样实现的呢？我从 GitHub 上挖出了 CPython collections 模块的第二个 commit 的源码。

dequeobject 对象定义

注释写得优雅了，无法进行更加精简的总结。

/* The block length may be set to any number over 1.  Larger numbers

 * reduce the number of calls to the memory allocator but take more

 * memory.  Ideally, BLOCKLEN should be set with an eye to the

 * length of a cache line.

 */

#define BLOCKLEN 62

#define CENTER ((BLOCKLEN - 1) / 2)

/* A `dequeobject` is composed of a doubly-linked list of `block` nodes.

 * This list is not circular (the leftmost block has leftlink==NULL,

 * and the rightmost block has rightlink==NULL).  A deque d's first

 * element is at d.leftblock[leftindex] and its last element is at

 * d.rightblock[rightindex]; note that, unlike as for Python slice

 * indices, these indices are inclusive on both ends.  By being inclusive

 * on both ends, algorithms for left and right operations become

 * symmetrical which simplifies the design.

 *

 * The list of blocks is never empty, so d.leftblock and d.rightblock

 * are never equal to NULL.

 *

 * The indices, d.leftindex and d.rightindex are always in the range

 *     0 <= index < BLOCKLEN.

 * Their exact relationship is:

 *     (d.leftindex + d.len - 1) % BLOCKLEN == d.rightindex.

 *

 * Empty deques have d.len == 0; d.leftblock==d.rightblock;

 * d.leftindex == CENTER+1; and d.rightindex == CENTER.

 * Checking for d.len == 0 is the intended way to see whether d is empty.

 *

 * Whenever d.leftblock == d.rightblock,

 *     d.leftindex + d.len - 1 == d.rightindex.

 *

 * However, when d.leftblock != d.rightblock, d.leftindex and d.rightindex

 * become indices into distinct blocks and either may be larger than the

 * other.

 */

typedef struct BLOCK {

    struct BLOCK *leftlink;

    struct BLOCK *rightlink;

    PyObject *data[BLOCKLEN];

} block;

typedef struct {

    PyObject_HEAD

    block *leftblock;

    block *rightblock;

    int leftindex;  /* in range(BLOCKLEN) */

    int rightindex; /* in range(BLOCKLEN) */

    int len;

    long state; /* incremented whenever the indices move */

    PyObject *weakreflist; /* List of weak references */

} dequeobject;

下面是我为 Block 结构体画的一个图

                +----------------------------------------+

                |          data: 62 objects              |

 +----------+   |                                        |   +-----------+

 | leftlink |---|  | ... | Obj1 | Obj2 | Obj3 | ... |    |---| rightlink |

 +----------+   |           30     31     32             |   +-----------+

                +----------------------------------------+

创建一个 block

static block *

newblock(block *leftlink, block *rightlink, int len) {

    block *b;

    /* To prevent len from overflowing INT_MAX on 64-bit machines, we

     * refuse to allocate new blocks if the current len is dangerously

     * close.  There is some extra margin to prevent spurious arithmetic

     * overflows at various places.  The following check ensures that

     * the blocks allocated to the deque, in the worst case, can only

     * have INT_MAX-2 entries in total.

     */

    if (len >= INT_MAX - 2*BLOCKLEN) {

        PyErr_SetString(PyExc_OverflowError,

                "cannot add more blocks to the deque");

        return NULL;

    }

    b = PyMem_Malloc(sizeof(block));

    if (b == NULL) {

        PyErr_NoMemory();

        return NULL;

    }

    b->leftlink = leftlink;

    b->rightlink = rightlink;

    return b;

}

创建一个 dequeobject

创建一个 block
实例化一个 dequeobject Python 对象（这一块的内在逻辑目前我也不太懂）
leftblock 和 rightblock 指针都指向这个 block
leftindex 是 CENTER+1，rightindex 是 CENTER
初始化其他一些属性， len state 等

这个第一步和第四步都有点意思，第一步创建一个 block，也就是说， deque 对象创建的时候，就预先分配了一块内存。第四步隐约告诉我们，当元素来的时候，它先会被放在中间，然后逐渐往头和尾散开。

static PyObject *

deque_new(PyTypeObject *type, PyObject *args, PyObject *kwds)

{

    dequeobject *deque;

    block *b;

    if (type == &deque_type && !_PyArg_NoKeywords("deque()", kwds))

        return NULL;

    /* create dequeobject structure */

    deque = (dequeobject *)type->tp_alloc(type, 0);

    if (deque == NULL)

        return NULL;

    b = newblock(NULL, NULL, 0);

    if (b == NULL) {

        Py_DECREF(deque);

        return NULL;

    }

    assert(BLOCKLEN >= 2);

    deque->leftblock = b;

    deque->rightblock = b;

    deque->leftindex = CENTER + 1;

    deque->rightindex = CENTER;

    deque->len = 0;

    deque->state = 0;

    deque->weakreflist = NULL;

    return (PyObject *)deque;

}

deque.append 实现

步骤：

如果 rightblock 可以容纳更多的元素，则放在 rightblock 中
如果不能，就新建一个 block，然后更新若干指针，将元素放在更新后的 rightblock 中

static PyObject *

deque_append(dequeobject *deque, PyObject *item)

{

    deque->state++;

    if (deque->rightindex == BLOCKLEN-1) {

        block *b = newblock(deque->rightblock, NULL, deque->len);

        if (b == NULL)

            return NULL;

        assert(deque->rightblock->rightlink == NULL);

        deque->rightblock->rightlink = b;

        deque->rightblock = b;

        deque->rightindex = -1;

    }

    Py_INCREF(item);

    deque->len++;

    deque->rightindex++;

    deque->rightblock->data[deque->rightindex] = item;

    Py_RETURN_NONE;

}

看了 append 实现后，我们可以自行脑补一下 pop 和 popleft 的实现。

小结

deque 内部将一组内存块组织成双向链表的形式，每个内存块可以看成一个 Python 对象的数组，这个数组与普通数据不同，它是从数组中部往头尾两边填充数据，而平常所见数组大都是从头往后。得益于 deque 这样的结构，它的 pop/popleft/append/appendleft 四种操作的时间复杂度均是 O(1), 用它来实现队列、栈数据结构会非常方便和高效。但也正因为这样的设计，它不能像数组那样通过 index 来访问、移除元素。链表 + 数组、或者链表 + 字典这样的设计在实践中有很广泛的应用，比如 LRUCache, LFUCache，有兴趣的同鞋可以继续探索。

PS1: LRUCache 在面试中不要太常见
PS2: 出 LFUCache 题的面试官都是变态
PS3: 头图来自 quora ，图文不怎么有关系列

python deque的内在实现本质上就是双向链表所以用于stack、队列非常方便的更多相关文章

C、C++、C#、Java、php、python语言的内在特性及区别
C.C++.C#.Java.PHP.Python语言的内在特性及区别: C语言,它既有高级语言的特点,又具有汇编语言的特点,它是结构式语言.C语言应用指针:可以直接进行靠近硬件的操作,但是C的指针操作 ...
使用深度学习检测TOR流量——本质上是在利用报文的时序信息、传输速率建模
from:https://www.jiqizhixin.com/articles/2018-08-11-11 可以通过分析流量包来检测TOR流量.这项分析可以在TOR 节点上进行,也可以在客户端和入口 ...
ARIMA模型——本质上是error和t-?时刻数据差分的线性模型！！！如果数据序列是非平稳的，并存在一定的增长或下降趋势，则需要对数据进行差分处理!ARIMA（p，d，q）称为差分自回归移动平均模型，AR是自回归， p为自回归项； MA为移动平均，q为移动平均项数，d为时间序列成为平稳时所做的差分次数
https://www.cnblogs.com/bradleon/p/6827109.html 文章里写得非常好,需详细看.尤其是arima的举例! 可以看到:ARIMA本质上是error和t-?时刻 ...
DQN 处理 CartPole 问题——使用强化学习，本质上是训练MLP，预测每一个动作的得分
代码: # -*- coding: utf-8 -*- import random import gym import numpy as np from collections import dequ ...
python模块介绍和 import本质
模块的定义: 用来从逻辑上组织python代码(变量,函数,类,逻辑:实现一个功能),本质上就是.py结尾的python文件. 包的定义: 用来从逻辑上组织模块的,本质上就是一个目录.(必须有一个__ ...
python学习笔记(5)—— tuple 本质探究
>>> t=(1,2,3,['a','b','c'],4,5) >>> t[3][0]='x' >>> t (1, 2, 3, ['x', 'b' ...
Jsp与servlet本质上的区别
1.jsp经编译后就变成了Servlet.(JSP的本质就是Servlet,JVM只能识别java的类,不能识别JSP的代码,Web容器将JSP的代码编译成JVM能够识别的java类)2.jsp更擅长 ...
如何解决Python脚本在Linux和Windows上的格式问题
python是一种对缩进有严格要求的语言, Python脚本可以使用非常多的工具进行编写,笔者在Linux系统使用JEdit进行Python脚本编写,由于在Linux编写脚本比较痛苦,比如想一眼看出相 ...
jQuery的$.ajax方法响应数据类型有哪几种？本质上原生ajax响应数据格式有哪几种，分别对应哪个属性？
jQuery的$.ajax方法响应数据类型有:xml.html.script.json.jsonp.text 本质上原生ajax响应数据格式只有2种:xml和text,分别对应xhr.response ...

随机推荐

PRINT_INITA整体偏移值传变量
打印维护和整体偏移相关博文:打印维护和整体偏移相关简短问答.打印维护开放给客户端可进行微调,结果在客户端本地.(建议开放给客户打印维护功能,调整一次,以后都会走调整后的,通过不同任务名区分模版) 如果 ...
react 问题记录二(侧重于state或者说server层操作)
项目体系说明:react+mobx+antd 11. state设置对象属性 this.setState({ tableParams:{tableName:value} }) 10.loading组件 ...
解决net core mvc 中文乱码问题
在Startup 配置文件下的ConfigureServices方法中添加: services.AddSingleton(HtmlEncoder.Create(UnicodeRanges.All ...
[ARM-Linux开发] 主设备号--驱动模块与设备节点联系的纽带
一.如何对设备操作 linux中对设备进行操作是通过文件的方式进行的,包括open.read.write.对于设备文件,一般称其为设备节点,节点有一个属性是设备号(主设备号.次设备号),其中主设备号将 ...
linux 把nginx加入到系统服务的方法
linux 把nginx加入到系统服务的方法一.首先写一个shell脚本,脚本名称:nginx<pre>#! /bin/bash# chkconfig: 35 85 15 # descri ...
[转帖]Stack Overflow上188万浏览量的提问：Java 到底是值传递还是引用传递？
Stack Overflow上188万浏览量的提问:Java 到底是值传递还是引用传递? http://www.itpub.net/2019/12/03/4567/ 在逛 Stack Overfl ...
Java生产消费者模型——代码解析
我们将生产者.消费者.库存.和调用线程的主函数分别写进四个类中,通过抢夺非线程安全的数据集合来直观的表达在进行生产消费者模型的过程中可能出现的问题与解决办法. 我们假设有一个生产者,两个消费者来共同抢 ...
day04——列表、元组、range
day04 列表列表--list 有序,可变,支持索引列表:存储数据,支持的数据类型很多:字符串,数字,布尔值,列表,集合,元组,字典,用逗号分割的是一个元素 id() :获取对象的内存地址 ...
Vue框架（二）——Vue指令（v-once指令、v-cloak指令、条件指令、v-pre指令、循环指令）、todolist案例、Vue实例（计算、监听）、组件、组件数据交互
Vue指令 1.v-once指令单独使用,限制的标签内容一旦赋值,便不可被动更改(如果是输入框,可以主动修改) <!DOCTYPE html> <html lang=" ...
Latex中如何设置字体颜色（三种方式）
1.直接使用定义好的颜色 \usepackage{color} \textcolor{red/blue/green/black/white/cyan/magenta/yellow}{text} 其中t ...

python deque的内在实现 本质上就是双向链表所以用于stack、队列非常方便