Python中的高性能容器--collections
集合模块
相对于 Python 中内置的称为链表、集合、字典和元组的默认容器类型来说,集合模块( collection module )提供了高性能的备选方案( alternative )。
简单地看看集合模块中如下的容器类型:
1 ) deque :一个链表容器的备选方案,支持在队列两端快速插入和弹出( pop )。
2 ) defaultdict : dict 的子类,它为类型提供了工厂函数,用于提供缺省值。
3 ) orderedDict : dict 的子类,它记录了关键字插入的顺序。
4 ) Counter : dict 子类,用于保存可哈希类型的计数和统计信息。
5 ) ChainMap :带有一个类似字典接口的类,用于持续跟踪多重映射。
6 ) namedtuple :用于创建类似元组的类的类型,带有命名字段。
1 . deque
一个双端队列( double ended queue )像一个链表,但和链表不同,它支持近乎常量时间( O ( 1) )的从队列两端进行的增加和弹出操作,而链表对于在左端进行的弹出和插入操作,有一个 0 ( n )数量级的时间成本。
双端队列也支持一些操作,比如旋动( rotation ) ,用于将列表中 k 个元素从表尾移动到表头,或者反过来,它们的平均性能为 O ( k )。这通常比链表中类似的操作稍微快一点,链表涉及切割( slicing )和追加( appending )操作:
# 定义一个双端队列
import collections dq = collections.deque() # append往右边添加一个元素
dq.append(1)
dq.append(2)
print(dq) # deque([1, 2]) # appendleft往左边添加一个元素
dq.appendleft(3)
dq.appendleft(4)
print(dq) # deque([4, 3, 1, 2]) # clear 清空队列
dq.clear()
print(dq) # deque([]) # copy浅拷贝
dq.append(1)
dq2 = dq.copy()
print(id(dq)) #
print(id(dq2)) # # count 返回指定元素的出现次数
dq3 = collections.deque()
dq3.append(1)
dq3.append(1)
print(dq3.count(1)) # # extend 从队列右端添加多个元素
dq4 = collections.deque()
dq4.append(1)
dq4.extend([2, 3, 4])
print(dq4) # deque([1, 2, 3, 4]) # extendleft 从队列左端添加多个元素 注意添加顺序
dq4.extendleft([5, 6, 7, 8])
print(dq4) # deque([8, 7, 6, 5, 1, 2, 3, 4]) # index 查找某个元素的索引位置,如果查无结果 会报异常 ValueError: xxx is not in deque
print(dq4.index(5)) #
print(dq4.index(2, 3, 7)) # 后面的两个参数可用于指定查找区间 # insert 在队列指定位置插入元素
dq4.insert(2, "c")
print(dq4) # deque([8, 7, 'c', 6, 5, 1, 2, 3, 4]) # pop 返回队列最右边的元素,并将其在队列中删除
print(dq4) # deque([8, 7, 'c', 6, 5, 1, 2, 3, 4])
x = dq4.pop()
print(x) #
print(dq4) # deque([8, 7, 'c', 6, 5, 1, 2, 3]) # popleft 返回最左边的元素,并将其在队列中删除
print(dq4) # deque([8, 7, 'c', 6, 5, 1, 2, 3])
y = dq4.popleft()
print(y) #
print(dq4) # deque([7, 'c', 6, 5, 1, 2, 3]) # remove 删除指定元素, 只删除一个值,从左向右查找
dq5 = collections.deque([1, 2, 3, 4, 5, 2])
print(dq5) # deque([1, 2, 3, 4, 5, 2])
dq5.remove(2)
print(dq5) # deque([1, 3, 4, 5, 2])
dq5.remove(2)
print(dq5) # deque([1, 3, 4, 5]) # reverse 反转队列
print(dq5) # deque([1, 3, 4, 5])
dq5.reverse()
print(dq5) # deque([5, 4, 3, 1]) # rotate 将右边元素放置到队列左边
dq5.rotate(2) # 可指定次数
print(dq5) # deque([3, 1, 5, 4])
2 . defaultdict
默认dict是dict子类, 它使用类型工厂提供对于字典关键字的默认值。
在Python中,当在一个列表数据项上循环,并试着增加一个字典计数值的时候,我们会遇到一个常见问题,即有可能没有对应数据项的任何已存在的条目
比如,对一个单词在一段文本中的出现次数进行计数:
counts = {}
for word in text.split():
word = word.lower().strip()
try:
counts[word] += 1
except KeyError:
counts[word] = 1
再比如,试着对所有的字符串分组,相同长度的字符串放到一个字典中:
cities = ['Jakarta', 'Delhi', 'Newyork', 'Bonn', 'Kolkata', 'Bangalore', 'Seoul']
cities_len = {}
for city in cities:
clen = len(city)
# First create entry
if clen not in cities_len:
cities_len[clen] = []
cities_len[clen].append(city)
一个defaultdict容器优雅地解决了这个问题,它通过定义一个类型工厂为任务没在字典中出现的关键字提供默认参数值。 默认工厂类型支持任意的默认类型, 而且默认值设为None。
对于每种类型,它的空值是默认值,即:
int -> 0
[] -> list
'' ->strings
{} ->dict
单词计数代码可以按照如下方式重写:
counts = collections.defaultdict(int) for word in text.split():
word = word.split()
# Value is set to 0 and incremented by 1 in one go
counts[word] += 1
类似地,根据字符串长度分组它们的代码如下:
cities = ['Jakarta', 'Delhi', 'Newyork', 'Bonn', 'Kolkata', 'Bangalore', 'Seoul'] cities_len = collections.defaultdict(list) for city in cities:
# Empty list is created as value and appended to in one go
cities_len[len(city)].append(city)
3 . OrderedDict
OrderedDict 是一个dict子类, 它记录了条目插入的顺序,它有点像一个字典和链表的结合体,它表现得像一个映射类型,但是在记录插入顺序,甚至支持诸如用于删除头尾条目的popitem方法上,也有类似链表的行为
cities = ['Jakarta', 'Delhi', 'Newyork', 'Bonn', 'Kolkata', 'Bangalore', 'Seoul']
cities_dict= collections.OrderedDict.fromkeys(cities)
print(cities_dict) # OrderedDict([('Jakarta', None), ('Delhi', None), ('Newyork', None), ('Bonn', None), ('Kolkata', None), ('Bangalore', None), ('Seoul', None)])
print(cities_dict.popitem()) # ('Seoul', None)
print(cities_dict.popitem(last=False)) #('Jakarta', None)
比较和对照字典是如何改变顺序的,而OrderedDict容器是如何保持原有顺序的。
这里给出了一些使用OrderedDict容器的做法。
1)不丢失顺序地从一个容器中删除重复元素。
cities = ['Jakarta', 'Delhi', 'Newyork', 'Bonn', 'Kolkata', 'Bangalore', 'Bonn', 'Seoul', 'Delhi', 'Jakarta', 'Mumbai'] cities_odict = collections.OrderedDict.fromkeys(cities)
print(cities_odict.keys())
2) 实现一个最近最少使用(LRU)的缓存字典。
一个LRU缓存优先考虑最近被使用(或被访问)的条目,删除那些最少被使用的条目。这是一个常见的缓存算法,用在诸如Squid的HTTP缓存服务器中,也用在其他一些情况中,即需要维护一个被限制了大小的容器,这个容器优先保存最近被访问的条目。
这里使用了OrderedDict的操作,即当删除了一个存在的关键字,然后再重新添加时,它被添加到了末尾(右端):
class LRU(collections.OrderedDict):
""" Least recently used cache dictionary""" def __init__(self, size=10):
self.size = size def set(self, key):
# if key is there delete and reinsert so
# it moves to end
if key in self:
del self[key] self[key] = 1
if len(self) > self.size:
# pop from left
self.popitem(lastp=False)
lru = LRU(5)
lru.set("bangalore")
lru.set("chennai")
lru.set("mumbai")
lru.set("bangalore")
lru.set("kolkata")
lru.set("delhi")
lru.set("chennai")
lru.set("kochi")
print(lru) # LRU([('bangalore', 1), ('kolkata', 1), ('delhi', 1), ('chennai', 1), ('kochi', 1)])
因为关键字mumbai第一个被设置,之后没有再被设置过,所以它变成了最左边的一个,然后被删除了。
注意:要删除的下一个关键字是 bangalore, 接着是 chennai,这是因为chennai在bangalore设置之后被多设置了一次
4. Counter
5. ChainMap
6. Namedtuple
Python中的高性能容器--collections的更多相关文章
- Python面试题之容器(Collections)
容器(Collections) Python附带一个模块,它包含许多容器数据类型,名字叫作collections.我们将讨论它的作用和用法. 我们将讨论的是: defaultdict coun ...
- Python 中的容器 collections
写在之前 我们都知道 Python 中内置了许多标准的数据结构,比如列表,元组,字典等.与此同时标准库还提供了一些额外的数据结构,我们可以基于它们创建所需的新数据结构. Python 附带了一个「容器 ...
- Python中collections模块
目录 Python中collections模块 Counter defaultdict OrderedDict namedtuple deque ChainMap Python中collections ...
- Python中collections模块的使用
本文将详细讲解collections模块中的所有类,和每个类中的方法,从源码和性能的角度剖析. 一个模块主要用来干嘛,有哪些类可以使用,看__init__.py就知道 '''This module i ...
- 转载:Python中collections模块
转载自:Python中collections模块 目录 Python中collections模块 Counter defaultdict OrderedDict namedtuple deque Ch ...
- python中的list, dict, tuple以及collections模块的基本用法
1.关于list的一些基本用法 # 创建没有初值的列表 list1=[] # 创建有初值的列表 list2=['this','is','a','list'] # 创建给定长度但初值不确定的列表 lis ...
- python中的collections
python中有大量的内置模块,很多是属于特定开发的功能性模块,但collections是属于对基础数据的类型的补充模块,因此,在日常代码中使用频率更高一些,值得做个笔记,本文只做主要关键字介绍,详细 ...
- Python中的collections模块
Python中内置了4种数据类型,包括:list,tuple,set,dict,这些数据类型都有其各自的特点,但是这些特点(比如dict无序)在一定程度上对数据类型的使用产生了约束,在某些使用场景下效 ...
- python中的0,None,False,空容器
在Python中,None.空列表[].空字典{}.空元组().0等一系列代表空和无的对象会被转换成False.除此之外的其它对象都会被转化成True. 1.0等于False,这点要注意. 2.空的l ...
随机推荐
- Javascript的数据类型(原始类型和引用类型)
1.ECMAScript3中定义了变量可分为原始值和引用值. 原始值:是保存在栈(stack)中的简单数据段:也就是说他们的值是直接存储在变量访问的位置. 引用值:是保存在堆(heap)中的对象,也就 ...
- Kmeans文档聚类算法实现之python
实现文档聚类的总体思想: 将每个文档的关键词提取,形成一个关键词集合N: 将每个文档向量化,可以参看计算余弦相似度那一章: 给定K个聚类中心,使用Kmeans算法处理向量: 分析每个聚类中心的相关文档 ...
- 重置GPU显存 Reset GPU memory after CUDA errors
Sometimes CUDA program crashed during execution, before memory was flushed. As a result, device memo ...
- Instance Segmentation with Mask R-CNN and TensorFlow
Back in November, we open-sourced our implementation of Mask R-CNN, and since then it’s been forked ...
- oracle 如何通过分组计数查出重复数据?
1.情景展示 现在,机构表数据中机构名称有重复数据,如何筛选出来? 2.分析 第一步:统计是否存在重复数据. 方式一: 方式二: 说明表中确实存在重复数据 第二步:统计重复次数及机构名称. 需要通 ...
- html上传文件限制、前端限制文件类型
<input id="file" type="file" accept=".xls,.xlsx" style="width: ...
- leetcode 85. 最大矩形
题目描述: 给定一个仅包含 0 和 1 的二维二进制矩阵,找出只包含 1 的最大矩形,并返回其面积. 思路分析: 这题是之前那道最大正方形的进阶,同样是利用dp来求解.通过逐行去计算最大矩形,即优化的 ...
- redis集群搭建及启动、停止、重启操作【转】
redis版本:redis-5.0.3.tar.gz 操作系统:完全新安装的centos7.6系统 使用一台虚拟机模拟6个redis节点,3个master,3个slave,虚拟机IP为192.168. ...
- Maven 项目中依赖的搜索顺序
Maven 项目中依赖的搜索顺序 http://www.manongjc.com/article/13422.html 执行过程中使用 -e -X 查看详细的搜索地址: 1,中央仓库,这是默认的仓库 ...
- python工程设置工具(pipenv)
原始安装 pip工具 --- 包安装工具, 可以从Python包索引hub上安装,也可以使用自定义的hub. 命令: pip install xxx 缺点: 1.命令方式, 一次只能安装一个包, 对于 ...