1. heapq堆排序算法

堆(heap)是一个树形数据结构，其中子节点与父节点有一种有序关系。二叉堆(binary heap)可以使用一个有组织的列表或数组表示，其中元素N的子元素位于2*N+1和2*N+2(索引从0开始)。这种布局允许原地重新组织堆，从而不必再添加或删除元素时重新分配大量内存。

最大堆(max-heap)确保父节点大于或等于其两个子节点。最小堆(min-heap)要求父节点小于或等于其子节点。Python的heapq模块实现了一个最小堆。

1.1 创建堆

创建堆有两种基本方式：heappush()和heapify()。

import heapq

import math

from io import StringIO

data = [19, 9, 4, 10, 11]

def show_tree(tree, total_width=36, fill=' '):

    """Pretty-print a tree."""

    output = StringIO()

    last_row = -1

    for i, n in enumerate(tree):

        if i:

            row = int(math.floor(math.log(i + 1, 2)))

        else:

            row = 0

        if row != last_row:

            output.write('\n')

        columns = 2 ** row

        col_width = int(math.floor(total_width / columns))

        output.write(str(n).center(col_width, fill))

        last_row = row

    print(output.getvalue())

    print('-' * total_width)

    print()

heap = []

print('random :', data)

print()

for n in data:

    print('add {:>3}:'.format(n))

    heapq.heappush(heap, n)

    show_tree(heap)

使用heappush()，从数据源增加新元素时会保持元素的堆排序顺序。

如果数据已经在内存中，那么使用heapify()原地重新组织列表中的元素会更高效。

import heapq

import math

from io import StringIO

data = [19, 9, 4, 10, 11]

def show_tree(tree, total_width=36, fill=' '):

    """Pretty-print a tree."""

    output = StringIO()

    last_row = -1

    for i, n in enumerate(tree):

        if i:

            row = int(math.floor(math.log(i + 1, 2)))

        else:

            row = 0

        if row != last_row:

            output.write('\n')

        columns = 2 ** row

        col_width = int(math.floor(total_width / columns))

        output.write(str(n).center(col_width, fill))

        last_row = row

    print(output.getvalue())

    print('-' * total_width)

    print()

print('random    :', data)

heapq.heapify(data)

print('heapified :')

show_tree(data)

如果按堆顺序一次一个元素地构建列表，那么结果与构建一个无序列表再调用heapify()是一样的。

1.2 访问堆内容

一旦堆已经被正确组织，则可以使用heappop()删除有最小值的元素。

import heapq

import math

from io import StringIO

data = [19, 9, 4, 10, 11]

def show_tree(tree, total_width=36, fill=' '):

    """Pretty-print a tree."""

    output = StringIO()

    last_row = -1

    for i, n in enumerate(tree):

        if i:

            row = int(math.floor(math.log(i + 1, 2)))

        else:

            row = 0

        if row != last_row:

            output.write('\n')

        columns = 2 ** row

        col_width = int(math.floor(total_width / columns))

        output.write(str(n).center(col_width, fill))

        last_row = row

    print(output.getvalue())

    print('-' * total_width)

    print()

print('random    :', data)

heapq.heapify(data)

print('heapified :')

show_tree(data)

print()

for i in range(2):

    smallest = heapq.heappop(data)

    print('pop    {:>3}:'.format(smallest))

    show_tree(data)

这个例子是由标准库文档改写的，其中使用heapify()和heappop()对一个数字队列进行排序。

如果希望在一个操作中删除现有元素并替换为新值，则可以使用heapreplace()。

import heapq

import math

from io import StringIO

data = [19, 9, 4, 10, 11]

def show_tree(tree, total_width=36, fill=' '):

    """Pretty-print a tree."""

    output = StringIO()

    last_row = -1

    for i, n in enumerate(tree):

        if i:

            row = int(math.floor(math.log(i + 1, 2)))

        else:

            row = 0

        if row != last_row:

            output.write('\n')

        columns = 2 ** row

        col_width = int(math.floor(total_width / columns))

        output.write(str(n).center(col_width, fill))

        last_row = row

    print(output.getvalue())

    print('-' * total_width)

    print()

heapq.heapify(data)

print('start:')

show_tree(data)

for n in [0, 13]:

    smallest = heapq.heapreplace(data, n)

    print('replace {:>2} with {:>2}:'.format(smallest, n))

    show_tree(data)

通过原地替换元素，就这样可以维持一个固定大小的堆，如按优先级排序的作业队列。

1.3 堆的数据极值

heapq还包括两个检查可迭代对象(iterable)的函数，可以查找其中包含的最大或最小值的范围。

import heapq

import math

from io import StringIO

data = [19, 9, 4, 10, 11]

def show_tree(tree, total_width=36, fill=' '):

    """Pretty-print a tree."""

    output = StringIO()

    last_row = -1

    for i, n in enumerate(tree):

        if i:

            row = int(math.floor(math.log(i + 1, 2)))

        else:

            row = 0

        if row != last_row:

            output.write('\n')

        columns = 2 ** row

        col_width = int(math.floor(total_width / columns))

        output.write(str(n).center(col_width, fill))

        last_row = row

    print(output.getvalue())

    print('-' * total_width)

    print()

print('all       :', data)

print('3 largest :', heapq.nlargest(3, data))

print('from sort :', list(reversed(sorted(data)[-3:])))

print('3 smallest:', heapq.nsmallest(3, data))

print('from sort :', sorted(data)[:3])

只有当n值(n>1)相对小时使用nlargest()和nsmallest()才算高效，不过有些情况下这两个函数会很方便。

1.4 高效合并有序序列

对于小数据集，将多个有序序列合并到一个新序列很容易。

list(sorted(itertools.chain(*data)))

对于较大的数据集，这个技术可能会占用大量内存。merge()不是对整个合并后的序列排序，而是使用一个堆一次一个元素地生成一个新序列，利用固定大小的内存确定下一个元素。

import heapq

import random

random.seed(2016)

data = []

for i in range(4):

    new_data = list(random.sample(range(1, 101), 5))

    new_data.sort()

    data.append(new_data)

for i, d in enumerate(data):

    print('{}: {}'.format(i, d))

print('\nMerged:')

for i in heapq.merge(*data):

    print(i, end=' ')

print()

由于merge()的实现使用了一个堆，所以它会根据所合并的序列个数消耗内存，而不是根据这些序列中的元素个数。

Python3标准库：heapq堆排序算法的更多相关文章

Python3 标准库
Python3标准库更详尽:http://blog.csdn.net/jurbo/article/details/52334345 文本 string:通用字符串操作 re:正则表达式操作 diff ...
8.Python3标准库--数据持久存储与交换
''' 持久存储数据以便长期使用包括两个方面:在对象的内存中表示和存储格式之间来回转换数据,以及处理转换后数据的存储区. 标准库包含很多模块可以处理不同情况下的这两个方面有两个模块可以将对象转换为一 ...
python023 Python3 标准库概览
Python3 标准库概览操作系统接口 os模块提供了不少与操作系统相关联的函数. >>> import os >>> os.getcwd() # 返回当前的工作 ...
python3标准库总结
Python3标准库操作系统接口 os模块提供了不少与操作系统相关联的函数. ? 1 2 3 4 5 6 >>> import os >>> os.getcwd( ...
7.Python3标准库--文件系统
''' Python的标准库中包含大量工具,可以处理文件系统中的文件,构造和解析文件名,还可以检查文件内容. 处理文件的第一步是要确定处理的文件的名字.Python将文件名表示为简单的字符串,另外还提 ...
1.Python3标准库--前戏
Python有一个很大的优势便是在于其拥有丰富的第三方库,可以解决很多很多问题.其实Python的标准库也是非常丰富的,今后我将介绍一下Python的标准库. 这个教程使用的书籍就叫做<Pyth ...
比较两个文件的异同Python3 标准库difflib 实现
比较两个文件的异同Python3 标准库difflib 实现对于要比较两个文件特别是配置文件的差异,这种需求很常见,如果用眼睛看,真是眼睛疼. 可以使用linux命令行工具diff a_file b ...
3.Python3标准库--数据结构
(一)enum:枚举类型 import enum ''' enum模块定义了一个提供迭代和比较功能的枚举类型.可以用这个为值创建明确定义的符号,而不是使用字面量整数或字符串 ''' 1.创建枚举 im ...
读书分享全网学习资源大合集，推荐Python3标准库等五本书「02」
0.前言在此之前,我已经为准备学习python的小白同学们准备了轻量级但超无敌的python开发利器之visio studio code使用入门系列.详见 1.PYTHON开发利器之VS Code使 ...

随机推荐

终于知道为什么linux文件系统权限是124了
哈哈,恍然大悟,出自pythonweb开发实战这一本书135页,有兴趣的朋友可以去了解下!
qt creator源码全方面分析(2)
目录 doc文件夹帮助文档 qdoc工具 doxygen工具 qtcreator.qdocconf qtcreator-dev.qdocconf doc文件夹对于bin和dist文件夹这里就不做过 ...
AcWing 789.数的范围
AcWing 789.数的范围题目描述给定一个按照升序排列的长度为n的整数数组,以及 q 个查询. 对于每个查询,返回一个元素k的起始位置和终止位置(位置从0开始计数). 如果数组中不存在该元素, ...
Spring相关jar说明
Spring整合使用说明一.只是使用spring框架 dist\spring.jar lib\jakarta-commons\commons-logging.jar 如果使用到了切面编程(AOP), ...
android之Activity的创建与关闭
Activity的启动和关闭 1.启动activity activity的启动分为两种,一种为入口activity,另一种为其他activity 在AndroidManifests进行配置,入口act ...
004-OSI参考模型和分层思想
OSI参考模型应用层所有能产生网络流量的程序表示层在传输之前是否进行加密或者压缩处理涉及安全问题会话层 Session 是建立在传输层之上,利用传输层提供的服务,使应用建立和维持会话,并能 ...
PyCharm2019.3.3专业版完美激活
在 PYPL 编程语言榜单上,Python 因近几年受欢迎程不断提高而继续霸榜.俗话说“萝卜青菜,各有所爱”,在众多的编辑器当中,因每个人的使用习惯不同,也会选择各自的喜欢的编辑器.Pycharm 分 ...
Nginx之keepalived高可用工具
1.创建两台虚拟机,分别为主机和从机,区别两台虚拟机的IP地址 2. 将keepalived上传到linux系统当中 3. cd /usr/local目录 4. tar -zxvf keepalive ...
Tarjan算法——强连通、双连通、割点、桥
Tarjan算法概念区分有向图强连通:在有向图\(G\)中,如果两个顶点\(u, v\ (u \neq v)\)间有一条从\(u\)到\(v\)的有向路径,同时还有一条从\(v\)到\(u\)的 ...
吴sir讲Python之 ——Pycharm的教程使用（二）
欢迎您进入老吴的博客,如有联系请加QQ群:1055524279 Pycharm使用: 第一步:打开的界面: 选择代码路径和Python解释器版本设置Pycharm菜单字体的大小: 设置编辑器里面字体 ...

Python3标准库：heapq堆排序算法