TOPK 问题

描述

如从海量数字中寻找最大的 k 个，这类问题我们称为 TOPK 问题，通常使用堆来解决：

求前 k 大，用最小堆
求前 k 小，用最大堆

例子

现有列表 [1, 2, 0, 3, 5], 求前 2 个大的元素。

如传入列表和 k = 2，输出 [3, 5]。

思路

先放入元素前 k 个建立一个最小堆
迭代剩余元素：

如果当前元素小于堆顶元素，跳过该元素（肯定不是前 k 大）

否则替换堆顶元素为当前元素，并重新调整堆
最后获取最小堆中的值，即为 topk

代码如下

import heapq

class Topk:

    """获取大量元素 topk 大个元素，固定内存

    思路：

    1. 先放入元素前 k 个建立一个最小堆

    2. 迭代剩余元素：

        如果当前元素小于堆顶元素，跳过该元素（肯定不是前 k 大）

        否则替换堆顶元素为当前元素，并重新调整堆

    """

    def __init__(self, iterable, k):

        self.minheap = []

        self.capacity = k

        self.iterable = iterable

    def push(self, val):

        if len(self.minheap) >= self.capacity:

            min_val = self.minheap[0]

            if val < min_val:       # 当然你可以直接 if val > min_val 操作，这里我只是显示指出跳过这个元素

                pass

            else:

                heapq.heapreplace(self.minheap, val)    # 返回并且 pop 堆顶最小值，推出新的 val 值并调整堆

        else:

            heapq.heappush(self.minheap, val)           # 前面 k 个元素直接放入 minheap

    def get_topk(self):

        for val in self.iterable:

            self.push(val)

        return self.minheap

def test():

    import random

    i = list(range(1000))   # 这里可以是一个可迭代元素，节省内存

    random.shuffle(i)

    _ = Topk(i, 10)

    print(_.get_topk())     # [990, 992, 991, 993, 996, 997, 998, 994, 995, 999]

test()

TOPK 问题的更多相关文章

[数据结构]——堆（Heap）、堆排序和TopK
堆(heap),是一种特殊的数据结构.之所以特殊,因为堆的形象化是一个棵完全二叉树,并且满足任意节点始终不大于(或者不小于)左右子节点(有别于二叉搜索树Binary Search Tree).其中,前 ...
关于堆排序和topK算法的PHP实现
问题描述 topK算法,简而言之,就是求n个数据里的前m大个数据,一般而言,m<<n,也就是说,n可能有几千万,而m只是10或者20这样的两位数. 思路最简单的思路,当然是使用要先对这n ...
MapReduce实现TopK的示例
由于开始学习MapReduce编程已经有一段时间了,作为一个从编程中寻找自信和乐趣以及热爱编程的孩子来讲,手开始变得很“痒”了,很想小试一下身手.于是自己编写了TopK的代码.TopK的意思就是从原文 ...
InAction-MR的topK
本来只是想拿搜狗的数据练练手的,却无意踏足MR的topK问题.经过几番波折,虽然现在看起来很简单,但是摸爬滚打中也学到了不少数据是搜狗实验室下的搜索日志,格式大概为: 00:00:00 298219 ...
MapReduce TopK统计加排序
Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词.在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例. 这个案例分两个 ...
[151225] Python3 实现最大堆、堆排序，解决TopK问题
参考资料: 1.算法导论,第6章,堆排序堆排序学习笔记及堆排序算法的python实现 - 51CTO博客堆排序 Heap Sort - cnblogs 小根堆实现优先队列:Python实现 -cn ...
Topk引发的一些简单的思考
软件工程课程的一个题目:写一个程序,分析一个文本文件中各个词出现的频率,并且把频率最高的10个词打印出来.文本文件大约是30KB~300KB大小. 首先说一下这边的具体的实现都是在linux上实现的. ...
hadoop记录topk
lk@lk-virtual-machine:~$ cd hadoop-1.0.1 lk@lk-virtual-machine:~/hadoop-1.0.1$ ./bin dfs -mkdir inpu ...
Python使用heapq实现小顶堆（TopK大）、大顶堆（BtmK小）
Python使用heapq实现小顶堆(TopK大).大顶堆(BtmK小) | 四号程序员 Python使用heapq实现小顶堆(TopK大).大顶堆(BtmK小) 4 Replies 需1求:给出N长 ...
Mapreduce TopK
思想比较简单,就是每个通过map来获取当前的数据块中的的topk个数据,然后将他们以相同的key值放到reduce中,最后通过reduce来对这n*k个数据排序并获得topk个数据.具体的就是建立 ...

随机推荐

C++入门经典-例7.8-const对象，标准尺寸
1:当建立一个对象之后,如果不希望它的任何数据发生改变,可以将其直接声明为const对象,例如: const 类名对象名 const对象必须初始化.我们可以调用它的数据和函数,但是不可以对他们进行修 ...
Python file 读写与操作
# strip() 返回数据类型为字符串# strip()去除头和尾的指定字符:# 如果没有指定,默认去掉头和尾的空格 str_1 = " he llo " # he llopri ...
electron关于页面跳转的问题
刚开始看到页面跳转,大家一般会想到用 window.location.href = './index.html'; 这样的代码.结果是可以跳转,但 DOM事件基本都会失效.到最后还是使用的 elec ...
[SQL]学习中遇到的错误
1.中英文模式切换查找语句中不能出现中文字符!!!
Ceph 的用户管理与认证
目录文章目录目录前言 Ceph 的用户管理用户管理常规操作 CephX 认证系统身份认证原理使用 ceph-authtool 进行密钥环管理注意事项前言常规的身份认证系统无非三点: ...
Monkeyrunner 使用说明
monkeyrunner为android系统新公开的一个测试工具.有助于开发人员通过脚本部署较大规模的自动化测试. Monkeyrunner 本文档中包含一个简单的monkeyrunne ...
SQL常见面试题（学生表_课程表_成绩表_教师表）
表架构 Student(S#,Sname,Sage,Ssex) 学生表 Course(C#,Cname,T#) 课程表 SC(S#,C#,score) 成绩表 Teacher(T#,Tname) 教师 ...
【HANA系列】SAP HANA SQL计算两个日期的差值
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[HANA系列]SAP HANA SQL计算两个 ...
【ABAP系列】SAP Smartforms 设置纸张打印格式
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[ABAP系列]SAP Smartforms 设 ...
Android开发互相调用模式之导出Jar包、扩展MainActivity、Java主导
首先讲导出Jar包,在以前都是用这种方法,但是现在官方不推荐使用此方法,官方推荐导出Aar包 (1)首先创建一个Android空工程注意:这里选择API 16,因为Unity支持的最低是API 16 ...

TOPK 问题

TOPK 问题

描述

例子

思路

代码如下

TOPK 问题的更多相关文章

随机推荐

热门专题