简单的topK问题

/************************************************************************/

/*

求一组数据中的top（K）问题，这是一个经典的top（K）问题。

分析：

方法一：如果数据量不大，那么最常用的方法就是排序从大大小，然后找出前k个数据。

比较高效率的排序算法，如快排，堆排序等，总体时间复杂度为 O(N*log2(N))+O(K)=O(N*log2(N))

或是直接用部分排序算法，如选择排序，直接找出前K个元素，时间复杂度为O(N*K),

至于O(N*log2(N)) 还是O(N*K)效率高，看K的取值，若K<log2(N)那么部分排序效率高。

方法二：

如果数据量非常大，不能够加载到内存中，这就成了一个海量数据问题。求其中的top(K)

就是我们所求的前K个大的数据。

这样考虑，我们用一个长度为K大小的数组存储前k个数据，然后经过一次扫描数据，每次

扫描一个数据，和数据中最小的数据比较，如果小于这个数据，继续下一个数据扫描，如果

大于这个数据，那么就替换掉数组中最小的那个数据。这样所消耗的时间效率为O(N*K)

进一步，我们可以用容量为K大小的最小堆来存储前K个数据，如果我们新扫描的数据小于堆顶

的数据，那么我们就替换最小堆的堆顶数据，调整最小堆形成新的最小堆。

最小堆可以用一个长为K大小的数组h模拟，对于结点h[i]，其中父节点为h[i/2],

儿子节点为：h[2*i+1]和h[2*i+2];

*/

/************************************************************************/

/*

n为要判断的数字，h为最小堆，k为topk 即最小堆维持的大小。

*/

void topK(int n,int *h,int K)

{

    if(n<h[])return;

    int p = ;

    int q = ;

    h[] = n;

    while(p < K)

    {

        q = *p +;

        if (q >= K) break;

        if (h[p] < h[q] && h[p] < h[q+])break;

        if (h[*p+] > h[*p+] ) q++;

        int tem = h[q];

        h[q] = h[p];

        h[p] = tem;

        p = q;

    }

}

简单的topK问题的更多相关文章

计算机程序的思维逻辑 (47) - 堆和PriorityQueue的应用
45节介绍了堆的概念和算法,上节介绍了Java中堆的实现类PriorityQueue,PriorityQueue除了用作优先级队列,还可以用来解决一些别的问题,45节提到了如下两个应用: 求前K个最大 ...
Java编程的逻辑 (47) - 堆和PriorityQueue的应用
本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http:/ ...
Topk引发的一些简单的思考
软件工程课程的一个题目:写一个程序,分析一个文本文件中各个词出现的频率,并且把频率最高的10个词打印出来.文本文件大约是30KB~300KB大小. 首先说一下这边的具体的实现都是在linux上实现的. ...
TopK的一个简单实现
转自:http://rangerwolf.iteye.com/blog/2119096 题外话: <Hadoop in Action> 是一本非常不错的交Hadoop的入门书,而且建议看英 ...
关于堆排序和topK算法的PHP实现
问题描述 topK算法,简而言之,就是求n个数据里的前m大个数据,一般而言,m<<n,也就是说,n可能有几千万,而m只是10或者20这样的两位数. 思路最简单的思路,当然是使用要先对这n ...
InAction-MR的topK
本来只是想拿搜狗的数据练练手的,却无意踏足MR的topK问题.经过几番波折,虽然现在看起来很简单,但是摸爬滚打中也学到了不少数据是搜狗实验室下的搜索日志,格式大概为: 00:00:00 298219 ...
Python使用heapq实现小顶堆（TopK大）、大顶堆（BtmK小）
Python使用heapq实现小顶堆(TopK大).大顶堆(BtmK小) | 四号程序员 Python使用heapq实现小顶堆(TopK大).大顶堆(BtmK小) 4 Replies 需1求:给出N长 ...
Mapreduce TopK
思想比较简单,就是每个通过map来获取当前的数据块中的的topk个数据,然后将他们以相同的key值放到reduce中,最后通过reduce来对这n*k个数据排序并获得topk个数据.具体的就是建立 ...
scala写算法-用小根堆解决topK
topK问题是指从大量数据中获取最大(或最小)的k个数,比如从全校学生中寻找成绩最高的500名学生等等. 本问题可采用小根堆解决.思路是先把源数据中的前k个数放入堆中,然后构建堆,使其保持堆序(可以简 ...

随机推荐

drupal的node.html.twig说明
Drupal 8 根据分类不同定义自己的节点模板建议:http://www.thinkindrupal.com/node/5986 *可用变量: * - node:具有有限访问对象属性和方法的节点实体 ...
不一样的go语言-一样的语法
前言上一篇入门篇算是初识庐山真面目,我们知道了一个go程序的构成,在这里总结一下. //包名 package //导入包 import "fmt" //main方法,程序入口 ...
mysql中的用法 count group by having
1 语法: group by 字段 having 条件判断; group by的用法我已经在上一篇经验中介绍了 2 还是已员工绩效表为例 3 我们如果就是查询每个部门成绩大于89的员工数,可以这样 ...
XenServer日志清理方法
服务器使用时间长了,XenServer产生了很多日志,甚至有些人因为日志占满了空间, 导致系统出现问题:xapi崩溃,或者系统卡死,重启也无效. 所以我们要时常看看日志是否占的空间的,清理下日志先查看 ...
BZOJ.3720.Gty的妹子树(树分块)
题目链接洛谷上惨遭爆零是为什么.. 另外这个树分块算法是假的. /* 插入删除只涉及一个数,故每次可以枚举一遍,而不是重构完后sort */ #include<cmath> #inclu ...
BZOJ 5381 or & Codeforces 623E Transforming Sequence DP+NTT
两道题题意都是一样的不过$CF$的模数是$10^9+7$ 很简单的分析发现$A_i$项一定要有一个之前没有出现过的二进制位才能满足条件考虑$DP$来做设$f_{i,j}$表示$i$个数用了二进制 ...
把Catalina的字符串格式转化为日期格式
public static void distinctCoords(LinkedList list,String date,String imei,double GpsLat,double GpsLn ...
C#中如何把int转换成两个字符的string
部门新开了项目,所以一整周的时间都在瞎忙,为什么称瞎忙?所负责的内容,并没有做好,也是一万个心塞啊.... 说一下最近碰到的一些问题. 用到了计时,但是比如定时是一分半钟,可是显示的时候,想让显示为1 ...
java字符串反转
1.递归反转 public static String reverseString(String x) { if (x == null || x.length() < 2) return x; ...
Revit API根据链接文件开洞
开洞信息数据: ]); ; ; ; ; ...

简单的topK问题

简单的topK问题的更多相关文章

随机推荐

热门专题