目录

一、什么是Top K问题

二、Top K的实际应用场景

三、Top K的代码实现及其效率对比

  1.用堆来实现Top K

  2.用快排来实现Top K

  3.用堆或用快排来实现 TopK 的效率对比

  正文

一、什么是Top K问题?

  给一个无序的数组,长度为N,  请输出最小 (或最大)的K个数。

二、Top K的实际应用场景

  排行榜:用户数量有几百万, 但是只需要前100名的用户成绩。 要显示出来, 且这个排行榜是实时变化的。

三、Top K的代码实现

  需求:给一个无序的数组,长度为N, 请输出最大的5个数。 

  1. 用堆来实现Top K——PriorityQueue(小顶堆)

  (1)步骤梳理:

    ①创建一个结点个数为 k 的小顶堆;

    ②当数据量 < k 时,将数据直接放到这个小顶堆中,此时堆的顶结点是最小值;

    ③当数据量 >= k时,每产生一个新数据都与堆的顶结点进行比较:

      如果新数据 > 顶结点数据,则将顶结点删除,将新数据放到堆中,此时堆会进行排序,且维护了堆的总结点数为k;

如果新数据<顶结点数据,则不动。

  (2)中心思想:使堆的总结点数维持在 k 个。

  (3)代码实现:

     @Test
public void getTopKByHeapInsertTopKElement() {
int arrayLength = 10000000 + 10;
int topK = 5; // 准备一个长度为arrayLength的无序数组:
int[] array = A03TopKByQuickSortAndNewArray.getDisorderlyArray(arrayLength); // 准备一个总结点数为topK的小顶堆:
PriorityQueue<Integer> heap = new PriorityQueue<>(topK); long start = System.currentTimeMillis(); // 始终维持一个总结点个数为k的堆:
insertButmaintainTheHeapAtTopK(heap, array, topK); //获得最大topK:
printHeap(heap); long end = System.currentTimeMillis();
System.out.println("获得最大top5总耗时: " + (end - start));
} /**
* 用小顶堆来获取topK:当数据量超过topK后,新产生的数据直接和heap的顶结点进行比较。
*/
private static void insertButmaintainTheHeapAtTopK(PriorityQueue<Integer> heap, int[] array, int topK) {
for (int i = 0; i < array.length; i++) {
if (i < topK) {
heap.add(array[i]);
} else {// 怎么维持堆的总结点个数,下面的代码是关键:
if (null != heap.peek() && array[i] > heap.peek()) {
heap.poll();
heap.add(array[i]);
}
}
}
} /**
* 获取最大TopK
* @param heap
*/
static void printHeap(PriorityQueue<Integer> heap) {
Iterator<Integer> iterator = heap.iterator();
while (iterator.hasNext()) {
System.out.println(iterator.next());
}
}

  

  2. 用快排来实现Top K

  (1)步骤梳理:

    ①通过快排,先将无序数组array进行排序;

    ②取出最小Top 5,并放到topArray中;【关键】

    ③超过arrayLength个数据后,又产生了insertNumber个新数据:直接和topArray数组比较,要放也是放到topArray中了;【关键】

  (2)时间复杂度:

    ①排序的时间复杂度:O(N*logN);

    ②取出top k的时间复杂度:O(1),就是遍历数组。

  (3)代码实现:

     @Test
public void testGetTopKByQuickSortToNewArray() {
int topK = 5;
int arrayLength = 10000000; //准备一个无序数组
int[] array = getDisorderlyArray(arrayLength); long start = System.currentTimeMillis(); //1.通过快排,先将无序数组array进行排序
quickSort(array, 0, array.length-1); //2.取出最小Top 5,并放到topArray中:
int[] topKArray = insertToTopArrayFromDisorderlyArray(array, topK); //3.超过arrayLength个数据后,又产生了insertNumber个新数据:直接和topArray[topKArray.length-1]比较,要放也是放到topArray中了
insertToTopKArray(topKArray, 10, 100, topKArray.length-1);//生成10个100以内的随机数作为新数据,和topKArray[topKArray.length-1] long end = System.currentTimeMillis();
System.out.println("获得最大top5总耗时: " + (end - start));
} /**
* 产生新的数据后,再和topKArray数组进行比较,看新数据时候需要插入到topKArray中,若需要插入,则堆topKArray进行重新快排。
*
* @param topKArray topK数组
* @param insertNumber 新产生的数据的个数
* @param randomIntRange 在什么范围内产生新数据,如生成10以内的随机数。
* @param topK 在topKArray中,确定要替换的元素的下标。获得最小topK,则topK是从小到大排序的topKArray的最后一个元素。
*/
private static void insertToTopKArray(int[] topKArray, int insertNumber, int randomIntRange, int topK) {
Random random = new Random();
int randomInt;
for(int i = 0; i < insertNumber; i++) {
randomInt = random.nextInt(100);
if(randomInt < topKArray[topK]) {//新数据如果小于topArray[topK],则直接用该数去替换topArray,然后再将topArray进行重新排序。
topKArray[topK] = randomInt;
quickSort(topKArray, 0, topKArray.length-1);
}
}
} /**
* 从有序数组中取出需要的TopK,放到TopK数组中。
*
* @param sourceArray 有序数组
* @param topK 需要获取到Top K
* @return TopK数组
*/
private static int[] insertToTopArrayFromDisorderlyArray(int[] sourceArray, int topK) {
int[] topArray = new int[topK];
for(int i = 0; i < 5; i++) {
topArray[i] = sourceArray[i];
}
return topArray;
} /**
* 快排
* @param target
* @param left
* @param right
*/
static void quickSort(int[] target, int left, int right) {
if (left >= right) {
return;
}
int pivot = target[left];// 基准点
int temp;
int i = left;
int j = right;
while (i < j) {
while (target[j] >= pivot && i < j) {
j--;
}
while (target[i] <= pivot && i < j) {
i++;
}
if (i < j) {
temp = target[i];
target[i] = target[j];
target[j] = temp;
}
}
// left和right相遇了:
// ①将相遇点的元素和pivot做交换:
target[left] = target[j];
target[j] = pivot;
// ②基准点两边的元素的分别再做排序:
quickSort(target, left, j - 1);
quickSort(target, j + 1, right);
} /**
* 准备一个无序数组
*
* @param arrayLength
* @return int[]
*/
static int[] getDisorderlyArray(int arrayLength) {
int[] disorderlyArray = new int[arrayLength];
Random random = new Random();
for (int i = 0; i < arrayLength; i++) {
disorderlyArray[i] = random.nextInt(arrayLength);
}
return disorderlyArray;
} /**
* 遍历数组
*/
static void showArray(int[] target) {
for (Integer element : target) {
System.out.println(element);
}
}

  3. 用堆来实现TopK 和 用快排来实现TopK 的效率对比:

                  “小顶堆”    |    “快排”

    数据量为100万+10时:    11毫秒    |    124毫秒

    数据量为1000万+10时:    28毫秒    |    1438毫秒

利用堆来处理Top K问题的更多相关文章

  1. 优先队列PriorityQueue实现 大小根堆 解决top k 问题

    转载:https://www.cnblogs.com/lifegoesonitself/p/3391741.html PriorityQueue是从JDK1.5开始提供的新的数据结构接口,它是一种基于 ...

  2. Top K问题的两种解决思路

    Top K问题在数据分析中非常普遍的一个问题(在面试中也经常被问到),比如: 从20亿个数字的文本中,找出最大的前100个. 解决Top K问题有两种思路, 最直观:小顶堆(大顶堆 -> 最小1 ...

  3. 优先队列实现 大小根堆 解决top k 问题

      摘于:http://my.oschina.net/leejun2005/blog/135085 目录:[ - ] 1.认识 PriorityQueue 2.应用:求 Top K 大/小 的元素 3 ...

  4. 堆与堆排序、Top k 问题

     堆排序与快速排序,归并排序一样都是时间复杂度为O(N*logN)的几种常见排序方法.学习堆排序前,先讲解下什么是数据结构中的二叉堆. 二叉堆的定义 二叉堆是完全二叉树或者是近似完全二叉树. 二叉堆满 ...

  5. 堆实战(动态数据流求top k大元素,动态数据流求中位数)

    动态数据集合中求top k大元素 第1大,第2大 ...第k大 k是这群体里最小的 所以要建立个小顶堆 只需要维护一个大小为k的小顶堆 即可 当来的元素(newCome)> 堆顶元素(small ...

  6. 经典面试问题: Top K 之 ---- 海量数据找出现次数最多或,不重复的。

    作者:林冠宏 / 指尖下的幽灵 掘金:https://juejin.im/user/587f0dfe128fe100570ce2d8 博客:http://www.cnblogs.com/linguan ...

  7. [LeetCode] Top K Frequent Words 前K个高频词

    Given a non-empty list of words, return the k most frequent elements. Your answer should be sorted b ...

  8. 程序员编程艺术:第三章续、Top K算法问题的实现

    程序员编程艺术:第三章续.Top K算法问题的实现 作者:July,zhouzhenren,yansha.     致谢:微软100题实现组,狂想曲创作组.     时间:2011年05月08日    ...

  9. 海量数据处理 - 10亿个数中找出最大的10000个数(top K问题)

    前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小堆比较好一些. 先拿10000个数建堆, ...

随机推荐

  1. CentOS7.5模板机配置

    CentOS7.5模板机配置 标签(空格分隔): linux学习知识整理 Mr.Wei's notes! 人一定要有梦想,没有梦想那根咸鱼有什么区别: 即便自己成为了一条咸鱼,也要成为咸鱼里最咸的那一 ...

  2. 创建WebApi

    一.创建 Web 项目 使用vs创建项目,选择“ASP.NET Core Web 应用程序”模板,将项目命名为 TodoApi,然后单击“确定”. 在“新建 ASP.NET Core Web 应用程序 ...

  3. Android_Fragment

    (一) Faragment有自己的生命周期 Fragment依赖于Activity Fragmen通过getActivity()可以获取所在Activity:Activity通过FragmentMan ...

  4. 千与千寻主题曲beep函数版

    在出代码之前,我们向来了解一下Beep函数. 例: Beep(,); 这个表示575Hz响100ms. 下面给出代码: #include <bits/stdc++.h> #include ...

  5. 「考试」 Or

    不得不说是一道多项式神题了. 虽然说颓代码颓的很厉害不过最终A掉了. 好好讲一讲这道题. 涉及的知识点是:高阶导数,NTT,指数型母函数,泰勒公式,以及意志力和数学推导能力. 那就开始了. 一个测试点 ...

  6. nmap学习笔记-扫描格式

    习惯性的前言: 之前曾经零零星星的学习过一段时间的nmap,但是因为用的少,后续有慢慢的放下了,这次正好借着工作上的机会重新学习一下nmap,并记录在此. nmap端口状态: open:应用程序在该端 ...

  7. 如何在Vue中,当鼠标hover上元素时,给元素加遮罩层

    介绍 当鼠标hover 上元素时,给元素加一层遮罩层. 效果图 使用 import VueHoverMask from 'vue-hover-mask' export default { compon ...

  8. P5304旅行者(比bk201还要流氓的解法)

    题目如上. 暴力碾标算,n^2过百万!! 作为一道黑题它确实有点点水(如果是畜生解法的话) 就是找出两两点之间的最短路的最小值. 本来是很高深的一题,要跑两遍最短路啊,然后染色啊,再拓展什么的,但是! ...

  9. es ik 分词 5.x后,设置默认分词

    1.使用模板方式,设置默认分词 注: 设置模板,需要重新导入数据,才生效 通过模板设置全局默认分词器 curl -XDELETE http://localhost:9200/_template/rtf ...

  10. C语言程序设计100例之(4):水仙花数

    例4    水仙花数 题目描述 一个三位整数(100-999),若各位数的立方和等于该数自身,则称其为“水仙花数”(如:153=13+53+33),找出所有的这种数. 输入格式 没有输入 输出格式 若 ...