一、题目描述

描述:

输入n个整数,输出其中最小的k个。

输入:

  1. 输入 n 和 k
  2. 输入一个整数数组

输出:

输出一个整数数组

样例输入:

5 2
1 3 5 7 2

样例输出:

1 2

二、Top K问题

对于 Top K 问题有很多种解法。

解法一:排序

相信很多人会首先想到这种方法,先把数组按升序/降序进行排序,然后输出 K 个最小/最大的数。

  • 常规的排序方法时间复杂度至少是Θ(nlog2n)。(快排或堆排序
  • 可能你会说,我们可以使用线性时间的排序算法。当然可以,但通常它们对输入的数组有一定的要求。比如计数排序要求 n 个数都是正整数,且它们的取值范围不太大。

解法二:部分排序 O(n∗k)

由于我们只需要找出最小/最大的 k 个数,所以我们可以进行部分排序,比如简单选择排序冒泡排序,它们每一趟都能把一个最小/最大元素放在最终位置上,所以进行 k 趟就能把 n 个数中的前 k 个排序出来。

部分简单选择排序:

void select_sort(int A[], int n, int k)
{
for(int i=0; i<k; ++i) { // k趟
int Min = i; // 记录最小元素的位置 for(int j=i+1; j<n; ++j)
if(A[j] < A[Min])
Min = j; if(Min != i) // 与A[i]交换
{
int tmp = A[Min];
A[Min] = A[i];
A[i] = tmp;
}
}
}

部分冒泡排序:

void bubble_sort(int A[], int n, int k)
{
for(int i=0; i<k; ++i) // k趟
{
bool flag = false;
for(int j=n-1; j>i; --j) // 一趟冒泡过程
if(A[j-1] > A[j])
{
int tmp = A[j-1];
A[j-1] = A[j];
A[j] = tmp;
flag = true;
}
if(flag == false) // 已经有序
return ;
}
}

那么,O(nlog2n) 与 O(n∗k) 哪一个更好呢?这取决于 k 的大小。在 k 较小的情况下,即 k<=log2n,可以选择部分排序。

解法三:快排划分 O(n∗log2k)

根据基于快排partition操作的《第k顺序统计量的求解》,我们知道,当我们求出第 k 顺序统计量时,位于它前面的元素都比它小,位于它后面的元素都比它大。这时,数组的前 k 个数就是最小的 k 个数。

int partition(int A[], int low, int high)
{
int pivot = A[low];
while(low < high)
{
while(low < high && A[high]>=pivot)
--high;
A[low] = A[high];
while(low < high && A[low]<=pivot)
++low;
A[high] = A[low];
}
A[low] = pivot;
return low;
} int topK(int A[], int low, int high, int k)
{
if(k <= 0)
return -1;
if(low == high)
return low; int pos = partition(A, low, high);
int i = pos - low + 1;
if(i == k)
return pos; // 返回前k个数的
else if(i > k)
return topK(A, low, pos, k);
else
return topK(A, pos+1, high, k-i);
}

我们说这个算法的平均时间复杂度是线性的,更准确地说,是 O(n∗log2k)。另外,为了避免特殊数据下的算法退化,最好使用随机化版本的划分操作。

解法四:大根堆 O(n∗log2k)

参见《堆排序》,可以用大小为 k 的大根堆来存储最小的 k 个数。大根堆的堆顶元素就是最小 k 个数中最大的一个。每次新考虑一个数 X:

  • 如果 X 比堆顶的元素 Y 大,则不需要改变原来的堆,因为这个元素比最小的 k 个数都大。

  • 如果 X 比堆顶元素 Y 小,那么用 X 替换堆顶的元素 Y。在 X 替换堆顶元素 Y 之后,大根堆的结构可能被破坏,需要进行向下调整。调整过程的时间复杂度是 O(log2k) 。

遍历完成以后,数组的前 k 个数就是最小的 k 个数,但是它们并非有序,而是以堆的形式存在。C++代码如下:

void AdjustDown(int A[], int i, int len)
{
int temp = A[i]; // 暂存A[i] for(int largest=2*i+1; largest<len; largest=2*largest+1)
{
if(largest!=len-1 && A[largest+1]>A[largest])
++largest; // 如果右子结点大
if(temp < A[largest])
{
A[i] = A[largest];
i = largest; // 记录交换后的位置
}
else
break;
}
A[i] = temp; // 被筛选结点的值放入最终位置
} /* 建堆 */
void BuildMaxHeap(int A[], int len)
{
for(int i=len/2-1; i>=0; --i) // 从i=n/2-1到0,反复调整堆
AdjustDown(A, i, len);
} /* 维护 A[0...k-1] 这个大根堆 */
void topK(int A[], int n, int k)
{
BuildMaxHeap(A, k); // 先用前面的k个数建大根堆
for(int i=k; i<n; ++i)
{
if(A[i] < A[0]) // 如果小于堆顶元素,替换之
{
int tmp = A[0];
A[0] = A[i];
A[i] = tmp;
AdjustDown(A, 0, k); // 向下调整
}
}
}

注意:找最小的 k 个数,就维护一个大根堆;找最大的 k 个数,就维护一个小根堆。

三、解题报告

第二部分已经讲解地很清楚了,几种解法都可以,只要注意输入输出的格式就行了。

个人站点:http://songlee24.github.com

华为OJ2051-最小的K个数(Top K问题)的更多相关文章

  1. 最大/最小de K个数/第K个数

    题目 在未排序的数组中找到第 k 个最大的元素.请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素. 思路 堆排序 收获 用优先队列实现最大最小堆 注意下列代码中优先队列 ...

  2. 海量数据处理之top K问题

    题目: CVTE笔试题https://www.1024do.com/?p=3949 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节. 假设目前有一千万 ...

  3. [IR] Ranking - top k

    PageRanking 通过: Input degree of link "Flow" model - 流量判断喜好度 传统的方式又是什么呢? Every term在某个doc中的 ...

  4. 华为OJ平台——输出最小的k个数

    输入n个整数,输出其中最小的k个. 详细描述: 接口说明 原型: bool GetMinK(unsignedint uiInputNum, int *pInputArray, unsignedint ...

  5. 算法题解:最大或最小的K个数(海量数据Top K问题)

    题目 输入 n 个整数,找出其中最小的 k 个数.例如输入4.5.1.6.2.7.3.8 这8个数字,则最小的4个数字是1.2.3.4. 初窥 这道题最简单的思路莫过于把输入的 n 个整数排序,排序之 ...

  6. 算法题解:最小的K个数(海量数据Top K问题)

    [本文版权归微信公众号"代码艺术"(ID:onblog)所有,若是转载请务必保留本段原创声明,违者必究.若是文章有不足之处,欢迎关注微信公众号私信与我进行交流!] 题目 输入 n ...

  7. 最小的k个数

    // 最小的k个数.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include <iostream> #include & ...

  8. (剑指Offer)面试题30:最小的k个数

    题目: 输入n个整数,找出其中最小的K个数.例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4,. 思路: 1.排序 把输入的n个整数排序,然后取前k个数: 时间复杂度 ...

  9. 求给定数据中最小的K个数

    public class MinHeap { /* * * Top K个问题,求给定数据中最小的K个数 * * 最小堆解决:堆顶元素为堆中最大元素 * * * */ private int MAX_D ...

随机推荐

  1. (转)淘淘商城系列——SSM框架整合之逆向工程

    http://blog.csdn.net/yerenyuan_pku/article/details/72758590 我们知道在开发中有些工作是非常耗时但是又没有什么技术含量的,比如创建mapper ...

  2. 框架开发之Java注解的妙用

    注解的好处:1.能够读懂别人写的代码,特别是框架相关的代码.2.本来可能需要很多配置文件,需要很多逻辑才能实现的内容,就可以使用一个或者多个注解来替代,这样就使得编程更加简洁,代码更加清晰.3.(重点 ...

  3. Linux 的 Spinlock 在 MIPS 多核处理器中的设计与实现

    引言 随着科技的发展,尤其是在嵌入式领域,高性能.低功耗的处理器成为众多厂商追逐的目标,但是由于技术和工艺的瓶颈,试图在单核处理器上达到这样的目标变得越发困难,于是人们提出了多核处理器的概念.多核处理 ...

  4. Spring Data Redis整体介绍 (一)

    为什么使用Spring Data Redis 首先Spring Data Redis 是Spring 框架提供的用于操作Redis的客户端. Spring框架是一个全栈Java程序框架,通过DI.AO ...

  5. Visual Studio 2013/2015/2017快捷键(转载)

    本文为转载文章,原文:[心存善念]  [Fonour] 项目相关的快捷键 Ctrl + Shift + B = 生成项目 Ctrl + Alt + L = 显示 Solution Explorer(解 ...

  6. 零基础入门学习Python(26)--字典:当索引不好用时2

    知识点 删除字典元素 能删单一的元素也能清空字典,清空只需一项操作. 显示删除一个字典用del命令,如下: >>> dict1 = {'a':1,'b':2,'c':3} >& ...

  7. js 技巧 (十)广告JS代码效果大全 【3】

    3.[允许关闭]     与前面两个代码不同的是,广告图下方增加了一个图片按纽,允许访客点击关闭广告图片,下面文本框中就是实现效果所需代码: var delta=0.015;     var coll ...

  8. solr-5.3.1配置(win7 x64)

    下载solr,下载地址http://www.eu.apache.org/dist/lucene/solr/5.3.1/solr-5.3.1.zip 解压到某个目录下,这里是解压到了d盘目录下,路径:D ...

  9. Quartz--Trigger

    TriggerQuartz中的触发器,用来告诉调度程序什么时候触发,即Trigger对象是用来触发Job的 触发器通用属性 JobKey StartTime EndTimeJobKey表示job实例的 ...

  10. POJ-1274The Perfect Stall,二分匹配裸模板题

    The Perfect Stall Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 23313   Accepted: 103 ...