从m个数中取top n
将题目具体一点,例如,从100个数中取出从大到小排前10的数
方法1:使用快速排序
因为快速排序一趟下来,小于K的数都在K的前面,大于K的数都在K的后面
如果,小于K的数有35个,大于K的数有64个
那么,所以我们取top 10时,只需要在前35个数中进行递归快速排序,所以不需要对所有的数进行排序
方法2:使用堆排序
首先在前10个数中建议一个小根堆,
因为是小根堆,所以前10个数中最小的数在index=0上
然后遍历从11到100的数,如果p[i]>p[0],那么交换p[i]和p[0],然后重建堆
遍历完成后,top 10的数就是堆中
我用10万个随机数做实验,性能分析如下:
表示当选取top 10时,快速排序花费3833微秒,堆排序花费642微秒
结论:
取top n时,当n小时,堆排序比快速排序有明显的优势,当n增加时,优势减少,甚至逆转
以下是实验代码,仅供参考
void adjust_min_heap(int*p, int index,int max)
{
int target,left=2*index+1,right=left+1;
if(right <= max)
{
//左右孩子都存在,找相对较小的
if( p[left]
target=left;
else
target=right;
}
else if(left==max)
{
//只有左孩子存在
target=left;
}
else
{
return;
}
if(p[target]
{
exchange(&p[target],&p[index]);
adjust_min_heap(p,target,max);
}
}
void find_top_n_min_heap(int*p, int num, int *n)
{
//如果总的个数还不够
if(num<=*n)
{
*n=num;
return;
}
int i;
//将前n个数调整为小根堆
for(i=*n/2-1;i>=0;i--)
adjust_min_heap(p,i,*n-1);
int j;
for(j=*n;j
if(p[j]>p[0])
{
exchange(&p[j],&p[0]);
adjust_min_heap(p,0,*n-1);
}
}
void find_top_n_1(int*p, int begin, int end, int n)
{
if(begin>=end)return;
int i = begin+1,j=end;
while(i
{
while(i=p[begin])i++;
while(j>begin && p[j]<=p[begin])j--;
if(i
{
exchange(&p[i],&p[j]);
}
}
if(p[begin]
exchange(&p[begin],&p[j]);
if(end-begin==1 && n==1)
{
printf("%d\n",p[begin]);
return;
}
if(j-begin+1 > n)
find_top_n_1(p,begin,j,n);
else if(j-begin+1 == n)
{
int k;
for(k=begin;k<=j;k++)
printf("%d\n",p[k]);
}
else if(j-begin+1 < n)
{
int k;
for(k=begin;k<=j;k++)
printf("%d\n",p[k]);
find_top_n_1(p,j+1,end,n-j+begin-1);
}
}
void find_top_n_quick_sort(int*p, int num, int n)
{
find_top_n_1(p,0,num-1,n);
}
从m个数中取top n的更多相关文章
- 【算法与数据结构】在n个数中取第k大的数(基础篇)
(转载请注明出处:http://blog.csdn.net/buptgshengod) 题目介绍 在n个数中取第k大的数(基础篇),之所以叫基础篇是因为还有很多更高级的算法,这些 ...
- 海量数据处理 - 10亿个数中找出最大的10000个数(top K问题)
前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小堆比较好一些. 先拿10000个数建堆, ...
- 找出n个自然数(1,2,3,……,n)中取r个数的组合
<?php /** * 对于$n和$r比较小, 可以用这种方法(当n=5, r=3时) */ function permutation1($n, $r) { for($i=1; $i<=$ ...
- hdu 5265 技巧题 O(nlogn)求n个数中两数相加取模的最大值
pog loves szh II Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) ...
- 算法题解:最大或最小的K个数(海量数据Top K问题)
题目 输入 n 个整数,找出其中最小的 k 个数.例如输入4.5.1.6.2.7.3.8 这8个数字,则最小的4个数字是1.2.3.4. 初窥 这道题最简单的思路莫过于把输入的 n 个整数排序,排序之 ...
- 算法题解:最小的K个数(海量数据Top K问题)
[本文版权归微信公众号"代码艺术"(ID:onblog)所有,若是转载请务必保留本段原创声明,违者必究.若是文章有不足之处,欢迎关注微信公众号私信与我进行交流!] 题目 输入 n ...
- sql 分组取最新的数据sqlserver巧用row_number和partition by分组取top数据
SQL Server 2005后之后,引入了row_number()函数,row_number()函数的分组排序功能使这种操作变得非常简单 分组取TOP数据是T-SQL中的常用查询, 如学生信息管理系 ...
- Oracle:分割字符串 取TOP N条记录
oracle数据库,表数据如下: ids id 3,4,5 7 13,14,15,16 ...
- row_number和partition by分组取top数据
分组取TOP数据是T-SQL中的常用查询, 如学生信息管理系统中取出每个学科前3名的学生.这种查询在SQL Server 2005之前,写起来很繁琐,需要用到临时表关联查询才能取到.SQL Serve ...
随机推荐
- (转) c# ExecuteNonQuery() 返回值 -1
这是之前我遇到问题,在网上找解决方法时找到的,当时复制到txt文档了,今天整理笔记又看到了,贴出来,便于以后查阅.原文的作者没记住~~ 查询某个表中是否有数据的时候,如果用ExecuteNonQuer ...
- 召回率与准确率[ZZ]
最近一直在做相关推荐方面的研究与应用工作,召回率与准确率这两个概念偶尔会遇到,知道意思,但是有时候要很清晰地向同学介绍则有点转不过弯来. 召回率和准确率是数据挖掘中预测.互联网中的搜索引擎等经常涉及的 ...
- 【JQuery学习历程】1.初识JQuery
1.JQuery简介: JQuery是用js写的JavaScript库,是为了简化js对HTML元素的操作.实现动画效果并方便为网站提供ajax交互: 2.ready()方法: ready()方法和j ...
- 使用jQuery验证用户名是否存在,达到局部刷新的效果
<%@ page pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 ...
- js判断用户进入设备代码
var system ={ win : false, mac : false, xll : false }; //检测平台 var p = navigator.platform; system.win ...
- 搭建laravel5全面教学,爬坑(windows下)。
1.首先下载屌比的Composer 2.然后下载composer.phar 3.然后下载最新版Laravel框架 4.将下载下来的laravel压缩包扔到htdocs目录下(扔到别的目录没试过) 5. ...
- 使用PHP对文件进行压缩解压(zip)
使用虚拟主机进行文件上传时最常用的工具莫过于FTP了,但是使用FTP有一个弊端就是文件太多时上传或下载速度比较慢,如果上传时将文件打包,上传后在 空间解压缩,同样下载前将文件打包压缩以压缩包的形式下载 ...
- Apache .htaccess Rewrite解决问号匹配的写法
如news.asp?id=123 需要把它定向到 news/123.html 这个用 RewriteRule 怎么写啊? RewriteRule ^news\.asp\?id=(\d+)$ news/ ...
- uboot内存分布
一.uboot的内存分布图 山人自己画的图 华清远见的图 二.如何修改编译地址 board/smdk2410/config.mk中定义有TEXT_BASE TEXT_BASE = 0x33F80000 ...
- 大话设计模式之策略模式(strategy)
策略模式:它定义了算法家族,分别封装起来,让他们之间可以互相替换,此模式让算法的变化不会影响使用算法的用户. 针对商城收银模式,打折,返现促销等的例子: 打折还是促销其实都是一些算法,可以用工厂模式来 ...