bitmap对海量无重复的整数排序--转
原文地址:http://blog.csdn.net/u013074465/article/details/46956295
现在有n个无重复的正整数(n 小于10的7次方),如果内存限制在1.5M以内,要求对着n个数进行排序。【编程珠玑第一章题目】
很显然,10的7次方个整数占用的空间为10 ^ 7 * 4字节,大约等于40M,而内存限制为1.5M,因此,无法将所有数字加载到内存,所以快速排序、堆排序等高效的排序算法就没法使用。这里可以使用bitmap方式,用1bit表示一个整数,那么,10^7个整数需要10^7位,也就是大约1.25M空间。
如下是bitmap对无重复整数的排序过程。
一、一次bitmap就可以将所有数据排完
如果每个整数占一位,可以将所有的整数在内存中表示(如上述提到的那样),那么可以直接一次bitmap排序就完成了,时间复杂度为O(n),空间复杂度为O(n位)。下面分别给出C和C++的bitset方式:
1、C语言方式
- //位图排序
- #include <iostream>
- #include <bitset>
- #define WIDTHWORD 32 //一个整数的宽度是32bit
- #define SHIFT 5
- #define MASK 0x1F //0x1f == 31
- #define N 100 //对十万个无重复的整数排序
- using namespace std;
- //申请一个N位的bitmap
- int bitmap[1 + N / WIDTHWORD];
- //将bitmap的第value设置为1
- void set(int value) {
- bitmap[value >> SHIFT] |= (1 << (value & MASK));
- }
- //清除bitmap第value位上的1:设置为0
- void clear(int value) {
- bitmap[value >> SHIFT] &= ~(1 << (value & MASK));
- }
- //测试bitmap第value位是否为1
- int test(int value) {
- return bitmap[value >> SHIFT] & (1 << (value & MASK));
- }
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //将bitmap所有位设置为0
- for (int i = 0; i < N; ++i) {
- clear(i);
- }
- //bitmap中将待排序数组中值所在的位设置为1
- for (int i = 0; i < length; i++)
- set(a[i]);
- //输出排序后的结果
- for (int i = 0; i < N; ++i) {
- if (test(i))
- cout << i << " ";
- }
- }
如上代码中:
2、使用C++的bitset
- #include <iostream>
- #include <bitset>
- #define N 100
- using namespace std;
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //直接使用C++bitset,申请Nbit的空间,每一位均设置为0
- bitset<N> bitmap;
- //遍历待排序数组,将bitmap中对应位设置为1
- for (int i = 0; i < length; i++)
- bitmap.set(a[i], 1);
- //输入排序结果
- for (int i = 0; i < N; ++i) {
- if (bitmap[i])
- cout << i << " ";
- }
- }
二、需要多次bitmap排序
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //假设还是有小于100的不重复整数需要排序,但是
- //不能申请100位空间,只能申请30位空间,那么,需要
- //排序的次数如下:
- int sort_times = N / 30 + 1;
- //那么,第一趟先排序0-29,第二趟排序30-59,
- //第三趟排序60-89,第四趟排序剩下的
- bitset<30> bitmap; //只能申请30位的bitmap
- for (int times = 0; times < sort_times; ++times) { //一共进行四趟排序
- bitmap.reset(); //记得每次排序前将bitmap清空为0
- for (int i = 0; i < length; i++) {
- if (a[i] >= 30 * times && a[i] < 30 * (times + 1))
- bitmap.set(a[i] - 30 * times);
- }
- for (int i = 0; i < 30; ++i) {
- if (bitmap[i])
- cout << i + 30 * times << " ";
- }
- }
- }
三、如果每个整数最多出现m次,如何排序?
四、除了排序,bitmap的其他用途
Java中也有对应的实现,java.util.BitSet,
完全是为这个量身定做的java类。
这个类从jdk1.0开始就有了,不过其中的某些方法是jdk1.4以后才有的,
大家用的时候要当心。
另外BitSet是非线程安全的,需要外部同步。
bitmap对海量无重复的整数排序--转的更多相关文章
- 疯狂位图之——位图实现12GB无重复大整数集排序
<Programming Pearls>(编程珠玑)第一章讲述了如何用位图排序无重复的数据集,整个思想很简洁,今天实践了下. 一.主要思想 位图排序的思想就是在内存中申请一块连续的空间作为 ...
- 大数据位图法(无重复排序,重复排序,去重复排序,数据压缩)之Java实现
1,位图法介绍 位图的基本概念是用一个位(bit)来标记某个数据的存放状态,由于采用了位为单位来存放数据,所以节省了大量的空间.举个具体的例子,在Java中一般一个int数字要占用32位,如果能用一位 ...
- 疯狂位图之——位图生成12GB无重复随机乱序大整数集
上一篇讲述了用位图实现无重复数据的排序,排序算法一下就写好了,想弄个大点数据测试一下,因为小数据在内存中快排已经很快. 一.生成的数据集要求 1.数据为0--2147483647(2^31-1)范围内 ...
- 编写函数求整形数组a中存储的m个不重复的整数的第k大的整数(其中m>=1,1<=k<=m)很简单的一个思路是酱紫的:管他辣么多干啥,上来一把排序然后直接得答案
/** * @author:(LiberHome) * @date:Created in 2019/2/28 20:38 * @description: * @version:$ *//*编写函数求整 ...
- Newtonsoft.Json C# Json序列化和反序列化工具的使用、类型方法大全 C# 算法题系列(二) 各位相加、整数反转、回文数、罗马数字转整数 C# 算法题系列(一) 两数之和、无重复字符的最长子串 DateTime Tips c#发送邮件,可发送多个附件 MVC图片上传详解
Newtonsoft.Json C# Json序列化和反序列化工具的使用.类型方法大全 Newtonsoft.Json Newtonsoft.Json 是.Net平台操作Json的工具,他的介绍就 ...
- 【Java】Java复习笔记-三大排序算法,堆栈队列,生成无重复的随机数列
冒泡排序 package com.lcw.bubble; public class BubbleSort { /** * 冒泡排序 * @param args * @author 成鹏致远 */ pu ...
- 算法练习之合并两个有序链表, 删除排序数组中的重复项,移除元素,实现strStr(),搜索插入位置,无重复字符的最长子串
最近在学习java,但是对于数据操作那部分还是不熟悉 因此决定找几个简单的算法写,用php和java分别实现 1.合并两个有序链表 将两个有序链表合并为一个新的有序链表并返回.新链表是通过拼接给定的两 ...
- LintCode 整数排序
题目:给一组整数,按照升序排序,使用选择排序,冒泡排序,插入排序或者任何 O(n2) 的排序算法. 1.冒泡:从头开始,比较相邻的两个元素,大的放在后面.一轮结束之后,最大的数沉底,不参与下一轮比较. ...
- 从无重复大数组找TOP N元素的最优解说起
有一类面试题,既可以考察工程师算法.也可以兼顾实践应用.甚至创新思维,这些题目便是好的题目,有区分度表现为可以有一般解,也可以有最优解.最近就发现了一个这样的好题目,拿出来晒一晒. 1 题目 原文: ...
随机推荐
- ASP.NET Core MVC/WebAPi 模型绑定探索
前言 相信一直关注我的园友都知道,我写的博文都没有特别枯燥理论性的东西,主要是当每开启一门新的技术之旅时,刚开始就直接去看底层实现原理,第一会感觉索然无味,第二也不明白到底为何要这样做,所以只有当你用 ...
- 微信应用号(小程序)开发IDE配置(第一篇)
2016年9月22日凌晨,微信宣布“小程序”问世,当然只是开始内测了,微信公众平台对200个服务号发送了小程序内测邀请.那么什么是“小程序”呢,来看微信之父怎么说 看完之后,相信大家大概都有些明白了吧 ...
- C++ std::set
std::set template < class T, // set::key_type/value_type class Compare = less<T>, // set::k ...
- UITextView 输入字数限制
本文介绍了UITextView对中英文还有iOS自带表情输入的字数限制,由于中文输入会有联想导致字数限制不准确所以苦恼好久,所以参考一些大神的博客终于搞定,欢迎大家参考和指正. 对于限制UITextV ...
- SQL Server 2014 新特性——内存数据库
SQL Server 2014 新特性——内存数据库 目录 SQL Server 2014 新特性——内存数据库 简介: 设计目的和原因: 专业名词 In-Memory OLTP不同之处 内存优化表 ...
- [C#] C# 知识回顾 - 委托 delegate
C# 知识回顾 - 委托 delegate [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/6031892.html 目录 What's 委托 委托的属性 ...
- win8.1硬盘安装ubuntu14.04双系统
在网上找了很多方法都失败了,原因是大多数方法都是用mbr方式安装的,如grub4dos,easybcd.以至于连自己都怀疑win8能不能用硬盘安装,差点就去买个u盘来安装了,就在打算放弃的时候在ubu ...
- PHP中遍历XML之SimpleXML
简单来讲述一些XML吧,XML是可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言.XML是当今用于传输数据的两大工具之一,另外一个是json. 我们在PHP中使用XML也是用来传输数据, ...
- 子类继承父类时JVM报出Error:Implicit super constructor People() is undefined for default constructor. Must define an explicit constructor
当子类继承父类的时候,若父类没有定义带参的构造方法,则子类可以继承父类的默认构造方法 当父类中定义了带参的构造方法,子类必须显式的调用父类的构造方法 若此时,子类还想调用父类的默认构造方法,必须在父类 ...
- js 入门级常见问题
写在前面:以下是个人总结的关于js常见的入门级的问题一些总结. js是有 ECMAScript Dom Bom 三部分组成. 1,undefined,NaN,Null,infinity 1) unde ...