原文地址：http://blog.csdn.net/u013074465/article/details/46956295

现在有n个无重复的正整数（n 小于10的7次方），如果内存限制在1.5M以内，要求对着n个数进行排序。【编程珠玑第一章题目】

很显然，10的7次方个整数占用的空间为10 ^ 7 * 4字节，大约等于40M，而内存限制为1.5M，因此，无法将所有数字加载到内存，所以快速排序、堆排序等高效的排序算法就没法使用。这里可以使用bitmap方式，用1bit表示一个整数，那么，10^7个整数需要10^7位，也就是大约1.25M空间。

如下是bitmap对无重复整数的排序过程。

一、一次bitmap就可以将所有数据排完

如果每个整数占一位，可以将所有的整数在内存中表示（如上述提到的那样），那么可以直接一次bitmap排序就完成了，时间复杂度为O(n)，空间复杂度为O(n位)。下面分别给出C和C++的bitset方式：

1、C语言方式

下面代码以n = 100为例子；n是海量时，只要每个整数1bit可以一次在内存中表示所有整数的情况下，方法一样，将宏定义N的值改为海量数据的上限（比如10^7）即可：

//位图排序
#include <iostream>
#include <bitset>
#define WIDTHWORD 32 //一个整数的宽度是32bit
#define SHIFT 5
#define MASK 0x1F //0x1f == 31
#define N 100 //对十万个无重复的整数排序
using namespace std;
//申请一个N位的bitmap
int bitmap[1 + N / WIDTHWORD];
//将bitmap的第value设置为1
void set(int value) {
bitmap[value >> SHIFT] |= (1 << (value & MASK));
}
//清除bitmap第value位上的1:设置为0
void clear(int value) {
bitmap[value >> SHIFT] &= ~(1 << (value & MASK));
}
//测试bitmap第value位是否为1
int test(int value) {
return bitmap[value >> SHIFT] & (1 << (value & MASK));
}
int main() {
int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
int length = sizeof(a) / sizeof(int);
//将bitmap所有位设置为0
for (int i = 0; i < N; ++i) {
clear(i);
}
//bitmap中将待排序数组中值所在的位设置为1
for (int i = 0; i < length; i++)
set(a[i]);
//输出排序后的结果
for (int i = 0; i < N; ++i) {
if (test(i))
cout << i << " ";
}
}

如上代码中：

N表示待排序整数的上限，例如本题要求的10^7。那么申请一个N位大小的bitmap：int bitmap[1 + N / WIDTHWORD];

设置、清除、测试函数的含义可以参考文章：http://blog.163.com/xb_stone_yinyang/blog/static/2118160372013625112558579/，

下面给出这几个函数的简要解释：

对于一个整数value，要将其对应到bitmap中的第value位，如果设置第value位为1呢？

看设置函数：value >> SHIFT 是找到value在bitmap中对应的是第几个int型数的位置，例如整数100，它对应的是int数组（也就是bitmap）的第 100 >> 5 == 100 / 32 == 3个int型的位置（从0开始计数，每个int型占据32位）；然后再在int数组（也就是bitmap）的第3个位置中寻找需要将第几位设置为1： 1 << (value & 0x1f) == 1 << 100 & 31 == 1 << 4，即要将1左移四位就是要设置为1的那一位；bitmap[value >> SHIFT] |= (1 << (value & MASK)); 最终完成将bitmap的第100位设置为1。

对于一个整数value，如何将其对应到bitmap中的那位的上的1清除掉呢？

看清除函数，和设置函数一样，value >> SHIFT 是找到value在bitmap中对应的是第几个整型的位置；然后，1 << (value & 0x1f)在找到的那个整型的位置中判断要将该字节的哪一位设置为0；bitmap[value >> SHIFT] &= ~(1 << (value & MASK));完成最终清除工作。

对于一个整数value，如何测试在bitmap中是否包含该数，也就是bitmap中第value位上是否为1？

也是先找到value对应bitmap中第几个整型位置，然后在该位置中找到对应的位，再看该位上是否为1，为1表示bitmap中包含value。

程序排序结果：

2、使用C++的bitset

#include <iostream>
#include <bitset>
#define N 100
using namespace std;
int main() {
int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
int length = sizeof(a) / sizeof(int);
//直接使用C++bitset，申请Nbit的空间，每一位均设置为0
bitset<N> bitmap;
//遍历待排序数组，将bitmap中对应位设置为1
for (int i = 0; i < length; i++)
bitmap.set(a[i], 1);
//输入排序结果
for (int i = 0; i < N; ++i) {
if (bitmap[i])
cout << i << " ";
}
}

二、需要多次bitmap排序

如果上限N更大或者进一步限制内存大小（例如，将内存限制在0.5M之内），那么一次bitmap就不能将所有数据排序。需要多次bitmap排序，例如上面排序小于100的一些数，我们上面的一次bitmap，是申请100位的bitmap；但是，如果限制我们只能使用30位bitmap，那么久需要排序100 / 30 + 1次：第一次排序0 ~ 29之间的数，第二次排序30 ~ 59之间的数，第三次排序60 ~ 89之间的数，第四次排序90 ~ 100之间的数。

如果是k次bitmap排序，那么时间复杂度为O(kn)，空间开销为O(n / k 位).

下面只给出C++方式，C方式类似：

int main() {
int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
int length = sizeof(a) / sizeof(int);
//假设还是有小于100的不重复整数需要排序，但是
//不能申请100位空间，只能申请30位空间，那么，需要
//排序的次数如下：
int sort_times = N / 30 + 1;
//那么，第一趟先排序0-29，第二趟排序30-59，
//第三趟排序60-89，第四趟排序剩下的
bitset<30> bitmap; //只能申请30位的bitmap
for (int times = 0; times < sort_times; ++times) { //一共进行四趟排序
bitmap.reset(); //记得每次排序前将bitmap清空为0
for (int i = 0; i < length; i++) {
if (a[i] >= 30 * times && a[i] < 30 * (times + 1))
bitmap.set(a[i] - 30 * times);
}
for (int i = 0; i < 30; ++i) {
if (bitmap[i])
cout << i + 30 * times << " ";
}
}
}

三、如果每个整数最多出现m次，如何排序?

上述两部分讨论的是如果整数是不重复时的排序，那么，如果海量整数，每个整数允许重复，但是重复次数不超过m（例如m == 10），如何排序？

方法：如果每个整数重复出现次数不超过10次，那么，可以用4位表示一个整数，用这四位统计该数出现次数，然后排序后输出该数时，输出m次即可。

四、除了排序，bitmap的其他用途

如上，bitmap可以用于不重复正整数排序，那么，bitmap其他用途：

1、找出不重复数：

第13题：在2.5亿个整数中找出不重复的整数，内存不足以容纳这2.5亿个整数。

2、判断某数是否存在于海量整数中：

第15题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

Java中也有对应的实现，java.util.BitSet,

完全是为这个量身定做的java类。

这个类从jdk1.0开始就有了，不过其中的某些方法是jdk1.4以后才有的，

大家用的时候要当心。

另外BitSet是非线程安全的，需要外部同步。

bitmap对海量无重复的整数排序--转的更多相关文章

疯狂位图之——位图实现12GB无重复大整数集排序
<Programming Pearls>(编程珠玑)第一章讲述了如何用位图排序无重复的数据集,整个思想很简洁,今天实践了下. 一.主要思想位图排序的思想就是在内存中申请一块连续的空间作为 ...
大数据位图法（无重复排序，重复排序，去重复排序，数据压缩）之Java实现
1,位图法介绍位图的基本概念是用一个位(bit)来标记某个数据的存放状态,由于采用了位为单位来存放数据,所以节省了大量的空间.举个具体的例子,在Java中一般一个int数字要占用32位,如果能用一位 ...
疯狂位图之——位图生成12GB无重复随机乱序大整数集
上一篇讲述了用位图实现无重复数据的排序,排序算法一下就写好了,想弄个大点数据测试一下,因为小数据在内存中快排已经很快. 一.生成的数据集要求 1.数据为0--2147483647(2^31-1)范围内 ...
编写函数求整形数组a中存储的m个不重复的整数的第k大的整数(其中m>=1,1<=k<=m)很简单的一个思路是酱紫的：管他辣么多干啥，上来一把排序然后直接得答案
/** * @author:(LiberHome) * @date:Created in 2019/2/28 20:38 * @description: * @version:$ *//*编写函数求整 ...
Newtonsoft.Json C# Json序列化和反序列化工具的使用、类型方法大全 C# 算法题系列(二) 各位相加、整数反转、回文数、罗马数字转整数 C# 算法题系列(一) 两数之和、无重复字符的最长子串 DateTime Tips c#发送邮件，可发送多个附件 MVC图片上传详解
Newtonsoft.Json C# Json序列化和反序列化工具的使用.类型方法大全 Newtonsoft.Json Newtonsoft.Json 是.Net平台操作Json的工具,他的介绍就 ...
【Java】Java复习笔记－三大排序算法，堆栈队列，生成无重复的随机数列
冒泡排序 package com.lcw.bubble; public class BubbleSort { /** * 冒泡排序 * @param args * @author 成鹏致远 */ pu ...
算法练习之合并两个有序链表, 删除排序数组中的重复项,移除元素,实现strStr(),搜索插入位置,无重复字符的最长子串
最近在学习java,但是对于数据操作那部分还是不熟悉因此决定找几个简单的算法写,用php和java分别实现 1.合并两个有序链表将两个有序链表合并为一个新的有序链表并返回.新链表是通过拼接给定的两 ...
LintCode 整数排序
题目:给一组整数,按照升序排序,使用选择排序,冒泡排序,插入排序或者任何 O(n2) 的排序算法. 1.冒泡:从头开始,比较相邻的两个元素,大的放在后面.一轮结束之后,最大的数沉底,不参与下一轮比较. ...
从无重复大数组找TOP N元素的最优解说起
有一类面试题,既可以考察工程师算法.也可以兼顾实践应用.甚至创新思维,这些题目便是好的题目,有区分度表现为可以有一般解,也可以有最优解.最近就发现了一个这样的好题目,拿出来晒一晒. 1 题目原文: ...

随机推荐

NPM (node package manager) 入门 - 基础使用
什么是npm ? npm 是 nodejs 的包管理和分发工具.它可以让 javascript 开发者能够更加轻松的共享代码和共用代码片段,并且通过 npm 管理你分享的代码也很方便快捷和简单. 截至 ...
在.NET Core 里使用 BouncyCastle 的DES加密算法
.NET Core上面的DES等加密算法要等到1.2 才支持,我们可是急需这个算法的支持,文章<使用 JavaScriptService 在.NET Core 里实现DES加密算法>需要用 ...
.Net中的AOP系列之构建一个汽车租赁应用
返回<.Net中的AOP>系列学习总目录本篇目录开始一个新项目没有AOP的生活变更的代价使用AOP重构本系列的源码本人已托管于Coding上:点击查看. 本系列的实验环境:VS ...
Javascript生成二维码（QR）
网络上已经有非常多的二维码编码和解码工具和代码,很多都是服务器端的,也就是说需要一台服务器才能提供二维码的生成.本着对服务器性能的考虑,这种小事情都让服务器去做,感觉对不住服务器,尤其是对于大流量的网 ...
premere cs4绿色版安装并且视频导出讲解
最近室友,开始在玩视频剪辑,用的是 premere cs4 绿色版.让他遇到的最大问题也是我之前遇到的最大问题,就是视频导出. 所以我在这里上传一套自己的一点点经验吧. 接下来,我就总结一下我是怎么 ...
【java】Naming.bind和Registry.bind区别
Naming类和Registry类均在java.rmi包 Naming类通过解析URI绑定远程对象,将URI拆分成主机.端口和远程对象名称,使用的仍是Registry类. public static ...
pt-table-checksum
pt-table-checksum是percona公司提供的一个用于在线比对主从数据一致性的工具. 实现原理将一张大表分成多个chunk,每次针对一个chunk进行校验,同时将校验的结果通过REPL ...
运用php做投票题，例题
要求大概是这样的,有一个题目,题目下面是复选框,要求点完复选框提交后会变成进度条,各选项的进度条百分比,和投票数量首先还是要在数据库建两张表,如下: 要完成这个题目,需要建两个页面 <!DOC ...
[笔记]HAproxy reload config file with uninterrupt session
HAProxy is a high performance load balancer. It is very light-weight, and free, making it a great op ...
初学seaJs模块化开发，利用grunt打包，减少http请求
原文地址:初学seaJs模块化开发,利用grunt打包,减少http请求未压缩合并的演示地址:demo2 学习seaJs的模块化开发,适合对seajs基础有所了解的同学看,目录结构 js — —di ...

bitmap对海量无重复的整数排序--转