原文地址:http://blog.csdn.net/u013074465/article/details/46956295

现在有n个无重复的正整数(n 小于10的7次方),如果内存限制在1.5M以内,要求对着n个数进行排序。【编程珠玑第一章题目】

很显然,10的7次方个整数占用的空间为10 ^ 7 * 4字节,大约等于40M,而内存限制为1.5M,因此,无法将所有数字加载到内存,所以快速排序、堆排序等高效的排序算法就没法使用。这里可以使用bitmap方式,用1bit表示一个整数,那么,10^7个整数需要10^7位,也就是大约1.25M空间。

如下是bitmap对无重复整数的排序过程。

一、一次bitmap就可以将所有数据排完

如果每个整数占一位,可以将所有的整数在内存中表示(如上述提到的那样),那么可以直接一次bitmap排序就完成了,时间复杂度为O(n),空间复杂度为O(n位)。下面分别给出C和C++的bitset方式:

1、C语言方式

       下面代码以n = 100为例子;n是海量时,只要每个整数1bit可以一次在内存中表示所有整数的情况下,方法一样,将宏定义N的值改为海量数据的上限(比如10^7)即可:
  1. //位图排序
  2. #include <iostream>
  3. #include <bitset>
  4. #define WIDTHWORD 32 //一个整数的宽度是32bit
  5. #define SHIFT 5
  6. #define MASK 0x1F    //0x1f == 31
  7. #define N 100        //对十万个无重复的整数排序
  8. using namespace std;
  9. //申请一个N位的bitmap
  10. int bitmap[1 + N / WIDTHWORD];
  11. //将bitmap的第value设置为1
  12. void set(int value) {
  13. bitmap[value >> SHIFT] |= (1 << (value & MASK));
  14. }
  15. //清除bitmap第value位上的1:设置为0
  16. void clear(int value) {
  17. bitmap[value >> SHIFT] &= ~(1 << (value & MASK));
  18. }
  19. //测试bitmap第value位是否为1
  20. int test(int value) {
  21. return bitmap[value >> SHIFT] & (1 << (value & MASK));
  22. }
  23. int main() {
  24. int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
  25. int length = sizeof(a) / sizeof(int);
  26. //将bitmap所有位设置为0
  27. for (int i = 0; i < N; ++i) {
  28. clear(i);
  29. }
  30. //bitmap中将待排序数组中值所在的位设置为1
  31. for (int i = 0; i < length; i++)
  32. set(a[i]);
  33. //输出排序后的结果
  34. for (int i = 0; i < N; ++i) {
  35. if (test(i))
  36. cout << i << " ";
  37. }
  38. }

如上代码中:

      N表示待排序整数的上限,例如本题要求的10^7。那么申请一个N位大小的bitmap:int bitmap[1 + N / WIDTHWORD]; 
      设置、清除、测试函数的含义可以参考文章:http://blog.163.com/xb_stone_yinyang/blog/static/2118160372013625112558579/
下面给出这几个函数的简要解释:
 
对于一个整数value,要将其对应到bitmap中的第value位,如果设置第value位为1呢
看设置函数:value >> SHIFT 是找到value在bitmap中对应的是第几个int型数的位置,例如整数100,它对应的是int数组(也就是bitmap)的第 100 >> 5 == 100 / 32 == 3个int型的位置(从0开始计数,每个int型占据32位);然后再在int数组(也就是bitmap)的第3个位置中寻找需要将第几位设置为1: 1 << (value & 0x1f) == 1 << 100 & 31 == 1 << 4,即要将1左移四位就是要设置为1的那一位;bitmap[value >> SHIFT] |= (1 << (value & MASK));  最终完成将bitmap的第100位设置为1。
 
对于一个整数value,如何将其对应到bitmap中的那位的上的1清除掉呢?
看清除函数,和设置函数一样,value >> SHIFT 是找到value在bitmap中对应的是第几个整型的位置;然后,1 << (value & 0x1f)在找到的那个整型的位置中判断要将该字节的哪一位设置为0;bitmap[value >> SHIFT] &= ~(1 << (value & MASK));完成最终清除工作。
 
对于一个整数value,如何测试在bitmap中是否包含该数,也就是bitmap中第value位上是否为1?
也是先找到value对应bitmap中第几个整型位置,然后在该位置中找到对应的位,再看该位上是否为1,为1表示bitmap中包含value。
 
程序排序结果:
 

2、使用C++的bitset

  1. #include <iostream>
  2. #include <bitset>
  3. #define N 100
  4. using namespace std;
  5. int main() {
  6. int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
  7. int length = sizeof(a) / sizeof(int);
  8. //直接使用C++bitset,申请Nbit的空间,每一位均设置为0
  9. bitset<N> bitmap;
  10. //遍历待排序数组,将bitmap中对应位设置为1
  11. for (int i = 0; i < length; i++)
  12. bitmap.set(a[i], 1);
  13. //输入排序结果
  14. for (int i = 0; i < N; ++i) {
  15. if (bitmap[i])
  16. cout << i << " ";
  17. }
  18. }

二、需要多次bitmap排序

       如果上限N更大或者进一步限制内存大小(例如,将内存限制在0.5M之内),那么一次bitmap就不能将所有数据排序。需要多次bitmap排序,例如上面排序小于100的一些数,我们上面的一次bitmap,是申请100位的bitmap;但是,如果限制我们只能使用30位bitmap,那么久需要排序100 / 30 + 1次:第一次排序0 ~ 29之间的数,第二次排序30 ~ 59之间的数,第三次排序60 ~ 89之间的数,第四次排序90 ~ 100之间的数。
      如果是k次bitmap排序,那么时间复杂度为O(kn),空间开销为O(n / k 位).
下面只给出C++方式,C方式类似:
 
  1. int main() {
  2. int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
  3. int length = sizeof(a) / sizeof(int);
  4. //假设还是有小于100的不重复整数需要排序,但是
  5. //不能申请100位空间,只能申请30位空间,那么,需要
  6. //排序的次数如下:
  7. int sort_times = N / 30 + 1;
  8. //那么,第一趟先排序0-29,第二趟排序30-59,
  9. //第三趟排序60-89,第四趟排序剩下的
  10. bitset<30> bitmap;             //只能申请30位的bitmap
  11. for (int times = 0; times < sort_times; ++times) {   //一共进行四趟排序
  12. bitmap.reset();                             //记得每次排序前将bitmap清空为0
  13. for (int i = 0; i < length; i++) {
  14. if (a[i] >= 30 * times && a[i] < 30 * (times + 1))
  15. bitmap.set(a[i] - 30 * times);
  16. }
  17. for (int i = 0; i < 30; ++i) {
  18. if (bitmap[i])
  19. cout << i + 30 * times << " ";
  20. }
  21. }
  22. }
 

三、如果每个整数最多出现m次,如何排序?

       上述两部分讨论的是如果整数是不重复时的排序,那么,如果海量整数,每个整数允许重复,但是重复次数不超过m(例如m == 10),如何排序?
        方法:如果每个整数重复出现次数不超过10次,那么,可以用4位表示一个整数,用这四位统计该数出现次数,然后排序后输出该数时,输出m次即可。

四、除了排序,bitmap的其他用途

如上,bitmap可以用于不重复正整数排序,那么,bitmap其他用途:
1、找出不重复数:
2、判断某数是否存在于海量整数中:
 

Java中也有对应的实现,java.util.BitSet,

完全是为这个量身定做的java类。

这个类从jdk1.0开始就有了,不过其中的某些方法是jdk1.4以后才有的,

大家用的时候要当心。

另外BitSet是非线程安全的,需要外部同步。

 

bitmap对海量无重复的整数排序--转的更多相关文章

  1. 疯狂位图之——位图实现12GB无重复大整数集排序

    <Programming Pearls>(编程珠玑)第一章讲述了如何用位图排序无重复的数据集,整个思想很简洁,今天实践了下. 一.主要思想 位图排序的思想就是在内存中申请一块连续的空间作为 ...

  2. 大数据位图法(无重复排序,重复排序,去重复排序,数据压缩)之Java实现

    1,位图法介绍 位图的基本概念是用一个位(bit)来标记某个数据的存放状态,由于采用了位为单位来存放数据,所以节省了大量的空间.举个具体的例子,在Java中一般一个int数字要占用32位,如果能用一位 ...

  3. 疯狂位图之——位图生成12GB无重复随机乱序大整数集

    上一篇讲述了用位图实现无重复数据的排序,排序算法一下就写好了,想弄个大点数据测试一下,因为小数据在内存中快排已经很快. 一.生成的数据集要求 1.数据为0--2147483647(2^31-1)范围内 ...

  4. 编写函数求整形数组a中存储的m个不重复的整数的第k大的整数(其中m>=1,1<=k<=m)很简单的一个思路是酱紫的:管他辣么多干啥,上来一把排序然后直接得答案

    /** * @author:(LiberHome) * @date:Created in 2019/2/28 20:38 * @description: * @version:$ *//*编写函数求整 ...

  5. Newtonsoft.Json C# Json序列化和反序列化工具的使用、类型方法大全 C# 算法题系列(二) 各位相加、整数反转、回文数、罗马数字转整数 C# 算法题系列(一) 两数之和、无重复字符的最长子串 DateTime Tips c#发送邮件,可发送多个附件 MVC图片上传详解

    Newtonsoft.Json C# Json序列化和反序列化工具的使用.类型方法大全   Newtonsoft.Json Newtonsoft.Json 是.Net平台操作Json的工具,他的介绍就 ...

  6. 【Java】Java复习笔记-三大排序算法,堆栈队列,生成无重复的随机数列

    冒泡排序 package com.lcw.bubble; public class BubbleSort { /** * 冒泡排序 * @param args * @author 成鹏致远 */ pu ...

  7. 算法练习之合并两个有序链表, 删除排序数组中的重复项,移除元素,实现strStr(),搜索插入位置,无重复字符的最长子串

    最近在学习java,但是对于数据操作那部分还是不熟悉 因此决定找几个简单的算法写,用php和java分别实现 1.合并两个有序链表 将两个有序链表合并为一个新的有序链表并返回.新链表是通过拼接给定的两 ...

  8. LintCode 整数排序

    题目:给一组整数,按照升序排序,使用选择排序,冒泡排序,插入排序或者任何 O(n2) 的排序算法. 1.冒泡:从头开始,比较相邻的两个元素,大的放在后面.一轮结束之后,最大的数沉底,不参与下一轮比较. ...

  9. 从无重复大数组找TOP N元素的最优解说起

    有一类面试题,既可以考察工程师算法.也可以兼顾实践应用.甚至创新思维,这些题目便是好的题目,有区分度表现为可以有一般解,也可以有最优解.最近就发现了一个这样的好题目,拿出来晒一晒. 1 题目 原文: ...

随机推荐

  1. C++对C的函数拓展

    一,内联函数 1.内联函数的概念 C++中的const常量可以用来代替宏常数的定义,例如:用const int a = 10来替换# define a 10.那么C++中是否有什么解决方案来替代宏代码 ...

  2. 多个Img标签之间的间隙处理方法

    1.多个标签写在一行 <img src="/i/eg_tulip.jpg" alt="郁金香" height="100px"/> ...

  3. Convert BSpline Curve to Arc Spline in OpenCASCADE

    Convert BSpline Curve to Arc Spline in OpenCASCADE eryar@163.com Abstract. The paper based on OpenCA ...

  4. Java 为值传递而不是引用传递

    ——reference Java is Pass by Value and Not Pass by Reference 其实这个问题是一个非常初级的问题,相关的概念初学者早已掌握,但是时间长了还是容易 ...

  5. .NET CoreCLR开发人员指南(上)

    1.为什么每一个CLR开发人员都需要读这篇文章 和所有的其他的大型代码库相比,CLR代码库有很多而且比较成熟的代码调试工具去检测BUG.对于程序员来说,理解这些规则和习惯写法非常的重要. 这篇文章让所 ...

  6. VS15 preview 5打开文件夹自动生成slnx.VC.db SQLite库疑惑?求解答

    用VS15 preview 5打开文件夹(详情查看博客http://www.cnblogs.com/zsy/p/5962242.html中配置),文件夹下多一个slnx.VC.db文件,如下图: 本文 ...

  7. dotNet Core开发环境搭建及简要说明

    一.安装 .NET Core SDK 在 Windows 上使用 .NET Core 的最佳途径:使用Visual Studio. 免费下载地址: Visual Studio Community 20 ...

  8. 【干货分享】流程DEMO-补打卡

    流程名: 补打卡申请 业务描述: 当员工在该出勤的工作日出勤但漏打卡时,于一周内填写补打卡申请. 流程相关文件: 流程包.xml 流程说明: 直接导入流程包文件,即可使用本流程 表单:  流程: 图片 ...

  9. iOS中支付宝集成

    iOS中支付宝集成 如今各种的App中都使用了三方支付的功能,现在将我在使用支付宝支付集成过程的心得分享一下,希望对大家都能有所帮助 要集成一个支付宝支付过程的环境,大致需要: 1>公司:先与支 ...

  10. SQL 约束

    先用设计器创建约束.再用代码创建约束.数据库约束是为了保证数据的完整性(正确性)而实现的一套机制见文件Employee.sql非空约束(选择复选框)主键约束(PK) primary key const ...