bitmap对海量无重复的整数排序--转
原文地址:http://blog.csdn.net/u013074465/article/details/46956295
现在有n个无重复的正整数(n 小于10的7次方),如果内存限制在1.5M以内,要求对着n个数进行排序。【编程珠玑第一章题目】
很显然,10的7次方个整数占用的空间为10 ^ 7 * 4字节,大约等于40M,而内存限制为1.5M,因此,无法将所有数字加载到内存,所以快速排序、堆排序等高效的排序算法就没法使用。这里可以使用bitmap方式,用1bit表示一个整数,那么,10^7个整数需要10^7位,也就是大约1.25M空间。
如下是bitmap对无重复整数的排序过程。
一、一次bitmap就可以将所有数据排完
如果每个整数占一位,可以将所有的整数在内存中表示(如上述提到的那样),那么可以直接一次bitmap排序就完成了,时间复杂度为O(n),空间复杂度为O(n位)。下面分别给出C和C++的bitset方式:
1、C语言方式
- //位图排序
- #include <iostream>
- #include <bitset>
- #define WIDTHWORD 32 //一个整数的宽度是32bit
- #define SHIFT 5
- #define MASK 0x1F //0x1f == 31
- #define N 100 //对十万个无重复的整数排序
- using namespace std;
- //申请一个N位的bitmap
- int bitmap[1 + N / WIDTHWORD];
- //将bitmap的第value设置为1
- void set(int value) {
- bitmap[value >> SHIFT] |= (1 << (value & MASK));
- }
- //清除bitmap第value位上的1:设置为0
- void clear(int value) {
- bitmap[value >> SHIFT] &= ~(1 << (value & MASK));
- }
- //测试bitmap第value位是否为1
- int test(int value) {
- return bitmap[value >> SHIFT] & (1 << (value & MASK));
- }
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //将bitmap所有位设置为0
- for (int i = 0; i < N; ++i) {
- clear(i);
- }
- //bitmap中将待排序数组中值所在的位设置为1
- for (int i = 0; i < length; i++)
- set(a[i]);
- //输出排序后的结果
- for (int i = 0; i < N; ++i) {
- if (test(i))
- cout << i << " ";
- }
- }
如上代码中:
2、使用C++的bitset
- #include <iostream>
- #include <bitset>
- #define N 100
- using namespace std;
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //直接使用C++bitset,申请Nbit的空间,每一位均设置为0
- bitset<N> bitmap;
- //遍历待排序数组,将bitmap中对应位设置为1
- for (int i = 0; i < length; i++)
- bitmap.set(a[i], 1);
- //输入排序结果
- for (int i = 0; i < N; ++i) {
- if (bitmap[i])
- cout << i << " ";
- }
- }
二、需要多次bitmap排序
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //假设还是有小于100的不重复整数需要排序,但是
- //不能申请100位空间,只能申请30位空间,那么,需要
- //排序的次数如下:
- int sort_times = N / 30 + 1;
- //那么,第一趟先排序0-29,第二趟排序30-59,
- //第三趟排序60-89,第四趟排序剩下的
- bitset<30> bitmap; //只能申请30位的bitmap
- for (int times = 0; times < sort_times; ++times) { //一共进行四趟排序
- bitmap.reset(); //记得每次排序前将bitmap清空为0
- for (int i = 0; i < length; i++) {
- if (a[i] >= 30 * times && a[i] < 30 * (times + 1))
- bitmap.set(a[i] - 30 * times);
- }
- for (int i = 0; i < 30; ++i) {
- if (bitmap[i])
- cout << i + 30 * times << " ";
- }
- }
- }
三、如果每个整数最多出现m次,如何排序?
四、除了排序,bitmap的其他用途
Java中也有对应的实现,java.util.BitSet,
完全是为这个量身定做的java类。
这个类从jdk1.0开始就有了,不过其中的某些方法是jdk1.4以后才有的,
大家用的时候要当心。
另外BitSet是非线程安全的,需要外部同步。
bitmap对海量无重复的整数排序--转的更多相关文章
- 疯狂位图之——位图实现12GB无重复大整数集排序
<Programming Pearls>(编程珠玑)第一章讲述了如何用位图排序无重复的数据集,整个思想很简洁,今天实践了下. 一.主要思想 位图排序的思想就是在内存中申请一块连续的空间作为 ...
- 大数据位图法(无重复排序,重复排序,去重复排序,数据压缩)之Java实现
1,位图法介绍 位图的基本概念是用一个位(bit)来标记某个数据的存放状态,由于采用了位为单位来存放数据,所以节省了大量的空间.举个具体的例子,在Java中一般一个int数字要占用32位,如果能用一位 ...
- 疯狂位图之——位图生成12GB无重复随机乱序大整数集
上一篇讲述了用位图实现无重复数据的排序,排序算法一下就写好了,想弄个大点数据测试一下,因为小数据在内存中快排已经很快. 一.生成的数据集要求 1.数据为0--2147483647(2^31-1)范围内 ...
- 编写函数求整形数组a中存储的m个不重复的整数的第k大的整数(其中m>=1,1<=k<=m)很简单的一个思路是酱紫的:管他辣么多干啥,上来一把排序然后直接得答案
/** * @author:(LiberHome) * @date:Created in 2019/2/28 20:38 * @description: * @version:$ *//*编写函数求整 ...
- Newtonsoft.Json C# Json序列化和反序列化工具的使用、类型方法大全 C# 算法题系列(二) 各位相加、整数反转、回文数、罗马数字转整数 C# 算法题系列(一) 两数之和、无重复字符的最长子串 DateTime Tips c#发送邮件,可发送多个附件 MVC图片上传详解
Newtonsoft.Json C# Json序列化和反序列化工具的使用.类型方法大全 Newtonsoft.Json Newtonsoft.Json 是.Net平台操作Json的工具,他的介绍就 ...
- 【Java】Java复习笔记-三大排序算法,堆栈队列,生成无重复的随机数列
冒泡排序 package com.lcw.bubble; public class BubbleSort { /** * 冒泡排序 * @param args * @author 成鹏致远 */ pu ...
- 算法练习之合并两个有序链表, 删除排序数组中的重复项,移除元素,实现strStr(),搜索插入位置,无重复字符的最长子串
最近在学习java,但是对于数据操作那部分还是不熟悉 因此决定找几个简单的算法写,用php和java分别实现 1.合并两个有序链表 将两个有序链表合并为一个新的有序链表并返回.新链表是通过拼接给定的两 ...
- LintCode 整数排序
题目:给一组整数,按照升序排序,使用选择排序,冒泡排序,插入排序或者任何 O(n2) 的排序算法. 1.冒泡:从头开始,比较相邻的两个元素,大的放在后面.一轮结束之后,最大的数沉底,不参与下一轮比较. ...
- 从无重复大数组找TOP N元素的最优解说起
有一类面试题,既可以考察工程师算法.也可以兼顾实践应用.甚至创新思维,这些题目便是好的题目,有区分度表现为可以有一般解,也可以有最优解.最近就发现了一个这样的好题目,拿出来晒一晒. 1 题目 原文: ...
随机推荐
- 回首经典的SQL Server 2005
原创文章转载请注明出处:@协思, http://zeeman.cnblogs.com SQL Server是我使用时间最长的数据库,算起来已经有10年了.上世纪90年代,微软在软件开发的所有领域高歌猛 ...
- ABP框架 - Swagger UI 集成
文档目录 本节内容: 简介 Asp.net Core 安装 安装Nuget包 配置 测试 Asp.net 5.x 安装 安装Nuget包 配置 测试 简介 来自它的网页:“...使用一个Swagger ...
- 【原】FMDB源码阅读(一)
[原]FMDB源码阅读(一) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 说实话,之前的SDWebImage和AFNetworking这两个组件我还是使用过的,但是对于 ...
- HTML文档声明
前面的话 HTML文档通常以类型声明开始,该声明将帮助浏览器确定其尝试解析和显示的HTML文档类型.本文将详细介绍文档声明DOCTYPE 特点 文档声明必须是HTML文档的第一行.且顶格显示, ...
- Mysql存储引擎及选择方法
0x00 Mysql数据库常用存储引擎 Mysql数据库是一款开源的数据库,支持多种存储引擎的选择,比如目前最常用的存储引擎有:MyISAM,InnoDB,Memory等. MyISAM存储引擎 My ...
- PHP之使用网络函数和协议函数
使用其他Web站点的数据 <html> <head> <title> Stock Quote From NASDAQ </title> </hea ...
- JQuery(2)
JQuery下拉框操作: 取值赋值操作 body代码: <select id="sel"> <option value="北京">北京& ...
- 海康网络摄像机YV12转换为BGR,由opencv Mat显示 (转)
我使用的是海康DS-2CD852MF-E, 200万,网络摄像机,已经比较老了,不过SDK在海康官网下载的,开发流程都差不多. 海康摄像机回调解码后的视频数据格式为YV12,顺便说一下YV12的数据格 ...
- Java—恶心的java.lang.NumberFormatException解决
项目中要把十六进制字符串转化为十进制, 用到了到了Integer.parseInt(str1.trim(), 16):这个是不是后抛出java.lang.NumberFormatException异常 ...
- Java虚拟机 JVM
finalize();(不建议使用,代价高,不确定性大) 如果你在一个类中覆写了finalize()方法, 那么你可以在第一次被GC的时候,挽救一个你想挽救的对象,让其不被回收,但只能挽救一次. GC ...