bitmap对海量无重复的整数排序--转
原文地址:http://blog.csdn.net/u013074465/article/details/46956295
现在有n个无重复的正整数(n 小于10的7次方),如果内存限制在1.5M以内,要求对着n个数进行排序。【编程珠玑第一章题目】
很显然,10的7次方个整数占用的空间为10 ^ 7 * 4字节,大约等于40M,而内存限制为1.5M,因此,无法将所有数字加载到内存,所以快速排序、堆排序等高效的排序算法就没法使用。这里可以使用bitmap方式,用1bit表示一个整数,那么,10^7个整数需要10^7位,也就是大约1.25M空间。
如下是bitmap对无重复整数的排序过程。
一、一次bitmap就可以将所有数据排完
如果每个整数占一位,可以将所有的整数在内存中表示(如上述提到的那样),那么可以直接一次bitmap排序就完成了,时间复杂度为O(n),空间复杂度为O(n位)。下面分别给出C和C++的bitset方式:
1、C语言方式
- //位图排序
- #include <iostream>
- #include <bitset>
- #define WIDTHWORD 32 //一个整数的宽度是32bit
- #define SHIFT 5
- #define MASK 0x1F //0x1f == 31
- #define N 100 //对十万个无重复的整数排序
- using namespace std;
- //申请一个N位的bitmap
- int bitmap[1 + N / WIDTHWORD];
- //将bitmap的第value设置为1
- void set(int value) {
- bitmap[value >> SHIFT] |= (1 << (value & MASK));
- }
- //清除bitmap第value位上的1:设置为0
- void clear(int value) {
- bitmap[value >> SHIFT] &= ~(1 << (value & MASK));
- }
- //测试bitmap第value位是否为1
- int test(int value) {
- return bitmap[value >> SHIFT] & (1 << (value & MASK));
- }
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //将bitmap所有位设置为0
- for (int i = 0; i < N; ++i) {
- clear(i);
- }
- //bitmap中将待排序数组中值所在的位设置为1
- for (int i = 0; i < length; i++)
- set(a[i]);
- //输出排序后的结果
- for (int i = 0; i < N; ++i) {
- if (test(i))
- cout << i << " ";
- }
- }
如上代码中:
2、使用C++的bitset
- #include <iostream>
- #include <bitset>
- #define N 100
- using namespace std;
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //直接使用C++bitset,申请Nbit的空间,每一位均设置为0
- bitset<N> bitmap;
- //遍历待排序数组,将bitmap中对应位设置为1
- for (int i = 0; i < length; i++)
- bitmap.set(a[i], 1);
- //输入排序结果
- for (int i = 0; i < N; ++i) {
- if (bitmap[i])
- cout << i << " ";
- }
- }
二、需要多次bitmap排序
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //假设还是有小于100的不重复整数需要排序,但是
- //不能申请100位空间,只能申请30位空间,那么,需要
- //排序的次数如下:
- int sort_times = N / 30 + 1;
- //那么,第一趟先排序0-29,第二趟排序30-59,
- //第三趟排序60-89,第四趟排序剩下的
- bitset<30> bitmap; //只能申请30位的bitmap
- for (int times = 0; times < sort_times; ++times) { //一共进行四趟排序
- bitmap.reset(); //记得每次排序前将bitmap清空为0
- for (int i = 0; i < length; i++) {
- if (a[i] >= 30 * times && a[i] < 30 * (times + 1))
- bitmap.set(a[i] - 30 * times);
- }
- for (int i = 0; i < 30; ++i) {
- if (bitmap[i])
- cout << i + 30 * times << " ";
- }
- }
- }
三、如果每个整数最多出现m次,如何排序?
四、除了排序,bitmap的其他用途
Java中也有对应的实现,java.util.BitSet,
完全是为这个量身定做的java类。
这个类从jdk1.0开始就有了,不过其中的某些方法是jdk1.4以后才有的,
大家用的时候要当心。
另外BitSet是非线程安全的,需要外部同步。
bitmap对海量无重复的整数排序--转的更多相关文章
- 疯狂位图之——位图实现12GB无重复大整数集排序
<Programming Pearls>(编程珠玑)第一章讲述了如何用位图排序无重复的数据集,整个思想很简洁,今天实践了下. 一.主要思想 位图排序的思想就是在内存中申请一块连续的空间作为 ...
- 大数据位图法(无重复排序,重复排序,去重复排序,数据压缩)之Java实现
1,位图法介绍 位图的基本概念是用一个位(bit)来标记某个数据的存放状态,由于采用了位为单位来存放数据,所以节省了大量的空间.举个具体的例子,在Java中一般一个int数字要占用32位,如果能用一位 ...
- 疯狂位图之——位图生成12GB无重复随机乱序大整数集
上一篇讲述了用位图实现无重复数据的排序,排序算法一下就写好了,想弄个大点数据测试一下,因为小数据在内存中快排已经很快. 一.生成的数据集要求 1.数据为0--2147483647(2^31-1)范围内 ...
- 编写函数求整形数组a中存储的m个不重复的整数的第k大的整数(其中m>=1,1<=k<=m)很简单的一个思路是酱紫的:管他辣么多干啥,上来一把排序然后直接得答案
/** * @author:(LiberHome) * @date:Created in 2019/2/28 20:38 * @description: * @version:$ *//*编写函数求整 ...
- Newtonsoft.Json C# Json序列化和反序列化工具的使用、类型方法大全 C# 算法题系列(二) 各位相加、整数反转、回文数、罗马数字转整数 C# 算法题系列(一) 两数之和、无重复字符的最长子串 DateTime Tips c#发送邮件,可发送多个附件 MVC图片上传详解
Newtonsoft.Json C# Json序列化和反序列化工具的使用.类型方法大全 Newtonsoft.Json Newtonsoft.Json 是.Net平台操作Json的工具,他的介绍就 ...
- 【Java】Java复习笔记-三大排序算法,堆栈队列,生成无重复的随机数列
冒泡排序 package com.lcw.bubble; public class BubbleSort { /** * 冒泡排序 * @param args * @author 成鹏致远 */ pu ...
- 算法练习之合并两个有序链表, 删除排序数组中的重复项,移除元素,实现strStr(),搜索插入位置,无重复字符的最长子串
最近在学习java,但是对于数据操作那部分还是不熟悉 因此决定找几个简单的算法写,用php和java分别实现 1.合并两个有序链表 将两个有序链表合并为一个新的有序链表并返回.新链表是通过拼接给定的两 ...
- LintCode 整数排序
题目:给一组整数,按照升序排序,使用选择排序,冒泡排序,插入排序或者任何 O(n2) 的排序算法. 1.冒泡:从头开始,比较相邻的两个元素,大的放在后面.一轮结束之后,最大的数沉底,不参与下一轮比较. ...
- 从无重复大数组找TOP N元素的最优解说起
有一类面试题,既可以考察工程师算法.也可以兼顾实践应用.甚至创新思维,这些题目便是好的题目,有区分度表现为可以有一般解,也可以有最优解.最近就发现了一个这样的好题目,拿出来晒一晒. 1 题目 原文: ...
随机推荐
- CSS3 background-image背景图片相关介绍
这里将会介绍如何通过background-image设置背景图片,以及背景图片的平铺.拉伸.偏移.设置大小等操作. 1. 背景图片样式分类 CSS中设置元素背景图片及其背景图片样式的属性主要以下几个: ...
- nodejs进阶(6)—连接MySQL数据库
1. 建库连库 连接MySQL数据库需要安装支持 npm install mysql 我们需要提前安装按mysql sever端 建一个数据库mydb1 mysql> CREATE DATABA ...
- 终于等到你:CYQ.Data V5系列 (ORM数据层)最新版本开源了
前言: 不要问我框架为什么从收费授权转到免费开源,人生没有那么多为什么,这些年我开源的东西并不少,虽然这个是最核心的,看淡了就也没什么了. 群里的网友:太平说: 记得一年前你开源另一个项目的时候我就说 ...
- 06.LoT.UI 前后台通用框架分解系列之——浮夸的图片上传
LOT.UI分解系列汇总:http://www.cnblogs.com/dunitian/p/4822808.html#lotui LoT.UI开源地址如下:https://github.com/du ...
- HTML 获取屏幕、浏览器、页面的高度宽度
本篇主要介绍Web环境中屏幕.浏览器及页面的高度.宽度信息. 目录 1. 介绍:介绍页面的容器(屏幕.浏览器及页面).物理尺寸与分辨率.展示等内容. 2. 屏幕信息:介绍屏幕尺寸信息:如:屏幕.软件可 ...
- HTML 事件(一) 事件的介绍
本篇主要介绍HTML中的事件知识:事件相关术语.DOM事件规范.事件对象. 其他事件文章 1. HTML 事件(一) 事件的介绍 2. HTML 事件(二) 事件的注册与注销 3. HTML 事件(三 ...
- 操作系统篇-分段机制与GDT|LDT
|| 版权声明:本文为博主原创文章,未经博主允许不得转载. 一.前言 在<操作系统篇-浅谈实模式与保护模式>中提到了两种模式,我们说在操作系统中,其实大部分时间是待在保护模式中的. ...
- 读python源码--对象模型
学python的人都知道,python中一切皆是对象,如class生成的对象是对象,class本身也是对象,int是对象,str是对象,dict是对象....所以,我很好奇,python是怎样实现这些 ...
- SDWebImage源码解读 之 UIImage+GIF
第二篇 前言 本篇是和GIF相关的一个UIImage的分类.主要提供了三个方法: + (UIImage *)sd_animatedGIFNamed:(NSString *)name ----- 根据名 ...
- JS的内建函数reduce
@(js) reduce函数,是ECMAScript5规范中出现的数组方法.在平时的工作中,相信大家使用的场景并不多,一般而言,可以通过reduce方法实现的逻辑都可以通过forEach方法来变相的实 ...