Bit-Map
昨日读July大神《教你如何迅速秒杀掉:99%的海量数据处理面试题》博客,有这么一题与大家分享:
给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?
July给出思路,位图/Bitmap方法,未闻,遂学之。
1.map类型
map是“键-值”对的集合。map类型通常可理解为关联数组:可使用键作为下表来获取一个值,正如内置数组类型一样。而关联的本质在于元素的值与某个特定的键相关联,而并非通过元素在数组中的位置来获取。
--引自《C++ Primer中文版》pp.309
这里讲map的概念并不是要介绍map这个容器,而是引入map类型数据结构,即“key-value”。
2.Bit-Map
所谓Bit-Map,就是用一个bit位来标记某个元素对应的value,而key即是该元素。
比如上题,若是用int型数组存储,每个数据占4个字节,那么40亿个数就是160亿字节,需要16g的内存;而用Bit-Map,以bit为单位存储数据,每个数据占1bit,40亿bit也就是512m(1B=8bit),因此能够有效节约存储空间。
给一个例子:现在我们有一个数组(4,7,2,5,3),现在我们要用Bit-Map来存储。最大的数为7,所以我们需要8个bit来存储,开辟1B的空间,将所有bit位(key=0~7)置为0(value=0),如下图:
| 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
然后遍历这5个元素,首先第一个元素是4,那么就把4对应的位置置为1(p+(i/8)|(0x01<<(i%8))),即右数第4个为1:
| 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
依次类推,遍历结束:
| 0 | 0 | 1 | 1 | 1 | 1 | 0 | 1 |
好了,我们只用1B空间存储了5个数,大大节约存储空间。
简单实现本文开头的题目,代码如下:
//written by 七年之后
//2013.09.06于行政北楼 #include<iostream>
using namespace std; #define BYTE_SIZE 8
#define MAX 4000000000 void Bit_Map_Insert(char *bitmap,unsigned int data)
{
bitmap+=data/BYTE_SIZE;
*bitmap=(*bitmap)|(0x01<<(data%BYTE_SIZE));
} void Bit_Map_Search(char *bitmap,unsigned int data)
{
bitmap+=data/BYTE_SIZE;
if((*bitmap)&(0x01<<(data%BYTE_SIZE)))
cout<<data<<" exist."<<endl;
else
cout<<data<<" doesn't exist."<<endl;
} void Bit_Map_Delete(char *bitmap,unsigned int data)
{
bitmap+=data/BYTE_SIZE;
if((*bitmap)&(0x01<<(data%BYTE_SIZE)))
{
*bitmap=(*bitmap)&(~(0x01<<(data%BYTE_SIZE)));
cout<<data<<" has deleted."<<endl;
}
else
{
cout<<data<<" doesn't exist."<<endl;
}
} int main()
{
char *bitmap;
bitmap=new char[+MAX/BYTE_SIZE];
memset(bitmap,,sizeof(bitmap)); /*测试数据*/
unsigned int data_array[]={,,,,,,,,,,
,,,,
,};
for(int i=;i<sizeof(data_array)/;i++)
Bit_Map_Insert(bitmap,data_array[i]); Bit_Map_Search(bitmap,);
Bit_Map_Search(bitmap,);
Bit_Map_Search(bitmap,);
Bit_Map_Search(bitmap,); Bit_Map_Delete(bitmap,);
Bit_Map_Search(bitmap,); return ;
}

本文如有任何疑问、错误,欢迎与我联系,谢谢!(转载请说明出处)
参考:
1.《C++ Primer 中文版》
2.http://wenku.baidu.com/view/24afb520ccbff121dd368308.html
Bit-Map的更多相关文章
- mapreduce中一个map多个输入路径
package duogemap; import java.io.IOException; import java.util.ArrayList; import java.util.List; imp ...
- .NET Core中间件的注册和管道的构建(3) ---- 使用Map/MapWhen扩展方法
.NET Core中间件的注册和管道的构建(3) ---- 使用Map/MapWhen扩展方法 0x00 为什么需要Map(MapWhen)扩展 如果业务逻辑比较简单的话,一条主管道就够了,确实用不到 ...
- Java基础Map接口+Collections工具类
1.Map中我们主要讲两个接口 HashMap 与 LinkedHashMap (1)其中LinkedHashMap是有序的 怎么存怎么取出来 我们讲一下Map的增删改查功能: /* * Ma ...
- Java基础Map接口+Collections
1.Map中我们主要讲两个接口 HashMap 与 LinkedHashMap (1)其中LinkedHashMap是有序的 怎么存怎么取出来 我们讲一下Map的增删改查功能: /* * Ma ...
- 多用多学之Java中的Set,List,Map
很长时间以来一直代码中用的比较多的数据列表主要是List,而且都是ArrayList,感觉有这个玩意就够了.ArrayList是用于实现动态数组的包装工具类,这样写代码的时候就可以拉进 ...
- Java版本:识别Json字符串并分隔成Map集合
前言: 最近又看了点Java的知识,于是想着把CYQ.Data V5迁移到Java版本. 过程发现坑很多,理论上看大部分很相似,实践上代码写起来发现大部分都要重新思考方案. 遇到的C#转Java的一些 ...
- MapReduce剖析笔记之八: Map输出数据的处理类MapOutputBuffer分析
在上一节我们分析了Child子进程启动,处理Map.Reduce任务的主要过程,但对于一些细节没有分析,这一节主要对MapOutputBuffer这个关键类进行分析. MapOutputBuffer顾 ...
- MapReduce剖析笔记之七:Child子进程处理Map和Reduce任务的主要流程
在上一节我们分析了TaskTracker如何对JobTracker分配过来的任务进行初始化,并创建各类JVM启动所需的信息,最终创建JVM的整个过程,本节我们继续来看,JVM启动后,执行的是Child ...
- MapReduce剖析笔记之五:Map与Reduce任务分配过程
在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程.中间留了一个问题,就是任务到底是怎么分配的.任务的分配自然是由JobTracker做出来的,具体 ...
- MapReduce剖析笔记之三:Job的Map/Reduce Task初始化
上一节分析了Job由JobClient提交到JobTracker的流程,利用RPC机制,JobTracker接收到Job ID和Job所在HDFS的目录,够早了JobInProgress对象,丢入队列 ...
随机推荐
- DTW
DTW主要是应用在孤立词识别的算法,用来识别一些特定的指令比较好用,这个算法是基于DP(动态规划)的算法基础上发展而来的.这里介绍语音识别就先介绍下语音识别的框架,首先我们要有一个比对的模版声音,然后 ...
- iOS App Launch Option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:,其中第二个参数launchOptions为NSDictionary类型的对象,里面存储有 ...
- SQL-Server数据库学习笔记-表
1. 表及其属性 表(Table):也称实体,是存储同类型数据的集合. 列(Field):也称字段.域或属性,它构成表的架构,具体表示为一条信息中的一个属性. 行(Row):也称元组(Tuple),存 ...
- P3382: [Usaco2004 Open]Cave Cows 3 洞穴里的牛之三
首先,我们先确定,最长的曼哈顿距离只可能为 x1+y2-(x2+y2) 和 x1-y1-(x2-y2) 所以我们只需要维护四个值, 分别代表 max(x+y) ; max(x-y) ; min(x+y ...
- 在 mongodb 终端环境下写多行 javascript 代码、函数
工作中碰到一个问题,需要把某个 collection 中的某些符合条件的数据取出来,逐行处理其中某些字段.mongodb 终端下支持直接写 js 代码.函数,也可以运行 js 文件.1 首先需要设置 ...
- apache-commons-net Ftp 进行文件、文件夹的上传下载及日志的输出
用到了apache 的 commons-net-3.0.1.jar 和 log4j-1.2.15.jar 这连个jar包 JAVA 代码如下: package com.bjut.edu.cn.ftp; ...
- java笔试题(1)
char型变量中能不能存贮一个中文汉字? char型变量是用来存储Unicode编码的字符的,unicode编码字符集中包含了汉字,所以,char型变量中当然可以存储汉字啦.不过,如果某个特殊的汉字没 ...
- linux查看文件权限
ls -l abc (abc是文件名) 那么就会出现相类似的信息,主要都是这些:drwxr-xr-x 一共有10位数 其中: 最前面那个 d 代表的是类型 目录文件 中间那三个 rw- 代表的是所有者 ...
- M1分数分配
进过第一轮迭代我们依据工作量及质量决定分配分数方案: 王皓南 24.5分 黄宇冰 24分 申开亮 23.5分 许晋 21分 王宇杰 17分 吴润凡 16分 巴丹益昔 14分
- 基于word制作网站webhelp
处理问题描述:现在我有个javaweb项目,需要在portal上面点击help即可打开: 当前搜索百度(谷歌不能用了),没有找到更好的解决方案,自己想了个比较简单实用的方法,仅供参考: 设计原理:利用 ...