1. Bit Map算法简介

来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。

2、 Bit Map的基本思想

我们先来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数,我们就只需要8个Bit(1Bytes),首先我们开辟1Byte的空间,将这些空间的所有Bit位都置为0,如下图:
                                                       

然后遍历这5个元素,首先第一个元素是4,那么就把4对应的位置为1(可以这样操作 p+(i/8)|(0x01<<(i%8)) 当然了这里的操作涉及到Big-ending和Little-ending的情况,这里默认为Big-ending),因为是从零开始的,所以要把第五位置为一(如下图):

然后再处理第二个元素7,将第八位置为1,,接着再处理第三个元素,一直到最后处理完所有的元素,将相应的位置为1,这时候的内存的Bit位的状态如下:

然后我们现在遍历一遍Bit区域,将该位是一的位的编号输出(2,3,4,5,7),这样就达到了排序的目的。

优点:

1.运算效率高,不许进行比较和移位;

2.占用内存少,比如N=10000000;只需占用内存为N/8=1250000Byte=1.25M。 
缺点:

所有的数据不能重复。即不可对重复的数据进行排序和查找。

算法思想比较简单,但关键是如何确定十进制的数映射到二进制bit位的map图。

3、 Map映射表

假设需要排序或者查找的总数N=10000000,那么我们需要申请内存空间的大小为int a[1 + N/32],其中:a[0]在内存中占32为可以对应十进制数0-31,依次类推: 
bitmap表为: 
a[0]--------->0-31 
a[1]--------->32-63 
a[2]--------->64-95 
a[3]--------->96-127 
.......... 
那么十进制数如何转换为对应的bit位,下面介绍用位移将十进制数转换为对应的bit位。

3、 位移转换

申请一个int一维数组,那么可以当作为列为32位的二维数组,

|                           32位                                       |

int a[0]    |0000000000000000000000000000000000000|

int a[1]    |0000000000000000000000000000000000000|

………………

int a[N]   |0000000000000000000000000000000000000|

例如十进制0,对应在a[0]所占的bit为中的第一位: 00000000000000000000000000000001 
0-31:对应在a[0]中 
i =0                            00000000000000000000000000000000 
temp=0                     00000000000000000000000000000000 
answer=1                 00000000000000000000000000000001

i =1                            00000000000000000000000000000001 
temp=1                     00000000000000000000000000000001 
answer=2                 00000000000000000000000000000010

i =2                            00000000000000000000000000000010 
temp=2                     00000000000000000000000000000010 
answer=4                 00000000000000000000000000000100

i =30                              00000000000000000000000000011110 
temp=30                       00000000000000000000000000011110

answer=1073741824  01000000000000000000000000000000

i =31                               00000000000000000000000000011111 
temp=31                         00000000000000000000000000011111 
answer=-2147483648 10000000000000000000000000000000

32-63:对应在a[1]中 
i =32                            00000000000000000000000000100000 
temp=0                        00000000000000000000000000000000 
answer=1                    00000000000000000000000000000001

i =33                            00000000000000000000000000100001 
temp=1                       00000000000000000000000000000001 
answer=2                    00000000000000000000000000000010

i =34                            00000000000000000000000000100010 
temp=2                        00000000000000000000000000000010 
answer=4                    00000000000000000000000000000100

i =61                              00000000000000000000000000111101 
temp=29                       00000000000000000000000000011101 
answer=536870912    00100000000000000000000000000000

i =62                               00000000000000000000000000111110 
temp=30                        00000000000000000000000000011110 
answer=1073741824  01000000000000000000000000000000

i =63                                00000000000000000000000000111111 
temp=31                         00000000000000000000000000011111 
answer=-2147483648  10000000000000000000000000000000

浅析上面的对应表,分三步: 
1.求十进制0-N对应在数组a中的下标: 
十进制0-31,对应在a[0]中,先由十进制数n转换为与32的余可转化为对应在数组a中的下标。比如n=24,那么 n/32=0,则24对应在数组a中的下标为0。又比如n=60,那么n/32=1,则60对应在数组a中的下标为1,同理可以计算0-N在数组a中的下标。

2.求0-N对应0-31中的数:

十进制0-31就对应0-31,而32-63则对应也是0-31,即给定一个数n可以通过模32求得对应0-31中的数。

3.利用移位0-31使得对应32bit位为1.

找到对应0-31的数为M, 左移M位:2^M. 然后置1.

由此我们计算10000000个bit占用的空间:

1byte = 8bit

1kb = 1024byte

1mb = 1024kb

占用的空间为:10000000/8/1024/1024mb。

大概为1mb多一些。

3、 扩展

Bloom filter可以看做是对bit-map的扩展

4、 Bit-Map的应用

1)可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下。

2)去重数据而达到压缩数据

5、 Bit-Map的具体实现

c语言实现:

  1. #define BITSPERWORD 32
  2. #define SHIFT 5
  3. #define MASK 0x1F
  4. #define N 10000000
  5. int a[1 + N/BITSPERWORD];//申请内存的大小
  6. //set 设置所在的bit位为1
  7. void set(int i) {
  8. a[i>>SHIFT] |=  (1<<(i & MASK));
  9. }
  10. //clr 初始化所有的bit位为0
  11. void clr(int i) {
  12. a[i>>SHIFT] &= ~(1<<(i & MASK));
  13. }
  14. //test 测试所在的bit为是否为1
  15. int  test(int i){
  16. return a[i>>SHIFT] &   (1<<(i & MASK));
  17. }
  18. int main()
  19. {   int i;
  20. for (i = 0; i < N; i++)
  21. clr(i);
  22. while (scanf("%d", &i) != EOF)
  23. set(i);
  24. for (i = 0; i < N; i++)
  25. if (test(i))
  26. printf("%d\n", i);
  27. return 0;
  28. }

注明: 左移n位就是乘以2的n次方,右移n位就是除以2的n次方

解析本例中的void set(int i) {        a[i>>SHIFT] |=  (1<<(i & MASK)); }
1)  i>>SHIFT: 
其中SHIFT=5,即i右移5为,2^5=32,相当于i/32,即求出十进制i对应在数组a中的下标。比如i=20,通过i>>SHIFT=20>>5=0 可求得i=20的下标为0;

2)  i & MASK: 
其中MASK=0X1F,十六进制转化为十进制为31,二进制为0001 1111,i&(0001 1111)相当于保留i的后5位。

比如i=23,二进制为:0001 0111,那么 
                         0001 0111 
                   &    0001 1111 = 0001 0111 十进制为:23 
比如i=83,二进制为:0000 0000 0101 0011,那么 
                          0000 0000 0101 0011 
                     &   0000 0000 0001 0000 = 0000 0000 0001 0011 十进制为:19

i & MASK相当于i%32。

3) 1<<(i & MASK) 
相当于把1左移 (i & MASK)位。 
比如(i & MASK)=20,那么i<<20就相当于: 
         0000 0000 0000 0000 0000 0000 0000 0001 << 20 
       =0000 0000 0001 0000 0000 0000 0000 0000

注意上面 “|=”.

在博文:位运算符及其应用 提到过这样位运算应用:

 将int型变量a的第k位清0,即a=a&~(1<<k)
 将int型变量a的第k位置1, 即a=a|(1<<k)

这里的将  a[i/32] |= (1<<M)); 第M位置1 .

4) void set(int i) {        a[i>>SHIFT]  |=  (1<<(i & MASK)); }等价于:

  1. void set(int i)
  2. {
  3. a[i/32] |= (1<<(i%32));
  4. }

即实现上面提到的三步:

1.求十进制0-N对应在数组a中的下标: n/32

2.求0-N对应0-31中的数: N%32=M

3.利用移位0-31使得对应32bit位为1: 1<<M,并置1;

php实现是一样的:

  1. <?php
  2. error_reporting(E_ERROR);
  3. define("MASK", 0x1f);//31
  4. define("BITSPERWORD",32);
  5. define("SHIFT",5);
  6. define("MASK",0x1F);
  7. define("N",1000);
  8. $a = array();
  9. //set 设置所在的bit位为1
  10. function set($i) {
  11. global $a;
  12. $a[$i>>SHIFT] |=  (1<<($i & MASK));
  13. }
  14. //clr 初始化所有的bit位为0
  15. function clr($i) {
  16. $a[$i>>SHIFT] &= ~(1<<($i & MASK));
  17. }
  18. //test 测试所在的bit为是否为1
  19. function test($i){
  20. global $a;
  21. return $a[$i>>SHIFT] & (1<<($i & MASK));
  22. }
  23. $aa = array(1,2,3,31, 33,56,199,30,50);
  24. while ($v =current($aa))  {
  25. set($v);
  26. if(!next($aa)) {
  27. break;
  28. }
  29. }
  30. foreach ($a as $key=>$v){
  31. echo $key,'=', decbin($v),"\r\n";
  32. }

然后我们打印结果:

0=11000000000000000000000000001110
1=1000001000000000000000010
6=10000000

32位表示,实际结果一目了然了,看看1,2,3,30,31, 33,50,56,199数据所在的具体位置:

31    30                                                                                        3     2     1

                                                                                              

0=    1     1    00       0000   0000   0000   0000    0000     0000   1     1   1  0

56                 50                                                33

                                                                    
1=  0000     0001    0000   0100   0000    0000     0000    0010

199


6=  0000  0000    0000   0000   0000    0000    1000    0000

【问题实例】

已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数。

8位最多99 999 999,大概需要99m个bit,大概10几m字节的内存即可。 (可以理解为从0-99 999 999的数字,每个数字对应一个Bit位,所以只需要99M个Bit==1.2MBytes,这样,就用了小小的1.2M左右的内存表示了所有的8位数的电话)

2)2.5亿个整数中找出不重复的整数的个数,内存空间不足以容纳这2.5亿个整数。 
将bit-map扩展一下,用2bit表示一个数即可,0表示未出现,1表示出现一次,2表示出现2次及以上,在遍历这些数的时候,如果对应位置的值是0,则将其置为1;如果是1,将其置为2;如果是2,则保持不变。或者我们不用2bit来进行表示,我们用两个bit-map即可模拟实现这个2bit-map,都是一样的道理。

实现:

  1. // TestWin32.cpp : Defines the entry point for the console application.
  2. #include "stdafx.h"
  3. #include<memory.h>
  4. //用char数组存储2-Bitmap,不用考虑大小端内存的问题
  5. unsigned char flags[1000]; //数组大小自定义
  6. unsigned get_val(int idx)  {
  7. //  |    8 bit  |
  8. //  |00 00 00 00|  //映射3 2 1 0
  9. //  |00 00 00 00|  //表示7 6 5 4
  10. //  ……
  11. //  |00 00 00 00|
  12. int i = idx/4;  //一个char 表示4个数,
  13. int j = idx%4;
  14. unsigned ret = (flags[i]&(0x3<<(2*j)))>>(2*j);
  15. //0x3是0011 j的范围为0-3,因此0x3<<(2*j)范围为00000011到11000000 如idx=7 i=1 ,j=3 那么flags[1]&11000000, 得到的是|00 00 00 00|
  16. //表示7 6 5 4
  17. return ret;
  18. }
  19. unsigned set_val(int idx, unsigned int val)  {
  20. int i = idx/4;
  21. int j = idx%4;
  22. unsigned tmp = (flags[i]&~((0x3<<(2*j))&0xff)) | (((val%4)<<(2*j))&0xff);
  23. flags[i] = tmp;
  24. return 0;
  25. }
  26. unsigned add_one(int idx)
  27. {
  28. if (get_val(idx)>=2) {  //这一位置上已经出现过了??
  29. return 1;
  30. }  else  {
  31. set_val(idx, get_val(idx)+1);
  32. return 0;
  33. }
  34. }
  35. //只测试非负数的情况;
  36. //假如考虑负数的话,需增加一个2-Bitmap数组.
  37. int a[]={1, 3, 5, 7, 9, 1, 3, 5, 7, 1, 3, 5,1, 3, 1,10,2,4,6,8,0};
  38. int main()   {
  39. int i;
  40. memset(flags, 0, sizeof(flags));
  41. printf("原数组为:");
  42. for(i=0;i < sizeof(a)/sizeof(int); ++i)  {
  43. printf("%d  ", a[i]);
  44. add_one(a[i]);
  45. }
  46. printf("\r\n");
  47. printf("只出现过一次的数:");
  48. for(i=0;i < 100; ++i)  {
  49. if(get_val(i) == 1)
  50. printf("%d  ", i);
  51. }
  52. printf("\r\n");
  53. return 0;
  54. }
  55. 出处:http://blog.csdn.net/hguisu/article/details/7880288

海量数据处理算法—BitMap的更多相关文章

  1. 海量数据处理算法—Bit-Map

    原文:http://blog.csdn.net/hguisu/article/details/7880288 1. Bit Map算法简介 来自于<编程珠玑>.所谓的Bit-map就是用一 ...

  2. 海量数据处理算法—Bloom Filter

    海量数据处理算法—Bloom Filter 1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出.它可以用于检索一个元素是否在一个集合中. Bl ...

  3. php 大数据量及海量数据处理算法总结

    下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题.下面的一些问题基本直接来源于公司的面试笔试题目, ...

  4. 海量数据处理之BitMap

    有这样一种场景:一台普通PC,2G内存,要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数,给出一个整数,问如果快速地判断这个整数是否在文件40亿个数据当中? 问题思考: 40亿个int ...

  5. 【转】海量数据处理算法-Bloom Filter

    1. Bloom-Filter算法简介 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.它是一个判断元素是否存在于 ...

  6. 海量数据处理算法(top K问题)

    举例 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M.返回频数最高的100个词. 思路 首先把文件分开 针对每个文件hash遍历,统计每个词语的频率 使用堆进 ...

  7. (面试)Hash表算法十道海量数据处理面试题

    Hash表算法处理海量数据处理面试题 主要针对遇到的海量数据处理问题进行分析,参考互联网上的面试题及相关处理方法,归纳为三种问题 (1)数据量大,内存小情况处理方式(分而治之+Hash映射) (2)判 ...

  8. 从hadoop框架与MapReduce模式中谈海量数据处理

    http://blog.csdn.net/wind19/article/details/7716326 前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显 ...

  9. 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构) (转)

    转自:http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈海量数据处理 前言 几周前,当我最初听到 ...

随机推荐

  1. c# 类成员的定义 定义方法、字段和属性【转】

    c# 类成员的定义 定义方法.字段和属性c#类的成员包括字段.属性和方法.所有成员都有自己的访问级别,用下面的关键字之一来定义:public----成员可以有任何代码访问:private----成员只 ...

  2. asp.net MVC 4.0 Controller回顾——ModelBinding实现过程

    以DefaultModelBinder为例 为简单模型绑定(BindSimpleModel)和复杂模型绑定(BindComplexModel) public virtual object BindMo ...

  3. iOS开发ReactiveCocoa学习笔记(二)

    RAC 中常见的宏: 使用宏定义要单独导入 #import <RACEXTScope.h> 一. RAC(TARGET, [KEYPATH, [NIL_VALUE]]):用于给某个对象的某 ...

  4. 使用compiz出现奔溃的一些应急办法

    Linux Mint 17.1 CompizConfig is also installed by default so you can configure every aspect of Compi ...

  5. maven(多个模块)项目 部署 开发环境 问题处理历程【异常Name jdbc is not bound in this Context 异常java.lang.NoSuchMethodE】

    maven(多个模块)项目 部署 开发环境 问题处理历程[异常Name jdbc is not bound in this Context 异常java.lang.NoSuchMethodE] 201 ...

  6. winform 自适应屏幕分辨率具体操作和注意事项

    第一步:先借助一个类文件 AutoSizeFormClass.cs class AutoSizeFormClass { public struct controlRect { public int L ...

  7. [Unity3D] 如何识别屏幕边缘

    出现的问题 Unity3D中长度单位是米 使用Screen.resolutions获取的屏幕信息单位是像素 也就是说,即使获取了屏幕相关信息及参数,也无法把信息转换成可在editor中使用的信息.当时 ...

  8. JW Player 6.7(网页视频播放器,可在手机中播放),自定义Logo和右键菜单链接,支持MP3、MP4、FLV等格式,支持通过HTML5、FLash播放

    原版下载地址:http://www.jwplayer.com/ JW Player是世界上最流行的网页影音播放器,支持的视频格式主要有:MP4.FLV.F4V等格式,支持的音频格式主要有:MP3.AA ...

  9. Webstrom使用手册小记

    全手打原创,转载请标明出处:https://www.cnblogs.com/dreamsqin/p/10883350.html,多谢~=.= 1.从git上拉取项目 或者 2.切换分支(webstro ...

  10. byte[] 中需要除去的特定 byte

    /// <summary> /// 去掉byte[]中特定的byte /// </summary> /// <param name="SourceByteArr ...