Bitmap篇

在前一篇中介绍了使用API做Distinct Count，但是计算精确结果的API都较慢，那有没有能更快的优化解决方案呢？

1. Bitmap介绍

《编程珠玑》上是这样介绍bitmap的：

Bitmap是一个十分有用的数据结构。所谓的Bitmap就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在内存占用方面，可以大大节省。

简而言之——用一个bit（0或1）表示某元素是否出现过，其在bitmap的位置对应于其index。《编程珠玑》给出了一个用bitmap做排序的例子：

/* Copyright (C) 1999 Lucent Technologies */

/* From 'Programming Pearls' by Jon Bentley */

/* bitsort.c -- bitmap sort from Column 1

* Sort distinct integers in the range [0..N-1]

*/

#include <stdio.h>

#define BITSPERWORD 32

#define SHIFT 5

#define MASK 0x1F

#define N 10000000

int a[1 + N / BITSPERWORD];

void set(int i) { a[i >> SHIFT] |= (1 << (i & MASK)); }

void clr(int i) { a[i >> SHIFT] &= ~(1 << (i & MASK)); }

int test(int i) { return a[i >> SHIFT] & (1 << (i & MASK)); }

int main() {

    int i;

    for (i = 0; i < N; i++)

        clr(i);

    /* Replace above 2 lines with below 3 for word-parallel init

    int top = 1 + N/BITSPERWORD;

    for (i = 0; i < top; i++)

    a[i] = 0;

    */

    while (scanf("%d", &i) != EOF)

        set(i);

    for (i = 0; i < N; i++)

        if (test(i))

            printf("%d\n", i);

    return 0;

}

上面代码中，用int的数组存储bitmap，对于每一个待排序的int数，其对应的index为其int值。

2. Distinct Count优化

index生成

为了使用bitmap做Distinct Count，首先需得到每个用户（uid）对应（在bitmap中）的index。有两种办法可以得到从1开始编号index表（与uid一一对应）：

hash，但是要找到无碰撞且hash值均匀分布[1, +∞)区间的hash函数是非常困难的；
维护一张uid与index之间的映射表，并增量更新

比较两种方法，第二种方法更为简单可行。

UV计算

在index生成完成后，RDD[(uid, V)]与RDD[(uid, index)]join得到index化的RDD。bitmap的开源实现有EWAH，采用RLE（Run Length Encoding）压缩，很好地解决了存储空间的浪费。Distinct Count计算转变成了求bitmap中1的个数：

// distinct count for rdd(not pair) and the rdd must be sorted in each partition

def distinctCount(rdd: RDD[Int]): Int = {

    val bitmap = rdd.aggregate[EWAHCompressedBitmap](new EWAHCompressedBitmap())(

      (u: EWAHCompressedBitmap, v: Int) => {

        u.set(v)

        u

      },

      (u1: EWAHCompressedBitmap, u2: EWAHCompressedBitmap) => u1.or(u2)

    )

    bitmap.cardinality()

}

// the tuple_2 is the index

def groupCount[K: ClassTag](rdd: RDD[(K, Int)]): RDD[(K, Int)] = {

    val grouped: RDD[(K, EWAHCompressedBitmap)] = rdd.combineByKey[EWAHCompressedBitmap](

      (v: Int) => EWAHCompressedBitmap.bitmapOf(v),

      (c: EWAHCompressedBitmap, v: Int) => {

        c.set(v)

        c

      },

      (c1: EWAHCompressedBitmap, c2: EWAHCompressedBitmap) => c1.or(c2))

    grouped.map(t => (t._1, t._2.cardinality()))

}

但是，在上述计算中，由于EWAHCompressedBitmap的set方法要求int值是升序的，也就是说RDD的每一个partition的index应是升序排列：

// sort pair RDD by value

def sortPairRDD[K](rdd: RDD[(K, Int)]): RDD[(K, Int)] = {

    rdd.mapPartitions(iter => {

      iter.toArray.sortWith((x, y) => x._2.compare(y._2) < 0).iterator

    })

}

为了避免排序，可以为每一个uid生成一个bitmap，然后在Distinct Count时将bitmap进行or运算亦可：

rdd.reduceByKey(_ or _)

    .mapValues(_._2.cardinality())

3. 参考资料

[1] 周海鹏, Bitmap的秘密.

Bitmap的更多相关文章

[翻译]开发文档：android Bitmap的高效使用
内容概述本文内容来自开发文档"Traning > Displaying Bitmaps Efficiently",包括大尺寸Bitmap的高效加载,图片的异步加载和数据缓存 ...
【开源毕设】一款精美的家校互动APP分享——爱吖校推 [你关注的，我们才推]（持续开源更新3）附高效动态压缩Bitmap
一.写在前面爱吖校推如同它的名字一样,是一款校园类信息推送交流平台,这么多的家校互动类软件,你选择了我,这是我的幸运.从第一次在博客园上写博客到现在,我一次一次地提高博文的质量和代码的可读性,都是为 ...
Android Bitmap 和 ByteArray的互相转换
Android Bitmap 和 ByteArray的互相转换移动平台图像处理,需要将图像传给native处理,如何传递?将bitmap转换成一个 byte[] 方便传递也方便cpp代码直接处理图像 ...
Android-Drawable、Bitmap、byte[]、资源文件相互转换
我们在Android的开发中,经常可以遇到图片的处理,当中,有很多是 Bitmap.Drawable.byte[]和资源文件它们直接相互转换. 今天就此总结一下: 1.资源文件转为Drawable 2 ...
bitmap对海量无重复的整数排序--转
原文地址:http://blog.csdn.net/u013074465/article/details/46956295 现在有n个无重复的正整数(n 小于10的7次方),如果内存限制在1.5M以内 ...
基于位图（Bitmap、BitmapData）的图片处理方法（C#）
目前操作位图的主流方法有三种: 1.基于Bitmap像素的处理方法,以GetPixel()和SetPixel()方法为主.方法调用简单,但是效率偏低. 2.基于内存的像素操作方法,以System.Ru ...
android:布局、绘制、内存泄露、响应速度、listview和bitmap、线程优化以及一些优化的建议！
1.布局优化首先删除布局中无用的控件和层级,其次有选择地使用性能较低的viewgroup,比如布局中既可以使用RelativeLayout和LinearLayout,那我们就采用LinearLayo ...
获取View的截图-将View转换为Bitmap对象
开发中,有时候需要获取View的截图来做动画来达到动画流程的目的原理:将View的内容画到一个Bitmap画布上,然后取出下面封装了一个从View生成Bitmap的工具类 /** * 将View转 ...
bitmap解码
#include <stdio.h> #include <stdlib.h> #include <string.h> #define BYTE unsigned c ...
Bitmap转换成BitmapImage
public BitmapImage BitmapToBitmapImage(System.Drawing.Bitmap bitmap) { MemoryStream ms = new MemoryS ...

随机推荐

mysql 执行计划走索引
<pre name="code" class="html">mysql> desc AssignClientManager; +------- ...
解决 Android SDK Manager不能下载旧版本的sdk的问题
解决无法使用Android SDK Manager下载SDK开发包的解决办法. 当我们在官网下载google的集成ADT,也就是adt-bundle-linux-x86.zip开发包,进行解压, 打 ...
SMART rule之个人理解
SMART原则通常应用于绩效评估中. S是specific的缩写,也就是你所设定的目标必须是一个具体的目标,而不是一个空而大的东西. 比如你的目标定位为今年学习linux,并对进程管理.内存管理等要能 ...
POJ训练计划3041_Asteroids(二分图/最小点覆盖=最大匹配)
解题报告 http://blog.csdn.net/juncoder/article/details/38135053 题目传送门题意: 给出NxN的矩阵,有M个点是障碍每次仅仅能删除一行或者一列 ...
让MFC程序隐藏运行界面
在MFC中隐藏运行界面确实花花点功力. 针对对话框程序,一种不是很好地实现方法是在OnPaint函数中添加如下代码: CWnd::ShowWindow(SW_HIDE); 添加后执行会发现屏幕会闪烁一 ...
全局忽略编译警告（设置QMAKE_CXXFLAGS ）
msvc编译器从2010 sp1开始就已经支持UTF-8的源码文件了,然后到vs2012又不支持了,官方表示是BUG.到目前最新的vs2013就解决了这个问题... 但是在编译时仍然会出现4819的警 ...
使用gdb调试游戏服务器
前言谈论gdb重要性一般来说.提gdb,命令用于调试."命令",用户是几乎相同的复杂话.而事实确实如此,实际的开发调试必须用到gdb. 如今.大多数Linux系统是存在于ser ...
QT插件开发方式（没看懂）
创建一个QT的库项目,删除自动生成的.h和.cpp文件,添加一个接口定义.h文件和一个接口实现类(一个.h一个.cpp).代码如下: 1.接口文件源码 #ifndef PLUGININTERFACE_ ...
开启程序的Visual Styles
首先看看MS对Visual Styles的解释: Windows XP and later operating systems support a feature called visual styl ...
如何制作python安装模块（setup.py）
Python模块的安装方法: 1. 单文件模块:直接把文件拷贝到$python_dir/lib 2. 多文件模块,带setup.py:python setup.py install 3. egg文件, ...

Bitmap