简化布隆过滤器——BitMap
简化布隆过滤器——BitMap
前言
前段开发项目试就发现,一部分的代码实现存在着一些性能上的隐患。但当时忙于赶进度和由于卡发中的不稳定因素,想了许多解决方案也没有机会实施。最近,正好趁个机会进行一系列的改进。
我在团队开发中负责开发服务器端。所以在编写业务逻辑层时,常常遇到以下这样的业务逻辑:
1. 判断一个用户是否为在自己的好友列表中
2. 判断一条动态是否已被用户翻阅
3. 判断两个用户的标签的匹配度
4. .....等等
这些情况,我之前的方案是采用数据库来解决,为每条记录添加标记,需要查询时则遍历返回相应的集合。
但是随着用户量的不断增多、各个用户之间的关系不断地增加、以及用户使用软件的一系列行为中这些情况是非常频繁的,这样频繁遍历大量的记录的读操作会给数据库带来难以承受的压力。

那么如何需找一种更好的解决方案?
既能减少数据库需要遍历的记录数量且快速索引,又能用少量的内存表示大量的数据。
其实如果我们对这一类型的业务逻辑进行抽象,可以得到:本质上就是判断一个元素是否存在于集合中
所以我们可以采用位数组,通过数组的下标能快速地定位某个元素,用bit表示相应的内容能够节省大量的空间。

但是这样结构依旧不够完美,如果数据量相对较少,数组中会存在大量的无用数据, 如长度为1024的byte数组中的只有少量位被表示为1,大量位依然是0。
此时我们可以采用游程编码压缩byte数组。如上图的游程编码后的结果可以表示为[3, 0, 2, 0, 2, 0, 1, 0 ]
一、Bitmap介绍
Bitmap:被设计为一种用bit数组来储存表示2种状态的紧凑、快速索引的数据结构(当然Java的util包中也实现这类型的数据结构—BitSet(不过并不是Set))
二、BitMap主要原理
其实说开来,Bitmap就是一个位数组而已,有着快速访问优势(下标访问),以及极小占用(用1bit来表示)
三、BitMap的主要设计
有点美中不足的是,Java中并没有提供bit这样的数据类型,即便是最小的数据类型byte也要占用8bit。这样就需要进行一些位运算来完成相应的操作,使得代码变得稍微复杂。
1. BitMap的内部通过byte数组实现
2. BitMap的基本操作:增删改查
void Set(int position); /* 将某位置"1" */
boolean Get(int position); /* 判断某位的值 */
void Clear(int postion); /* 将某位置"0" */
Set()的实现原理
废话不多说,直接看图

主要分为两个步骤:
1. 先将一个byte类型的”1”左移4位,得到结果
2. 再进行简单的或运算,得到结果并覆盖原来的值
Get()的实现原理

理解了上面的例子,相信这个应该就很简单了
同样是两步:
1. 先将一个byte类型的”1”左移3位,得到结果
2. 再进行与操作,得到结果并覆盖原来的值
或许这里会有些疑问,为什么不考虑用boolean?
首先,Java规范中没有强制规定boolean所占内存的大小。而且大部分计算机允许分配的最小内存单元为8bit
四、可以用运用BitMap解决问题的实用场景
大多可以运用的场景主要是两个方面:
这里以标签匹配为例子,开发中一个用户与各个用户之间的标签匹配度是令人头疼的问题,通过匹配标签字符串或者标签ID,这样的效果都不能太让人满意,在数据库中的保存也颇为麻烦。
一、快速索引
假如,每个用户都有一个这样小小的长度为40的byte数组,那么用户就可以用它来表示320种标签。而且能够快速的查询,通过bitarray[tag_id]这样的访问方式可以极快查到,用户是否选取了这个标签,能够快速地计算与各个用户之间的标签匹配度
二、数据压缩
那么像第一点说的那样,长度为40的byte数据便可以保存320种标签信息,但它内存大小只有40B。而且这还是没有进行游程编码压缩之前的大小
五、Java实现
/**
* Created by auhnayuil on 17-6-7.
*/
public class BitMap {
public static final int DEFAULT_SIZE = 1024;
public static final boolean EXIST = true;
public static final boolean NULL = false;
public static final short bits = 8;
private byte[] bitArray;
private int size;
public BitMap(){
this(DEFAULT_SIZE);
}
public BitMap(byte[] bitArray){
this.size = bitArray.length * bits;
this.bitArray = bitArray;
}
public BitMap(int defaultSize) {
this.size = defaultSize * bits;
this.bitArray = new byte[defaultSize];
}
public BitMap(int size, boolean elem){
this(size);
if(EXIST == elem) {
for (int i = 0; i
bitArray[i] = (byte) ~bitArray[i];
}
}
public int size(){
return size;
}
public int index(int position){
int idx = (position + bits - 1) / bits;
return idx - 1;
}
public int offset(int position){
int ofs = position % 8;
return (ofs == 0 ? ofs : 8 - ofs);
}
public void setBit(int position){
if(position > size)
return ;
int idx = index(position);
int ofs = offset(position);
bitArray[idx] |= (byte)(1
}
public boolean getBit(int position){
if(position > size)
return false;
int idx = index(position);
int ofs = offset(position);
byte tmp = (byte)(bitArray[idx] & (1
return tmp != 0;
}
public void setBitArray(byte[] bitArray){
this.bitArray = bitArray;
}
public byte[] getBitArray(){
return bitArray;
}
public String byteToStr(int position){
byte b = bitArray[index(position)];
StringBuffer sb = new StringBuffer("");
for(int i=bits-1; i>-1; i--)
sb.append((byte)((b >> i) & 0x1));
return sb.toString();
}
}
简化布隆过滤器——BitMap的更多相关文章
- 【布隆过滤器】基于Hutool库实现的布隆过滤器Demo
布隆过滤器出现的背景: 如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定.链表.树.散列表(又叫哈希表,Hash table)等等数据结构都是这种思路,存储 ...
- 基于Java实现简化版本的布隆过滤器
一.布隆过滤器: 布隆过滤器(Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的二进制向量和一系列随机映射函数.布隆过滤器可以用于检索一个元素是否在一个集合中.它的优点是空间效率 ...
- 从位图到布隆过滤器,C#实现
前言 本文将以 C# 语言来实现一个简单的布隆过滤器,为简化说明,设计得很简单,仅供学习使用. 感谢@时总百忙之中的指导. 布隆过滤器简介 布隆过滤器(Bloom filter)是一种特殊的 Hash ...
- 【转】Bloom Filter布隆过滤器的概念和原理
转自:http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽,里面有提到布隆过滤器的过滤垃圾邮件,感觉到何其的牛,竟然有这么高效的 ...
- 布隆过滤器(Bloom Filter)
一.布隆过滤器介绍 Bloom Filter是一种空间效率很高的随机数据结构,Bloom Filter可以看做是对bit-map的扩展,它的原理如下: 当一个元素被加入集合时,通过K个Hash函数将这 ...
- BloomFilter(布隆过滤器)
原文链接:http://blog.csdn.net/qq_38646470/article/details/79431659 1.概念: 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保 ...
- C++布隆过滤器
布隆过滤器 这名词有没有听着好像很 挺高大上的,的确,它也是一种很重要的结构,下面一起看看: 一:说说历史: (Bloom Filter)是由布隆(Burton Howard Bloom)在1970年 ...
- 浅谈redis的HyperLogLog与布隆过滤器
首先,HyperLogLog与布隆过滤器都是针对大数据统计存储应用场景下的知名算法. HyperLogLog是在大数据的情况下关于数据基数的空间复杂度优化实现,布隆过滤器是在大数据情况下关于检索一个元 ...
- 布隆过滤器redis缓存
Bloom Filter布隆过滤器算法背景如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定.链表.树.散列表(又叫哈希表,Hash table)等等数据结构 ...
随机推荐
- css过渡模块和2d转换模块
今天,我们一起来研究一下css3中的过渡模块.2d转换模块和3d转换模块 一.过渡模块transition (一)过度模块的三要素: 1.必须要有属性发生变化 2.必须告诉系统哪个属性需要执行过渡效果 ...
- .net软件反编译笔记
在软件的破解及源码获取及重新编译的道路上会遇到一些问题,书此备查. 大名鼎鼎的Reflector以及开源的ILSPY都是.NET程序集的反编译利器,但是它们不能为你做全部的工作. 0x01: 遇到反编 ...
- HTML5 WebGL 实现逼真的云朵效果
使用 HTML5 WebGL 实现超逼真的云朵效果.WebGL 是一项在网页浏览器呈现3D画面的技术,有别于过去需要安装浏览器插件,通过 WebGL 的技术,只需要编写网页代码即可实现3D图像的展示. ...
- 关于特殊文件权限:suid、sgid和sticky-bit
用 ls –l 命令时,能看到三个八进制数字,表示文件的权限.其实文件的权限应该用4个八进制文件来表示,没有显示的那个是第一位,用来设定一些特殊的权限,这个八进制数字的三个位是:SUID.SGID.s ...
- 完美实现在同一个页面中使用不同样式的artDialog样式
偶然发现artDialog.js这个插件,就被其优雅的设计及漂亮的效果深深吸引,在做例子时碰到了一些想当然它应该提供但却没有提供的功能,不过这都不影响我对它的喜爱,下面说一下遇到的问题吧! artDi ...
- html部署到tomcat
首先电脑上应该装好java和Tomcat,并设置好它们的环境变量. 设置完成后,启动Tomcat ,点击\bin\tomcat6,打开浏览器输入网址:http://localhost:8080,如果出 ...
- Android获取状态栏高度、标题栏高度、编辑区域高度
一.Activity界面的划分 简单说明一下(上图Activity采用默认Style,状态栏和标题栏都会显示):最大的草绿色区域是屏幕界面,红色次大区域我们称之为"应用程序界面区域" ...
- 记MSSQL数据库sa账号短时间密码失效问题
在腾讯云服务器上安装了MSSQL2012,64位英文版本. sa账号的密码需要在一定时间内失效,无法访问.当时密码设置为admin@123. 最后修改了密码,改为比较复杂的密码,包含特殊字符,不包含a ...
- Cygwin Unable to get setup from *
Cygwin Unable to get setup from * 错误 解决方案 是因为用自定义镜像站点,比如 http://mirrors.xdlinux.info/cygwin/x86_64/ ...
- 用ajax写分页查询-----2017-05-17
要写分页,首先你得清楚,一页你想显示多少条信息?如何计算总共显示的页数? 先说一下思路: (1)从数据库读取数据,以chenai表为例,读取所有留言信息.并能够实现输入发送者,可以查询该发送者的留言总 ...