Bloom Filter一般用于数据的去重计算，近似于HashSet的功能；但是不同于Bitmap（用于精确计算），其为一种估算的数据结构，存在误判（false positive）的情况。

1. 基本原理

Bloom Filter能高效地表征数据集合\(S = \lbrace x_1 ,x_2 ,...,x_n \rbrace\)，判断某个数据是否属于这个集合。其基本思想如下：用长度为\(m\)的位数组\(A\)来存储集合信息，同时是有\(k\)个独立的hash函数\(h_i(1\le i \le k)\)将数据映射到位数组空间。具体流程如下：

将长度为\(m\)的位数组全置为0；
对于数据\(x \in S\)，依次计算其\(k\)个hash函数值\(h_i(x)=w，且1\le i \le k, 1 \le w \le m\)，将位数组中的第\(a\)位bit置为1，即A[w]=1.

当查询数据\(y\)是否属于集合\(S\)时，计算其\(k\)个hash函数值，如果\(h_i(y)\)对应的位数组均为1，则数据\(y\)属于集合\(S\)；反之，则不属于。

2. 相关计算

在上述判断中，可能存在误判（false positive, FP），比如某数的\(k\)个hash函数值可能属于集合\(S\)中某几个数\(k\)个hash函数值组成的集合。显然，误判率跟集合大小\(n\)、位数组大小\(m\)、hash函数的个数\(k\)有关；在其他条件不变的情况下，若\(n\)越大（\(m\)越小，或\(k\)越多），则误判率越高。误判率估算公式如下：

\[P_{fp} \approx (1-e^{-kn/m})^k
\]

在实际的场景中，常常是已知集合大小\(n\)，预设误判率\(P_{fp}\)，需要计算位数组大小\(m\)、hash函数的个数\(k\)。通过一系列的数学推导，可得到如下公式：

\[m= - \frac{n\ln P_{fp}}{(\ln 2)^2}
\]

\[k=\frac{m}{n}\ln 2
\]

详细的数学推导可参看相关文档。

3. 实战

Bloom Filter的Java实现有Guava、stream-lib，Scala实现有breeze、bloom-filter-scala。采用breeze库的Distinct Count实现如下：

import breeze.util.BloomFilter

val bf = BloomFilter.optimallySized[Int](5, 0.01)

val arr = Array(1, 3, 4, 5, 1, 2, 6, 3, 1)

var cnt = 0

arr.foreach { t =>

  bf.contains(t) match {

    case false => cnt += 1; bf.+=(t)

    case _ =>

  }

}

println(arr.distinct.length) // 6

println(cnt) // 6

从上面的Scala代码中，不难发现：在Distinct Count计算过程中，需要定义一个global变量，逐一用于对每个不属于集合元素进行计算。显然，在分布式计算中，这种方法不太适用；因为global变量没法做到实时的传递更新。因此，另一种估算算法HyperLogLog，拥有优秀的可加性、易于并行化，在大数据的场景下应用广泛——Spark、Kylin中的近似Distinct Count便是基于此。

4. 参考资料

[1] Broder, Andrei, and Michael Mitzenmacher. "Network Applications of Bloom Filters: A Survey." Internet Mathematics 1.4 (2011): 485-509.

[2] 张俊林, 《大数据日知录》.

Bloom Filter：海量数据的HashSet的更多相关文章

实例学习Bloom Filter
0. 科普1. 为什么需要Bloom Filter2. 基本原理3. 如何设计Bloom Filter4. 实例操作5. 扩展 0. 科普 Bloom Filter是由Bloom在1970年提出的一种 ...
Bloom Filter 算法具体解释
Bloom Filter 算法 Bloom filter是由Burton Bloom 在1970年提出的,其后在P2P上得到了广泛的应用.Bloom filter 算法可用来查询某一数据是否在某一数据 ...
Bloom Filter (海量数据处理)
什么是Bloom Filter 先来看这样一个爬虫相关问题:文件A中有10亿条URL,每条URL占用64字节,机器的内存限制是4G,现有一个URL,请判断它是否存在于文件A中(爬过的URL无需再爬). ...
Bloom Filter的应用
1.布隆过滤器是什么? 又快又小的处理方法布隆过滤器(Bloom Filter):是一种空间效率极高的概率型算法和数据结构,用于判断一个元素是否在集合中(类似Hashset). 它的核心一个很长的二 ...
php实现Bloom Filter
Bloom Filter(BF) 是由Bloom在1970年提出的一种多哈希函数映射的高速查找算法,用于高速查找某个元素是否属于集合, 但不要求百分百的准确率. Bloom filter通经常使用于爬 ...
布隆过滤器（Bloom Filter）原理以及应用
应用场景主要是解决大规模数据下不需要精确过滤的场景,如检查垃圾邮件地址,爬虫URL地址去重,解决缓存穿透问题等. 布隆过滤器(Bloom Filter)是1970年由布隆提出的.它实际上是一个很长的 ...
布隆过滤器 Bloom Filter 2
date: 2020-04-01 17:00:00 updated: 2020-04-01 17:00:00 Bloom Filter 布隆过滤器之前的一版笔记点此跳转 1. 什么是布隆过滤器本 ...
探索C#之布隆过滤器(Bloom filter)
阅读目录: 背景介绍算法原理误判率 BF改进总结背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量数据结构.通俗来说就是在大数据集合下高效判断某个成员是 ...
Bloom Filter 布隆过滤器
Bloom Filter 是由伯顿.布隆(Burton Bloom)在1970年提出的一种多hash函数映射的快速查找算法.它实际上是一个很长的二进制向量和一些列随机映射函数.应用在数据量很大的情况下 ...

随机推荐

CorelDRAW X8 如何破解激活（附国际版安装包+激活工具） 2016-12-15
之前有位搞平面的好友“小瘦”说CDR X8无法破解,只能用X7.呃……呃……呃……好像是的其实CDR8难激活主要在于一个点“没有离线激活了,只可以在线激活”,逆天不是专供逆向的,当然没能力去破解,这 ...
散列表(hash table)——算法导论(13)
1. 引言许多应用都需要动态集合结构,它至少需要支持Insert,search和delete字典操作.散列表(hash table)是实现字典操作的一种有效的数据结构. 2. 直接寻址表在介绍散列 ...
OpenCASCADE Shape Location
OpenCASCADE Shape Location eryar@163.com Abstract. The TopLoc package of OpenCASCADE gives resources ...
前端常用的WindowsCMD命令
前面的话在网上找了一些关于命令提示符CMD的资料,但是很多资料都是把所有的功能罗列出来,大部分都不会用到.所以,自己把常用的CMD命令总结如下,方便查阅操作类 help 列出所有支持的指令及说 ...
.NET Core采用的全新配置系统[9]: 为什么针对XML的支持不够好？如何改进？
物理文件是我们最常用到的原始配置的载体,最佳的配置文件格式主要由三种,它们分别是JSON.XML和INI,对应的配置源类型分别是JsonConfigurationSource.XmlConfigura ...
Python碎碎念
1. 如何添加路径主要有以下两种方式: 1> 临时的 import sys sys.path.append('C:\Users\Victor\Desktop') 2> 永久的在Linu ...
【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之集群概念介绍（一）
集群概念介绍(一)) 白宁超 2015年7月16日概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习 ...
fir.im Weekly - 关于 iOS10 适配、开发、推送的一切
"小程序"来了,微信变成名副其实的 Web OS,新一轮的Web App 与Native App争论四起.程序员对新技术永远保持灵敏的嗅觉和旺盛的好奇心,@李锦发整理了微信小程序资 ...
JDBC MySQL 多表关联查询查询
public static void main(String[] args) throws Exception{ Class.forName("com.mysql.jdbc.Driver&q ...
InnoDB：Lock & Transaction
InnoDB 是一个支持事务的Engine,要保证事务ACID,必然会用到Lock.就像在Java编程一下,要保证数据的线程安全性,必然会用到Lock.了解Lock,Transaction可以帮助sq ...