Bloom Filter (海量数据处理)
什么是Bloom Filter
先来看这样一个爬虫相关问题:文件A中有10亿条URL,每条URL占用64字节,机器的内存限制是4G,现有一个URL,请判断它是否存在于文件A中(爬过的URL无需再爬)。如果有很多个URL需要判断呢?
分析之后我们可以发现,这就是快速query问题,通常查操作居多,写操作较少。要快速判断一个URL是否在文件A中,由于
\[{1,000,000,000*64 B = 64,000,000,000 B ≈ 60GB } \]
而60G是放不进内存的,所以逐个读入内存判断的话,时间复杂度起码是O(10亿),这显然不能满足要求。如何节约内存又可以节省时间才是关键!Bloom Filter就是解决这种问题的数据结构,主要是能很好地节省内存。
原理简析
Bloom Filter (下简称BF)在海量数据方面的处理表现不错,它的内部需要的结构有:
- hash函数k个,
hashfun[k]
; - 位图
bitset[m]
,且m>k;
一个URL依次经过k个hash函数后得到k个数字,设为\({X_i}\),置bitset[\({X_i}\)] = 1。先将A文件中的URL都这样处理,那么得到的bitset
就是记录了与文件A相关的信息。将60GB的文件信息压缩成m个bit,如果能很好利用这m个bit,那内存将大大减少。
如何利用bitset[m]
?
对于每个询问的URL,经过这k个hash函数之后同样能得到k个数字,设为\({Y_j}\),如果有
\[{1= bitset[{Y_1}]\& bitset[{Y_2}] \& } \cdots {\& bitset[{Y_k}]}\]
说明此URL可能存在于A中,但是目前不能确定是否存在;如果有
\[{0= bitset[{Y_1}]\& bitset[{Y_2}] \& } \cdots {\& bitset[{Y_k}]}\]
那就可以确定此URL不在A中。对于此URL是否一定存在于文件A中,Bloom Filter无法给出肯定的答复。设n为数据量(即10亿),m为bitset大小(即槽个数),k为hash函数个数,则它的错误率公式是
\[{F(n,m,k) = [1-(1-\frac{1}{m})^{kn}]^{k}≈(1-e^{\frac{-kn}{m}})^{k}}\]
从上式中知道,
- 当
n=0
时,F(n,m,k)=0
; - 当
n=+∞
时,F(n,m,k)=1
,即百分百错误;
看回最上面的问题,文件A在4GB内存中能达到的最低错误率是多少?
其实有3个因素决定了错误率,n
、m
、k
,其中n
与数据量挂钩,m
与空间挂钩,k
与时间挂钩,既然n
已固定为10亿,m
已固定约为32Gb
,那么k
的大小将决定错误率的大小。分析一下,预处理时需要先将n个数据都进行hash成k个数,所以时间复杂度为O(n*k),而预处理完后每个查询仅需时间复杂度O(k)。
关于证明,如果有兴趣可以去维基上看。
Bloom Filter特点
- 算法简单,实现方便(百行以内)。
- 时空复杂度灵活,时间与空间上的控制相对比较容易。
- 无法实现确定性判断,但可以配合其他算法再次降低错误率。
- 操作的集合不能删除,即信息添加到bitset中后就无法取出。
Bloom Filter (海量数据处理)的更多相关文章
- 海量数据处理算法—Bloom Filter
海量数据处理算法—Bloom Filter 1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出.它可以用于检索一个元素是否在一个集合中. Bl ...
- 海量数据处理之Bloom Filter详解
前言 : 即可能误判 不会漏判 一.什么是Bloom Filter Bloom Filter是一种空间效率很高的随机数据结构,它的原理是,当一个元素被加入集合时,通过K个Hash函 ...
- 【转】海量数据处理算法-Bloom Filter
1. Bloom-Filter算法简介 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.它是一个判断元素是否存在于 ...
- 海量数据处理 从哈希存储到Bloom Filter(1) (转载)
先解释一下什么是哈希函数.哈希函数简单来说就是一种映射,它可取值的范围(定义域)通常很大,但值域相对较小.哈希函数所作的工作就是将一个很大定义域内的值映射到一个相对较小的值域内. 传统的哈希存储 假设 ...
- 大数据处理-Bloom Filter
大数据处理--Bloom Filter 布隆过滤器(Bloom Filter)是由巴顿.布隆于一九七零年提出的.它实际上是一个很长的二进制向量和一系列随机映射函数. 如果想判断一个元素是不是在一个集合 ...
- 海量信息库,查找是否存在(bloom filter布隆过滤器)
Bloom Filter(布隆过滤器) 布隆过滤器用于测试某一元素是否存在于给定的集合中,是一种空间利用率很高的随机数据结构(probabilistic data structure),存在一定的误识 ...
- 大数据处理算法--Bloom Filter布隆过滤
1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出.它可以用于检索一个元素是否在一个集合中. Bloom Filter(BF)是一种空间效率很 ...
- july教你如何迅速秒杀掉:99%的海量数据处理面试题
作者:July出处:结构之法算法之道blog 以下是原博客链接网址 http://blog.csdn.net/v_july_v/article/details/7382693 微软面试100题系列 h ...
- Bloom Filter解析
布隆过滤器简介:https://www.cnblogs.com/Jack47/p/bloom_filter_intro.html 布隆过滤器详解:原文链接:http://www.cnblogs.com ...
随机推荐
- [JavaScript]Prototype继承
JavaScript相对于其他的编程语言是比较简单的,只要吃透了Prototype和Closure(闭包),基本上就可以说精通JavaScript了. JavaScript里如何实现向Java语言的O ...
- Josephus环的四种解法(约瑟夫环)
约瑟夫环 约瑟夫环(约瑟夫问题)是一个数学的应用问题:已知n个人(以编号1,2,3…n分别表示)围坐在一张圆桌周围.从编号为k的人开始报数,数到m的那个人出列;他的下一个人又从1开始报数,数到m的那个 ...
- Kibana6.x.x——源码发布
从官方GitHub上克隆下来的源码自己如何发布? 我在Ubuntu系统中进行的开发,安装了yarn. 执行build命令为:$ yarn build 执行release命令为:$ yarn relea ...
- AJAX使用说明书 基础
AJAX简介 什么是AJAX AJAX(Asynchronous Javascript And XML)翻译成中文就是“异步Javascript和XML”.即使用Javascript语言与服务器进行异 ...
- IIS Express被局域网访问
在 文件夹 C:\Users\administrator\Documents\IISExpress\config 下面 applicationhost.config 文件里 找到相应的项目 如 < ...
- js 数字处理Number()
//js将数字转换保留2位小数 function toDecimal(x) { var val = Number(x) if (!isNaN(parseFloat(val))) { //toFixed ...
- shell脚本:Ctrl+C终止的是哪个进程
aa.sh中的内容如下图: 运行sh aa.sh, 显示aa.txt后面几行, 此时开启了两个进程:一个sh运行,一个tail -f运行 按Ctrl+C 会终止此sh进程, 父进程死了,里面的tail ...
- Invalid prop: type check failed for prop "XXX". Expected String, got Object.
项目是Vue的,基于elementUI的后台管理系统. Invalid prop: type check failed for prop "total". Expected Str ...
- Linux环境搭建禅道项目管理工具
1.开源版安装包下载 [root@iZbp ~]# wget http://dl.cnezsoft.com/zentao/9.0.1/ZenTaoPMS.9.0.1.zbox_64.tar.gz 2. ...
- vue--钩子函数1
最近在学习自定义指令,这里做个整理 vue允许注册自定义指令,在2.0中,代码复用和抽象的主要形式是组件.然而有的情况下仍需要对普通DOM元素进行底层操作,这时就会用到自定义指令. 全局指令direc ...