Bloom Filter的基本原理和变种

学习一个东西首先要知道这个东西是什么，可以做什么，接着再了解这个东西有什么好处和优势，然后再学习他的工作原理。下面我们分别从这三点简单介绍一下bloom filter，以及和他的变种。

What：在允许一定的错误率的情况下，用于判断一个元素是否属于一个集合，Bloom Filter可能会将一个不属于集合的元素误判为属于这个集合，即false positive。可以应用于检查一个URL是否已经被爬虫爬过、网络缓存共享、字符串匹配等等
Why：时间和空间效率较高（与hash比较）
How：
- 存储元素：用一个m位的数组和k个hash函数，对一个元素用k个hash函数映射出k个值（范围是(0~m-1)，即数组下标），对数组的这m个下标位置为1
- 查询元素：同上获得一个元素的m个下标位置，如果这m个下标位置都为1，说明元素属于该集合
- 优点：时间、空间效率高，只需k次hash就能找到元素，只需m位空间大小，时间、空间复杂度都是常数
- 缺点：有一定错误率、无法删除元素、无法恢复原来元素的值（因为不直接存储元素值）
从hash到bloom filter：
1. 传统hash：
  - 存储元素：开辟h个格子，对集合中的每个元素，hash出格子的下标，将元素存于格子中。存在hash冲突的情况，用hash链表、再hash的方法解决。
  - 查找：hash出格子下标、同格子下标位置存储的元素值比较
  - 缺点：需要存储所有集合的值，空间占用大；遇到hash冲突需要再查找链表或者再hash，时间复杂度不确定
2. 改进hash：
  1. 存储元素：开辟h个格子，对集合中的每个元素，hash出格子的下标，不直接存储元素的值，而是存储元素的编码，通常编码的位数比元素值的位数小，把元素值映射成新的编码（hash）可能会有冲突（不同元素的编码相同）
  2. 查找：同传统hash
  3. 优点：较传统hash空间复杂度低
  4. 缺点：存在一定的错误率，用正确率换取空间；无法恢复原来元素的值
3. bloom filter：
  1. 存储和查找童第3点
  2. 优点：不用考虑冲突的情况，因为允许一定的错误率，时空效率高
Bloom Filter的变种
1. Counting Bloom Filter：原始的bloom filter不支持删除操作，CBF通过对位数组进行扩展，把原来1位扩展为t位用于计数。每次存储时将对应k个hash下标的位计数+1，删除时相应的对k个hash下标计数-1，从而支持集合删除操作
2. Partial Bloom Filter：原始bloom filter的hash函数值的范围是0~m-1，即整个位数组的下标范围，而在PBF中每个hash函数的取值范围较小，相互间没有交集，位数组被分成 k个区域，每个hash函数值负责一个区域。好处是准确率比原始的高，且可以并行访问数组，优化程序性能
3. Compressed Bloom Filter：对原始的bloom filter进行压缩，用于网络传输应用。好处是经过压缩的bloom filter的错误率更低、所需位数更少、所需hash函数更少

Bloom Filter的基本原理和变种的更多相关文章

实例学习Bloom Filter
0. 科普1. 为什么需要Bloom Filter2. 基本原理3. 如何设计Bloom Filter4. 实例操作5. 扩展 0. 科普 Bloom Filter是由Bloom在1970年提出的一种 ...
Bloom Filter（布隆过滤器）如何解决缓存穿透
本文摘抄自我的微信公众号"程序员柯南",欢迎关注!原文阅读缓存穿透是什么? 关于缓存穿透,简单来说就是系统处理了大量不存在的数据查询.正常的使用缓存流程大致是,数据查询先进行缓存 ...
Bloom Filter(布隆过滤器)的概念和原理
Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数.将hash函数对应的值的位数组置1,查找时 ...
Bloom Filter：海量数据的HashSet
Bloom Filter一般用于数据的去重计算,近似于HashSet的功能:但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况. 1. 基本 ...
Bloom Filter 概念和原理
Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员.如果检测结果为是,该元素不一定 ...
【转】Bloom Filter布隆过滤器的概念和原理
转自:http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽,里面有提到布隆过滤器的过滤垃圾邮件,感觉到何其的牛,竟然有这么高效的 ...
bloom filter 详解［转］
Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.Bloom ...
1.Bloom filter
Bloom filter 是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员,这种检测只会对在集合内的数据错 ...
Bloom Filter概念和原理
Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某 ...

随机推荐

PLSQL开发笔记和小结
***************************************** PLSQL基本结构*****************************************基本数据类型变 ...
Xcode之Alcatraz
Alcatraz的安装和使用转发:http://www.cnblogs.com/wendingding/p/4964661.html 一.简单说明 Alcatraz 是一款 Xcode的插件管理工具 ...
AVR编程_如何通过软件复位AVR？(转)
源:http://blog.sina.com.cn/s/blog_493520900100bpos.html Question 如何通过软件复位AVR? Answer 如果你想通过软件复位AVR,你应 ...
Nginx 中 nginx.conf 详解
#定义Nginx运行的用户和用户组 user www www; #nginx进程数,建议设置为等于CPU总核心数. worker_processes 8; #全局错误日志定义类型,[ debug | ...
利用 gperftools 对nginx mysql 内存管理性能优化
利用 gperftools 对nginx 与 mysql 进行内存管理性能优化降低负载. Gperftools 是由谷歌开发.官方对gperftools 的介绍为: These tools ...
nginx 支持pathinfo
location ~ \.php { #去掉$ root H:/PHPServer/WWW; fastcgi_pass 127.0.0.1:9000; fastcgi_index index.ph ...
iOS开发改变UINavigationController的UINavigationBar的高度和背景图片
1.改变高度自定义UINavigationBar的新类别: //UINavigationBar+BackgoundImage.h #import <Foundation/Foundation. ...
dsp与dmp的cookie mapping
dsp ad.com 在 meijiu.com上部署广告. 假设dmp叫cm.api.taobao.com 建立gid映射表 (1) ad.com在meiju.com的页面上部署,指向dmp ...
iOS-模糊查询
http://blog.csdn.net/qq_33701006/article/details/51836914 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 前言 ...
POJ 3362 Protecting the Flowers
这题和金华区域赛A题(HDU 4442)是一样的做法. 对两个奶牛进行分析,选择两个奶牛总花费少的方式排序. bool cmp(const X&a,const X&b){ return ...

Bloom Filter的基本原理和变种

Bloom Filter的基本原理和变种的更多相关文章

随机推荐

热门专题