布隆算法（BloomFilter）

BloomFilter算法，是一种大数据排重算法。在一个数据量很大的集合里，能准确断定一个对象不在集合里；判断一个对象有可能在集合里，而且占用的空间不大。它不适合那种要求准确率很高的情况，零错误的场景。通过牺牲部分准确率达到高效利用空间的目的。

场景一：假如有一个很大的表，通过字段key查询数据，操作很重；业务方请求时，传过来的key有很大一部分是不存在的；这种不存在的key请求就会浪费我们的查询资源。针对这种情况，我们可以引人BloomFilter算法，在请求key查询之前，使用BloomFilter匹配。如果不存在，就不用去查询了（正确率百分之百）；如果存在，走原来的查询流程（有可能不存在的key混进去了）。

场景二：假如有一个很大的表，通过字段key判断是否存在，操作很重，如果存在就做一些操作，不存在就加入表中；可容许一定的误判。对应这种情况，我们也可以引入BloomFilter算法，通过key查询表判断存在否的方式可换成BloomFilter算法。如果存在，我们执行以前的逻辑（有一定的误判，业务也允许一定的错误）；如果不存在，也执行以前的逻辑。

BloomFilter是由一个长度为n的bit数组S和k个hash算法组成。先使bit数组的初始值为0.

添加值M：M经过k个hash算法计算后，得到：M1, M2 … Mk; 然后，使S[M1]=1,S[M2]=2... S[Mk]=1

判断值Y：Y经过k个hash算法计算后，得到：Y1,Y2... Yk。然后，判断S[Y1],S[Y2] … S[Yk] 是否都为1。如果有一个不为1，那这个Y就一定是不存在的，以前没添加过；如果都为1，那这个Y可能存在，也可能其他值添加后，影响了这次判断的结果。

我们要做的是尽量降低正确判断的误判率，资料显示，当 k = ln(2)* m/n 时（k是hash函数个数，m是bit数组的长度，n是加入值的个数），出错概率是最小的。

当然，如果我们要移除值，怎么办呢？当前的结构是没法实现的，我们可以通过在加一个等长的数据，存放每个bit位设置为1的次数，设置一次加1，取消一次减一。

布隆算法（BloomFilter）的更多相关文章

海量数据处理之布隆过滤器BloomFilter算法
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合.使用场景:数据量为100亿 ...
白话布隆过滤器BloomFilter
通过本文将了解到以下内容: 查找问题的一般思路布隆过滤器的基本原理布隆过滤器的典型应用布隆过滤器的工程实现场景说明: 本文阐述的场景均为普通单机服务器.并非分布式大数据平台,因为在大数据平台下 ...
布隆过滤器(BloomFilter)持久化
摘要 Bloomfilter运行在一台机器的内存上,不方便持久化(机器down掉就什么都没啦),也不方便分布式程序的统一去重.我们可以将数据进行持久化,这样就克服了down机的问题,常见的持久化方法包 ...
HBase之八--(3)：Hbase 布隆过滤器BloomFilter介绍
布隆过滤器( Bloom filters) 数据块索引提供了一个有效的方法,在访问一个特定的行时用来查找应该读取的HFile的数据块.但是它的效用是有限的.HFile数据块的默认大小是64KB,这个大 ...
【浅析】|白话布隆过滤器BloomFilter
通过本文将了解到以下内容: 查找问题的一般思路布隆过滤器的基本原理布隆过滤器的典型应用布隆过滤器的工程实现场景说明: 本文阐述的场景均为普通单机服务器.并非分布式大数据平台,因为在大数据平台下 ...
Spark布隆过滤器(bloomFilter)
数据过滤在很多场景都会应用到,特别是在大数据环境下.在数据量很大的场景实现过滤或者全局去重,需要存储的数据量和计算代价是非常庞大的.很多小伙伴第一念头肯定会想到布隆过滤器,有一定的精度损失,但是存储性 ...
Hbase 布隆过滤器BloomFilter介绍
转载自:http://blog.csdn.net/opensure/article/details/46453681 1.主要功能提高随机读的性能 2.存储开销 bloom filter的数据存在S ...
SpringBoot(18）---通过Lua脚本批量插入数据到Redis布隆过滤器
通过Lua脚本批量插入数据到布隆过滤器有关布隆过滤器的原理之前写过一篇博客: 算法(3)---布隆过滤器原理在实际开发过程中经常会做的一步操作,就是判断当前的key是否存在. 那这篇博客主要分为三 ...
程序员的算法课（14）-Hash算法-对海量url判重
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/m0_37609579/article/de ...

随机推荐

配置glance使用ceph作为后端存储
在ceph监视器上执行 1.创建pool池为glance服务创建pool池(因为我只有一个OSD节点,所以要将副本数设置为1) ceph osd pool create glance-images ...
LeetCode刷题4——子集
一.要求二.知识点 1.回溯算法回溯算法相当于穷举法加剪枝,回溯算法总是和深度优先同时出现的,采用深度优先策略回溯到根,且根节点的所有子树都被搜索一遍才结束,并剪掉不符合要求的结果三.解题思路 ...
kafka修改topic副本数
工作案例: 大数据开发用系统脚本自动在kafka建topic,检查后才发现副本数只有1个,存在数据丢失的风险.需要立刻把副本数改为3个. 开始干活,首先想到的是下面的命令: ${BIN_PATH}/k ...
luogu P4513 小白逛公园（区间合并）
链接:https://www.luogu.org/problemnew/show/P4513 思路: 很基础的区间合并,开四个数组: num: 区间数字的和 lsum:从左端点起最大连续字段和 rsu ...
spring-boot 使用 jackson 出错（五）
环境 jdk 6 tomcat 6.0.53 sts 4.4.2 maven 3.2.5 原因 spring boot 1.5.22.RELEASE 默认使用的 jackson 的版本是 2.8.x, ...
使用alias简化kubectl输入
在使用Kubernetes的过程中,我们需要经常使用kubectl(客户端)命令,经常敲下kubectl是非常繁琐的,使用Linux的alias可以为一些常见的命令起别名,这样使用起来就方便多了. ⒈ ...
C++字符转换等常用方法
下面是C++中字符编码格式转换(包括ANSI转换为UTF8,UTF8转换为ANSI,ANSI转换为unicode,unicode转换为ANSI,UTF8转换为unicode,unicode转换为UTF ...
记录 OpenCV 错误
最近在做一个"人脸识别"的项目,我想用OpenCV来分析图片中的人脸. 但是在测试的时候,程序报出“检测到0张脸” 可能的错误原因: 1.教程中OpenCV的版本问题,教程中用的版 ...
python + Pyglet ---播放视频
记得安装pyglet 包,AVbin(http://avbin.github.io/AVbin/Download.html) 参考链接: Pyglet教程 http://www.hawstein.co ...
C#中word文档转html
var path = Request.Url.Host + ":" + Request.Url.Port + list[i].AnnexPath; //html保存路径 strin ...

布隆算法（BloomFilter）

布隆算法（BloomFilter）的更多相关文章

随机推荐

热门专题