Bloom Filter学习
参考文献:
Bloom Filters - the math http://pages.cs.wisc.edu/~cao/papers/summary-cache/node8.html
Bloom Filter概念和原理 http://blog.csdn.net/jiaomeng/article/details/1495500
BloomFilter——大规模数据处理利器 http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html
一、简介
一种多哈希函数映射的快速查找算法,发表人:Bloom,年份:1970。
二、使用场景
快速判断某个元素是否属于某个集合(集合数据量庞大),不严格要求100%正确。
三、核心思想
Bloom Filter在时间空间这两个因素之外又引入了另一个因素:错误率。在使用Bloom Filter判断一个元素是否属于某个集合时,会有一定的错误率。也就是说,有可能把不属于这个集合的元素误认为属于这个集合(False Positive),但不会把属于这个集合的元素误认为不属于这个集合(False Negative)。在增加了错误率这个因素之后,Bloom Filter通过允许少量的错误来节省大量的存储空间。
四、原理
    
五、参数选定
m位的位数组
n个元素的集合 :S={x1, x2,…,xn}
k个相互独立的哈希函数,将每个元素映射到{1...m}的范围
结论:对于给定的m、n,当 k = ln(2)* m/n 时出错的概率是最小的。
Bloom Filter学习的更多相关文章
- 布隆过滤器(Bloom Filter)-学习笔记-Java版代码(挖坑ing)
		布隆过滤器解决"面试题: 如何建立一个十亿级别的哈希表,限制内存空间" "如何快速查询一个10亿大小的集合中的元素是否存在" 如题 布隆过滤器确实很神奇, 简单 ... 
- [爬虫学习笔记]基于Bloom Filter的url去重模块UrlSeen
		Url Seen用来做url去重.对于一个大的爬虫系统,它可能已经有百亿或者千亿的url,新来一个url如何能快速的判断url是否已经出现过非常关键.因为大的爬虫系统可能一秒钟就会下载 ... 
- Bloom Filter的基本原理和变种
		学习一个东西首先要知道这个东西是什么,可以做什么,接着再了解这个东西有什么好处和优势,然后再学习他的工作原理.下面我们分别从这三点简单介绍一下bloom filter,以及和他的变种. What:在允 ... 
- Bloom Filter解析
		布隆过滤器简介:https://www.cnblogs.com/Jack47/p/bloom_filter_intro.html 布隆过滤器详解:原文链接:http://www.cnblogs.com ... 
- [转载]布隆过滤器(Bloom Filter)
		[转载]布隆过滤器(Bloom Filter) 这部分学习资料来源:https://www.youtube.com/watch?v=v7AzUcZ4XA4 Filter判断不在,那就是肯定不在:Fil ... 
- Bloom Filter:海量数据的HashSet
		Bloom Filter一般用于数据的去重计算,近似于HashSet的功能:但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况. 1. 基本 ... 
- 探索C#之布隆过滤器(Bloom filter)
		阅读目录: 背景介绍 算法原理 误判率 BF改进 总结 背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量数据结构.通俗来说就是在大数据集合下高效判断某个成员是 ... 
- Bloom Filter 布隆过滤器
		Bloom Filter 是由伯顿.布隆(Burton Bloom)在1970年提出的一种多hash函数映射的快速查找算法.它实际上是一个很长的二进制向量和一些列随机映射函数.应用在数据量很大的情况下 ... 
- 【转】探索C#之布隆过滤器(Bloom filter)
		原文:蘑菇先生,http://www.cnblogs.com/mushroom/p/4556801.html 背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量 ... 
随机推荐
- coderforces 721b
			题目描述: B. Passwords time limit per test 2 seconds memory limit per test 256 megabytes input standard ... 
- Linux使用ssh公钥实现免密码登录Linux
			ssh 无密码登录要使用公钥与私钥.linux下可以用用ssh-keygen生成公钥/私钥对,下面我以CentOS为例.有机器A(192.168.1.155),B(192.168.1.181).现想A ... 
- Visual Studio 设置多核编译
			1.选择一个指定项目右击 -> 属性 -> 配置属性 -> C/C++ -> 命令行 在附加选项中输入:/MP4 或者/MP8 等,后面的那个数字是指定CPU 核的数量,可以自 ... 
- 带你入门带你飞Ⅰ 使用Mocha + Chai + Sinon单元测试Node.js
			目录 1. 简介 2. 前提条件 3. Mocha入门 4. Mocha实战 被测代码 Example 1 Example 2 Example 3 5. Troubleshooting 6. 参考文档 ... 
- Tornado实战项目(伪JD商城)
			预备知识 在之前tornado商城项目中,在开始之前需要引入一些项目设计知识,如接口,抽象方法抽象类,组合,程序设计原则等,个人理解项目的合理设计可增加其灵活性, 降低数据之间的耦合性,提高稳定性,下 ... 
- CryptoJS遇到的小坑
			CryptoJs是前端加密用的,具体介绍:http://code.google.com/p/crypto-js/ 对应国内免费CDN 服务:http://www.bootcdn.cn/crypto-j ... 
- Error:The network adaptor could not establish the connection问题的解决办法
			最近在学习hibernate 5.0.4, 自然而然就需要使用数据库,由于本人工作中一直使用Oracle,于是在自己的电脑上安装了Oracle 12.1.0, 安装完成使用一直没有问题,突然有一天使 ... 
- 双系统先装Windows,后装linux的原因
			由于windows在安装时,boot loader会预设装在MBR及分割槽的boot sector中,而且并不提供开机选单:而linux在安装时安装程序可以选择是安装在MBR中还是boot secto ... 
- Oracle去掉字符串首尾
			今天刚注册博客,与大家分享一下今天的新的: 今天在报表中碰到这样一个需求,数据库里面的一个字段是其他的3个字段合成的,但是现在读取数据只要中间的那一部分, 思考了许久这个字段的中间部分不是固定的,头和 ... 
- iterm2配色
			#enables colorin the terminal bash shell export export CLICOLOR= #sets up thecolor scheme for list e ... 
