细谈布隆过滤器及Redis实现

【细谈布隆过滤器及Redis实现】的更多相关文章

细谈布隆过滤器及Redis实现

何为布隆过滤器? 本质上是一种数据结构,是1970年由布隆提出的.它实际上是一个很长的二进制向量(位图)和一系列随机映射函数(哈希函数).可以用于检索一个元素是否在一个集合中. 数据结构: 布隆过滤器是一个 bit 向量或者说 bit 数组,就是一个二进制的数据,数据存放0或1.如果我们要映射一个值到布隆过滤器中,我们需要使用多个不同的哈希函数生成多个哈希值, 并对每个生成的哈希值指向的 bit 位置为 1. 布隆过滤器的日常使用在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素…

浅谈布隆过滤器Bloom Filter

先从一道面试题开始: 给A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL. 这个问题的本质在于判断一个元素是否在一个集合中.哈希表以O(1)的时间复杂度来查询元素,但付出了空间的代价.在这个大数据问题中,就算哈希表有100%的空间利用率,也至少需要50亿*64Byte的空间,4G肯定是远远不够的. 当然我们可能想到使用位图,每个URL取整数哈希值,置于位图相应的位置上.4G大概有320亿个bit,看上去是可行的.但位图适合对海量的.取值…

OI视角浅谈布隆过滤器

简要谈及布隆过滤器 Preface 不负责的出题人扔了一道5e5,2M卡内存的题,标算布隆过滤器,然而std自己用std::set 70M碾过去了. 没学OI时候草草看过这个,不过忘得差不多了. 今天自己考试时候写的假布隆过滤器在$10^5$时候都会有10来个误判(而且这空间怎么卡啊). 网上的资料大抵都是工程向,这里从OI角度随意谈谈布隆过滤器吧. 所谓“布隆过滤器”? 可以先浅显地理解为低配版的多哈希 ,因为这东西的最大卖点就是空间复杂度较哈希小得多:但是正确性又不能丢太多,所以就在压缩空…

浅谈redis的HyperLogLog与布隆过滤器

首先,HyperLogLog与布隆过滤器都是针对大数据统计存储应用场景下的知名算法. HyperLogLog是在大数据的情况下关于数据基数的空间复杂度优化实现,布隆过滤器是在大数据情况下关于检索一个元素是否在一个集合中的空间复杂度优化后的实现. 在传统的数据量比较低的应用服务中,我们要实现数据基数和数据是否存在分析的功能,通常是简单的把所有数据存储下来,直接count一下就是基数了,而直接检索一个元素是否在一个集合中也很简单. 但随着数据量的急剧增大,传统的方式已经很难达到工程上的需求.过大的数…