布隆过滤器解决"面试题:

  • 如何建立一个十亿级别的哈希表,限制内存空间"
  • "如何快速查询一个10亿大小的集合中的元素是否存在"

如题

布隆过滤器确实很神奇, 简单来说就是通过多次hash将key存进一个集合中,可以灰常快速地在数亿级的数据中快速查找!

实现布隆过滤器需要用bit位存储的数组, 千万别用int[] ,毕竟一个int整形占32位,一个int = 32 bit!

但是Java没有bit, 那用byte吧,一个byte(8位)当做8位的bit来算吧,每一位代表一个具体的值来进行hash; 解析hash和设置hsah值的时候, 需要位运算提取出每位上的值(每位上的0或1)!

但是java的byte还需要分正负,默认一个byte的范围为[-128,127] !

部分学习借鉴搬运的博客原文链接

https://www.cnblogs.com/liyulong1982/p/6013002.html

https://baike.baidu.com/item/布隆过滤器/5384697?fr=aladdin

笔记整理

算法核心

  1. 首先需要k个hash函数,每个函数可以把key散列成为1个整数
  2. 初始化时,需要一个长度为n比特的数组,每个比特位初始化为0
  3. 某个key加入集合时,用k个hash函数计算出k个散列值,并把数组中对应的比特位置为1
  4. 判断某个key是否在集合时,用k个hash函数计算出k个散列值,并查询数组中对应的比特位,如果所有的比特位都是1,认为在集合中。

    优点:

    不需要存储key,使用节省空间

缺点:

  1. 算法判断key在集合中时,有一定(通过优化算法可以降到很低)的概率key其实不在集合中
  2. 无法删除

典型的应用场景:

  • 某些存储系统的设计中,会存在空查询缺陷:当查询一个不存在的key时,需要访问慢设备,导致效率低下。
  • 比如一个前端页面的缓存系统,可能这样设计:先查询某个页面在本地是否存在,如果存在就直接返回,如果不存在,就从后端获取。但是当频繁从缓存系统查询一个页面时,缓存系统将会频繁请求后端,把压力导入后端。
  • 这是只要增加一个bloom算法的服务,后端插入一个key时,在这个服务中设置一次

    需要查询后端时,先判断key在后端是否存在,这样就能避免后端的压力.
  • 最近还学到, 布隆过滤器还可以防止缓存雪崩, 原理同上.

黑客通过大量请求数据库中不存在的key, 导致遍历整个缓存和数据路进行查询, 每次都无法让前端的缓存发挥效果,缓存系统将会频繁请求后端数据库,很快就会造成系统雪崩.

因此可以利用布隆过滤器进行解决这个问题.

  • 解决思路: 将数据库中的key全部建立到布隆过滤器中, 每次请求先查询布隆过滤器; 如果存在,则放行, 毕竟布隆过滤器会有很少部分key会误算!
  • 注意: 通过布隆过滤器的值,极大地概率存在着这个key;不通过的key, 那么一定不存在.
模拟布隆过滤器; 先挖坑,扔在这里

一个byte分为8位用,故1250万的byte数组就可以了.

该数组大小为: .

package com.szs.test;

public class myBloomFilter {

	//一个boolean只占一个字节, 一个字节是八位,把每个字节拆成八位来用
//一个byte分为8位用,故可哈希出10亿个具体的数据,1.250亿的byte数组就可以了,但是需要125M更多的内存.
// 但是具体题目一般都有内存的限制(比如100M 以内), 还有其他的情况需要考虑!
//10^9 == 10亿 , 故int就够了.( int的取值范围为: -2^31——2^31-1,即-2147483648——2147483647 , 大概最高值为2*10^9)
//如下数组为1.25*10^7大小.
private static byte[] array01 = new byte[12500000];
private static byte[] array02 = new byte[12500000];
private static byte[] array03 = new byte[12500000];
/** 简单的布隆过滤器的main测试类
* @param args
*/
public static void main(String[] args) { } /**
* 查找一个key,判断是否存在;若存在返回true,否则返回false
* @param x
*/
public static boolean findKey(long x) {
return true;
}
/**
*
* @param x
*/
public static void insertKey(long x) { }
/**
* 删除一个key, 暴力for循环进行删除
* @param x
*/
public static void deleteKey(long x) { }
/**
* 尝试hash后,返回对应的hash值,
*/
public static void hashKeyThreeTimes(long x) { }
/**
* 存储hash值到数组中的index下标
* @param x
*/
public static void storeHashCode(long hashCode) { } }
其他思路
  • 量子计算, 一个量子有八种状态,其实就是八进制,两个量子就可以枚举64种状态; 依次类推,十亿级别数据量的时间复杂度为: log810^9= 9 .故时间复杂度为O(1).
  • 并行计算: 多处理进行处理.
  • 增加系统内存,增加JVM虚拟机的可分配内存.

布隆过滤器(Bloom Filter)-学习笔记-Java版代码(挖坑ing)的更多相关文章

  1. [转载]布隆过滤器(Bloom Filter)

    [转载]布隆过滤器(Bloom Filter) 这部分学习资料来源:https://www.youtube.com/watch?v=v7AzUcZ4XA4 Filter判断不在,那就是肯定不在:Fil ...

  2. 布隆过滤器 Bloom Filter 2

    date: 2020-04-01 17:00:00 updated: 2020-04-01 17:00:00 Bloom Filter 布隆过滤器 之前的一版笔记 点此跳转 1. 什么是布隆过滤器 本 ...

  3. [转载] 布隆过滤器(Bloom Filter)详解

    转载自http://www.cnblogs.com/haippy/archive/2012/07/13/2590351.html   布隆过滤器[1](Bloom Filter)是由布隆(Burton ...

  4. 布隆过滤器(Bloom Filter)详解

    直观的说,bloom算法类似一个hash set,用来判断某个元素(key)是否在某个集合中.和一般的hash set不同的是,这个算法无需存储key的值,对于每个key,只需要k个比特位,每个存储一 ...

  5. 布隆过滤器(Bloom Filter)详解——基于多hash的概率查找思想

    转自:http://www.cnblogs.com/haippy/archive/2012/07/13/2590351.html   布隆过滤器[1](Bloom Filter)是由布隆(Burton ...

  6. 布隆过滤器(Bloom Filter)的原理和实现

    什么情况下需要布隆过滤器? 先来看几个比较常见的例子 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, ...

  7. 浅谈布隆过滤器Bloom Filter

    先从一道面试题开始: 给A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL. 这个问题的本质在于判断一个元素是否在一个集合中.哈希表以O(1) ...

  8. 【面试突击】-缓存击穿(布隆过滤器 Bloom Filter)

    原文地址:https://blog.csdn.net/fouy_yun/article/details/81075432 前面的文章介绍了缓存的分类和使用的场景.通常情况下,缓存是加速系统响应的一种途 ...

  9. 探索C#之布隆过滤器(Bloom filter)

    阅读目录: 背景介绍 算法原理 误判率 BF改进 总结 背景介绍 Bloom filter(后面简称BF)是Bloom在1970年提出的二进制向量数据结构.通俗来说就是在大数据集合下高效判断某个成员是 ...

随机推荐

  1. 进程间之异步通信:信号Signal

    信号 信号是进程间通信机制中唯一的异步通信机制:信号机制是进程间传递消息的一种机制,是异步进程中通信的一种方式 一个进程一旦接收到信号就会打断原来的程序执行流程来处理信号 内核处理一个进程收到的软中断 ...

  2. ou can mix require and export. You can't mix import and module.exports.

    ou can mix require and export. You can't mix import and module.exports.

  3. 修改jar的.class文件,并重新打包

    使用javassist修改.class文件,并重新打包 Javassist是一款字节码编辑工具,可以直接编辑和生成Java生成的字节码,以达到对.class文件进行动态修改的效果.熟练使用这套工具,可 ...

  4. 【视频开发】【计算机视觉】doppia编译之四:安装其他库、编译和运行doppia

    (与本节内容无关///////////////////////////保存图片参数为--gui.save_all_screenshots true////////////////////)  在我们安 ...

  5. redis主从分节

    概述 在现有企业中80%公司大部分使用的是redis单机服务,在实际的场景当中单一节点的redis容易面临风险. 面临问题 机器故障.我们部署到一台 Redis 服务器,当发生机器故障时,需要迁移到另 ...

  6. ztree取消之前选中状态并设置新的选中

    var zTreeObject = $.fn.zTree.getZTreeObj("treeId"); var node = zTreeObject.getNodeByParam( ...

  7. 使用pyinstaller将python打包成exe文件

    步骤: 1)win+R 输入cmd打开dos窗口   2)先安装pyinstaller: pip install pyinstaller 3)然后使用cd命令进入项目文件的路径下:   4)再使用命令 ...

  8. ubuntu18.04LTS服务器安装matlab4a

    下载matlab安装文件共包含三个文件:MATHWORKS_R2014A.part1.rar, MATHWORKS_R2014A.part2.rar, 相关文件(Crack)解压:$sudo apt ...

  9. Java开发笔记(一百零九)XML报文的定义和解析

    前面介绍了JSON格式的报文解析,虽然json串短小精悍,也能有效表达层次结构,但是每个元素只能找到对应的元素值,不能体现更丰富的样式特征.比如某个元素除了要传输它的字符串文本,还想传输该文本的类型. ...

  10. 【NOIP2017】宝藏 题解(状压DP)

    题目描述 参与考古挖掘的小明得到了一份藏宝图,藏宝图上标出了 nnn 个深埋在地下的宝藏屋, 也给出了这 nnn 个宝藏屋之间可供开发的m mm 条道路和它们的长度. 小明决心亲自前往挖掘所有宝藏屋中 ...