LevelDB 学习笔记1:布隆过滤器

  • 底层是位数组,初始都是 0
  • 插入时,用 k 个哈希函数对插入的数字做哈希,并用位数组长度取余,将对应位置 1
  • 查找时,做同样的哈希操作,查看这些位的值
    • 如果所有位都是 1,说明数字可能存在
    • 如果有某个位不是 1,说明数字一定不存在

数学结论

影响布隆过滤器精度的参数有

  • 哈希函数的个数 k
  • 布隆过滤器位数组的容量 m
  • 布隆过滤器插入的数据数量 n

对于给定的 m 和 n,要想最小化错误率(假阳性),k 应该取

\[k=\frac{m}{n} \ln 2 \]

要求错误率不大于\(\varepsilon\),k 取最优的情况下,m 应该至少为

\[m \geq - 1.44 \log _{2} \varepsilon * n \]

布隆过滤器的优缺点

优点

  • 空间效率高,可以在使用有限内存的情况下处理海量数据

    • 1% 错误率并使用最佳 k 值的布隆过滤器,每个元素只需要使用约 9.6 位
  • 插入和查询都是常数复杂度,即 O(k)

缺点

  • 存在误判
  • 删除元素困难,因为简单地将对应的位置 0 会影响其他元素的判断
    • 可以用一种叫 Counting Bloom filter 的变体

LevelDB 中的布隆过滤器

LevelDB 中利用布隆过滤器判断指定的 key 值是否存在于 sstable 中

  • 若过滤器认为 key 不在 sstable 中,那么就没必要查找这个 sstable 了
  • 否则,key 有可能在 sstable 中,应该做查找

使用布隆过滤器可以有效的减少调用 DB::Get() 时的访存次数,从而减小读放大

LevelDB 中布隆过滤器的实现是 BloomFilterPolicy,它是接口类 FilterPolicy 的实现

  • FilterPolicy 类决定了查找过程中要不要读取某个 sstable
  • 允许用户自定义 FilterPolicy 的子类来应用不同的过滤策略

LevelDB 实现时做了优化,它并不是使用 k 个哈希函数,而是应用 rsa2008 中提出的方法只生成一次哈希值,然后用 double-hashing 的方式生成一组哈希值

uint32_t h = BloomHash(keys[i]);
const uint32_t delta = (h >> 17) | (h << 15); // Rotate right 17 bits
for (size_t j = 0; j < k_; j++) {
const uint32_t bitpos = h % bits;
array[bitpos / 8] |= (1 << (bitpos % 8));
h += delta;
}

一般实现布隆过滤器时,都会选择非加密哈希算法

  • 加密哈希算法,比如 MD5、SHA1,安全性较高,难以找到碰撞或通过加密值反推原文
  • 非加密哈希算法,比如 MurMurHash、CRC32、FNV,计算速度快
  • LevelDB 实现了一个类似于 MurMurHash 的非加密哈希算法

其他应用场景

缓存穿透

做查询的时候,缓存没有命中,就会到数据库中去找,特别地,如果查找一个不存在的 key,那么是一定无法命中缓存,必须去查数据库的,如果有人恶意地使用大量请求来查不存在的 key,就会导致数据库压力过大,甚至崩溃,这种现象称为缓存穿透

用布隆过滤器我们可以直接将这些针对不存在的 key 发起的请求过滤掉

LevelDB 学习笔记1:布隆过滤器的更多相关文章

  1. LevelDB学习笔记 (1):初识LevelDB

    LevelDB学习笔记 (1):初识LevelDB 1. 写在前面 1.1 什么是levelDB LevelDB就是一个由Google开源的高效的单机Key/Value存储系统,该存储系统提供了Key ...

  2. LevelDB学习笔记 (3): 长文解析memtable、跳表和内存池Arena

    LevelDB学习笔记 (3): 长文解析memtable.跳表和内存池Arena 1. MemTable的基本信息 我们前面说过leveldb的所有数据都会先写入memtable中,在leveldb ...

  3. LevelDB 学习笔记2:合并

    LevelDB 学习笔记2:合并 部分图片来自 RocksDB 文档 Minor Compaction 将内存数据库刷到硬盘的过程称为 minor compaction 产出的 L0 层的 sstab ...

  4. leveldb 学习笔记之VarInt

    在leveldb在查找比较时的key里面保存key长度用的是VarInt,何为VarInt呢,就是变长的整数,每7bit代表一个数,第8bit代表是否还有下一个字节, 1. 比如小于128(一个字节以 ...

  5. angular学习笔记(十六) -- 过滤器(2)

    本篇主要介绍angular自定义的过滤器: 直接看例子: <!DOCTYPE html> <html ng-app="MyFilter"> <head ...

  6. angular学习笔记(十六) -- 过滤器(1)

    本篇主要介绍过滤器的基本用法: 过滤器用来对数据进行格式的转换,数据格式的转化与逻辑无关,因此,我们使用过滤器来进行这些操作: {{... | filter2: 参数1,参数2... }} expre ...

  7. Qt5学习笔记(消息过滤器)

    T06EventFilter.pro HEADERS += \ MyWidget.h SOURCES += \ MyWidget.cpp QT += widgets gui MyWidget.h #i ...

  8. leveldb学习笔记

    LevelDB由 Jeff Dean和Sanjay Ghemawat开发. LevelDb是能够处理十亿级别规模Key-Value型数据持久性存储的C++ 程序库. 特别如下: 1.LevelDb是一 ...

  9. Vue学习笔记十:过滤器

    目录 公共过滤器的写法 简易过滤器+带参数过滤器+多过滤器 私有过滤器 公共过滤器的写法 过滤器的写法还是很简单的 ,如下 <p>{{ msg | filtermsg }}</p&g ...

随机推荐

  1. 使用Python 模拟RSA 加密与解密

    一.关于 RSA具体原理请移步其他文章,本文主要使用Python 来模拟RSA 算法的实现过程 二.简要分析 在RSA算法中,存在以下几个参数: 1.大素数p.q 2.n = p *q 3.Phi_n ...

  2. vim设置自动添加头部注释

    #自己改了改vim开头文件,如下图# 友友们可以直接修改·SetTitle() if v:lang =~ "utf8$" || v:lang =~ "UTF-8$&quo ...

  3. Linux移植总结--uboot从不同介质上启动分析

    @ 目录 1.启动地址 2.uboot占用内存 3.2440从NAND启动 4.2440从NOR启动 5.某开发板从SPI FLASH启动 1.启动地址 先以2440开发板为例,SDRAM(0x300 ...

  4. 6月4日 python学习总结 初次接触jQuery

    1. jQuery是什么?是一个轻量级的,兼容多浏览器的JS库(write less, do more) 1. 是一个工具,简单方便的实现一些DOM操作 2. 不用jQuery完全可以,但是不明智. ...

  5. python在json文件中提取IP和域名

    # qianxiao996精心制作 #博客地址:https://blog.csdn.net/qq_36374896 import re def openjson(path): f = open(pat ...

  6. python练习册 每天一个小程序 第0002题

    1 #-*-coding:utf-8-*- 2 __author__ = 'Deen' 3 ''' 4 题目描述: 5 将 0001 题生成的 200 个激活码(或者优惠券)保存到 MySQL 关系型 ...

  7. 深入理解RPC—序列化

    深入理解RPC-序列化 xiaofang233 2020-09-18 16:38:22 1024 收藏 6分类专栏: 分布式服务版权为什么需要序列化?首先,我们得知道什么是序列化与反序列化. 我们先回 ...

  8. redis持久存储RDB和AOF的区别及优缺点

    1.前言 最近在项目中使用到Redis做缓存,方便多个业务进程之间共享数据.由于Redis的数据都存放在内存中,如果没有配置持久化,redis重启后数据就全丢失了,于是需要开启redis的持久化功能, ...

  9. Java入门之基础程序设计

    1.Java语言特点了解 1. java语言:   有些语言提供了可移植性.垃圾收集等机制,但是没有提供一个大型的库.如果想要有酷炫的绘图功能.网络连接功能或者数据库存取功能,就必须动手编写代码.Ja ...

  10. 设计一个简单的devops系统

    前言 公司设计的RDMS挺好用的,我也照猫画虎简单的设计一个DevOps系统,与大家分享,不足之处欢迎拍砖,以免误人子弟 前置条件 gitlab gitlab-runner k8s 1. gitlab ...