Hbase 布隆过滤器BloomFilter介绍

转载自:http://blog.csdn.net/opensure/article/details/46453681

1、主要功能

提高随机读的性能

2、存储开销

bloom filter的数据存在StoreFile的meta中，一旦写入无法更新，因为StoreFile是不可变的。Bloomfilter是一个列族（cf）级别的配置属性，如果你在表中设置了Bloomfilter，那么HBase会在生成StoreFile时包含一份bloomfilter结构的数据，称其为MetaBlock；MetaBlock与DataBlock（真实的KeyValue数据）一起由LRUBlockCache维护。所以，开启bloomfilter会有一定的存储及内存cache开销。

3、控制粒度

a)ROW

根据KeyValue中的row来过滤storefile

举例：假设有2个storefile文件sf1和sf2，

sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

sf2包含kv3（r3 cf:q1 v）、kv4（r4 cf:q1 v）

如果设置了CF属性中的bloomfilter为ROW，那么get(r1)时就会过滤sf2，get(r3)就会过滤sf1

b)ROWCOL

根据KeyValue中的row+qualifier来过滤storefile

举例：假设有2个storefile文件sf1和sf2，

sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

sf2包含kv3（r1 cf:q2 v）、kv4（r2 cf:q2 v）

如果设置了CF属性中的bloomfilter为ROW，无论get(r1,q1)还是get(r1,q2)，都会读取sf1+sf2；而如果设置了CF属性中的bloomfilter为ROWCOL，那么get(r1,q1)就会过滤sf2，get(r1,q2)就会过滤sf1

4、常用场景

1、根据key随机读时，在StoreFile级别进行过滤

2、读数据时，会查询到大量不存在的key，也可用于高效判断key是否存在

5、举例说明

假设x、y、z三个key存在于table中，W不存在

使用Bloom Filter可以帮助我们减少为了判断key是否存在而去做Scan操作的次数

step1）分别对x、y、z运算hash函数取得bit mask，写到Bloom Filter结构中

step2）对W运算hash函数，从Bloom Filter查找bit mask

如果不存在：三个Bit位至少有一个为0，W肯定不存在该（Bloom Filter不会漏判）

如果存在：三个Bit位全部全部等于1，路由到负责W的Region执行scan，确认是否真的存在（Bloom Filter有极小的概率误判）

6、源码解析

1.get操作会enable bloomfilter帮助剔除掉不会用到的Storefile

在scan初始化时（get会包装为scan）对于每个storefile会做shouldSeek的检查，如果返回false，则表明该storefile里没有要找的内容，直接跳过

if (memOnly == false

            && ((StoreFileScanner) kvs).shouldSeek(scan, columns)) {

          scanners.add(kvs);

}

shouldSeek方法：如果是scan直接返回true表明不能跳过，然后根据bloomfilter类型检查。

if (!scan.isGetScan()) {

        return true;

}

byte[] row = scan.getStartRow();

switch (this.bloomFilterType) {

  case ROW:

    return passesBloomFilter(row, 0, row.length, null, 0, 0);    

  case ROWCOL:

    if (columns != null && columns.size() == 1) {

      byte[] column = columns.first();

      return passesBloomFilter(row, 0, row.length, column, 0, column.length);

    }

    // For multi-column queries the Bloom filter is checked from the

    // seekExact operation.

    return true;    

  default:

    return true;

}

2.指明qualified的scan在配了rowcol的情况下会剔除不会用掉的StoreFile。

对指明了qualify的scan或者get进行检查：seekExactly

// Seek all scanners to the start of the Row (or if the exact matching row

// key does not exist, then to the start of the next matching Row).

if (matcher.isExactColumnQuery()) {

  for (KeyValueScanner scanner : scanners)

  scanner.seekExactly(matcher.getStartKey(), false);

} else {

  for (KeyValueScanner scanner : scanners)

  scanner.seek(matcher.getStartKey());

}

如果bloomfilter没命中，则创建一个很大的假的keyvalue，表明该storefile不需要实际的scan

public boolean seekExactly(KeyValue kv, boolean forward)

      throws IOException {

    if (reader.getBloomFilterType() != StoreFile.BloomType.ROWCOL ||

        kv.getRowLength() == 0 || kv.getQualifierLength() == 0) {

      return forward ? reseek(kv) : seek(kv);

    }    

    boolean isInBloom = reader.passesBloomFilter(kv.getBuffer(),

        kv.getRowOffset(), kv.getRowLength(), kv.getBuffer(),

        kv.getQualifierOffset(), kv.getQualifierLength());

    if (isInBloom) {

      // This row/column might be in this store file. Do a normal seek.

      return forward ? reseek(kv) : seek(kv);

    }    

    // Create a fake key/value, so that this scanner only bubbles up to the top

    // of the KeyValueHeap in StoreScanner after we scanned this row/column in

    // all other store files. The query matcher will then just skip this fake

    // key/value and the store scanner will progress to the next column.

    cur = kv.createLastOnRowCol();

    return true;

}

这边为什么是rowcol才能剔除storefile纳，很简单，scan是一个范围，如果是row的bloomfilter不命中只能说明该rowkey不在此storefile中，但next rowkey可能在。而rowcol的bloomfilter就不一样了，如果rowcol的bloomfilter没有命中表明该qualifiy不在这个storefile中，因此这次scan就不需要scan此storefile了！

7、总结

1.任何类型的get（基于rowkey或row+col）Bloom Filter的优化都能生效，关键是get的类型要匹配Bloom Filter的类型

2.基于row的scan是没办法走Bloom Filter的。因为Bloom Filter是需要事先知道过滤项的。对于顺序scan是没有事先办法知道rowkey的。而get是指明了rowkey所以可以用Bloom Filter，scan指明column同理。

3.row+col+qualify的scan可以去掉不存在此qualify的storefile，也算是不错的优化了，而且指明qualify也能减少流量，因此scan尽量指明qualify

Hbase 布隆过滤器BloomFilter介绍的更多相关文章

HBase之八--(3)：Hbase 布隆过滤器BloomFilter介绍
布隆过滤器( Bloom filters) 数据块索引提供了一个有效的方法,在访问一个特定的行时用来查找应该读取的HFile的数据块.但是它的效用是有限的.HFile数据块的默认大小是64KB,这个大 ...
HBase - Filter - 过滤器的介绍以及使用 | 那伊抹微笑
博文作者:那伊抹微笑 csdn 博客地址:http://blog.csdn.net/u012185296 itdog8 地址链接 : http://www.itdog8.com/thread-214- ...
布隆过滤器(BloomFilter)持久化
摘要 Bloomfilter运行在一台机器的内存上,不方便持久化(机器down掉就什么都没啦),也不方便分布式程序的统一去重.我们可以将数据进行持久化,这样就克服了down机的问题,常见的持久化方法包 ...
Spark布隆过滤器(bloomFilter)
数据过滤在很多场景都会应用到,特别是在大数据环境下.在数据量很大的场景实现过滤或者全局去重,需要存储的数据量和计算代价是非常庞大的.很多小伙伴第一念头肯定会想到布隆过滤器,有一定的精度损失,但是存储性 ...
白话布隆过滤器BloomFilter
通过本文将了解到以下内容: 查找问题的一般思路布隆过滤器的基本原理布隆过滤器的典型应用布隆过滤器的工程实现场景说明: 本文阐述的场景均为普通单机服务器.并非分布式大数据平台,因为在大数据平台下 ...
【浅析】|白话布隆过滤器BloomFilter
通过本文将了解到以下内容: 查找问题的一般思路布隆过滤器的基本原理布隆过滤器的典型应用布隆过滤器的工程实现场景说明: 本文阐述的场景均为普通单机服务器.并非分布式大数据平台,因为在大数据平台下 ...
HBase - Filter - 过滤器的介绍以及使用
1 过滤器HBase 的基本 API,包括增.删.改.查等.增.删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(Get)或者根据行键的范围来查询( ...
海量数据处理之布隆过滤器BloomFilter算法
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法.通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合.使用场景:数据量为100亿 ...
一道腾讯面试题：如何快速判断某 URL 是否在 20 亿的网址 URL 集合中？布隆过滤器
何为布隆过滤器还是以上面的例子为例: 判断逻辑: 多次哈希: Guava的BloomFilter 创建BloomFilter 最终还是调用: 使用: 算法特点使用场景假设遇到这样一个问题:一个网 ...

随机推荐

C++ 类模板二（类模版与友元函数）
//类模版与友元函数 #include<iostream> using namespace std; template<typename T> class Complex{ p ...
PHP 中 json_encode中文处理、urlencode方法、post中文乱码
当使用php自带的json_encode对数据进行编码时,中文都会变成unicode,导致不可读.如:对字符串”厦门“进行json_encode后,输出的是"\u53a6\u95e8&quo ...
该如何将MathType公式粘贴到文档中
MathType是一款非常好用的数学公式编辑器,因为它与很多的文档处理器都能够很好地兼容,因此其使用范围非常的大.MathType公式编辑器编辑的公式与数学符号等都符号国际期刊的出版标准,并且上手容易 ...
Idea定位打开文件在左边工程中的文件路径
勾选掉Autoscoll from Source
Jquery实现Bootstrap树形列表
http://bookshadow.com/weblog/2014/05/17/jquery-bootstrap-tree-list/
（转）使用 PyInstaller 把python程序 .py转为 .exe 可执行程序
最近使用Python为项目开发一款绘图工具(绘出声场三维模型).因为希望能把Python脚本发布为脱离Python平台运行的可执行程序,比如单个的exe文件.PyInstaller恰满足这个需求.本 ...
Android开发：《Gradle Recipes for Android》阅读笔记(翻译)4.4——自定义代码集合
问题: 你想要在项目中使用非标准的代码目录. 解决方案: 在gradle的build配置里面使用sourceSets属性. 讨论: Android分发的samples里面使用多个代码目录,使得通用的文 ...
selenium调用Firefox和Chrome需要注意的一些问题，和出现的报错selenium:expected [object undefined] undefined to be a string
在高版本selenium下如:selenium3.4.3 1.高版本的selenium需要浏览器安装一些补丁驱动 Firefox:geckodriver 下载网址:http://download.cs ...
Oracle数据库设计第三范式
一.数据库设计范式及其意义和不足数据库的设计范式是数据库设计所需要满足的规范,数据库的规范化是优化表的结构和优化把数据组织到表中的方式,这样使数据更明确,更简洁.实践中,通常把一个数据库分成两个或多 ...
全局安装了express框架，但是无法使用express指令的问题
错误截图: 产生这个错误的原因是:我安装的是express4版本,需要安装express-generator才能使用express命令将express-generator安装后就都解决了:

Hbase 布隆过滤器BloomFilter介绍

Hbase 布隆过滤器BloomFilter介绍的更多相关文章

随机推荐

热门专题