Hbase中的BloomFilter（布隆过滤器）

（1） Bloomfilter在hbase中的作用

　　　　Hbase利用bloomfilter来提高随机读（get）的性能，对于顺序读（scan）而言，设置Bloomfilter是没有作用的（0.92版本以后，如果设置了bloomfilter为rowcol，对于执行了qualifier的scan有　　　　一定的优化）

（2） Bloomfilter在hbase中的开销

　　　　Bloomfilter是一个列族(cf)级别的配置属性，如果在表中设置了bloomfilter，那么hbase会在生成storefile时包含一份bloomfilter结构的数据，称其为MetaBlock与DataBlock（真实的KeyValue　　　　数据）一起由LRUBlockCache维护。所以开启bloomfilter会有一定的存储及内存cache开销。

（3） Hbase中的bloomfilter的类型及使用

　　　　a) ROW，根据KeyValue中的row来过滤storefile。举例：（该情况可以针对列族和列都相同，只有rowkey不同的情况下，可以使用ROW来过滤。）

　　　　　　　　如：假设有2个storfile文件sf1和sf2，

　　　　　　　　sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

　　　　　　　　sf2包含kv3（r3 cf:q2 v）、kv4（r4 cf:q2 v）

　　　　　　　　如果设置了cf属性的bloomfilter为ROW，那么get（r1）时会过滤sf2，get（r3）时会过滤sf1.

　　　　b) ROWCOL，根据KeyValue中的row+qualifier来过滤storefile。举例：（该情况是针对列族相同，列和rowkey不同的情况，可以用ROWCOL来过滤。）

　　　　　　　　如：假设有2个storefile文件sf1和sf2，

　　　　　　　　Sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

　　　　　　　　Sf2包含kv3（r1 cf:q2 v）、kv4（r2 cf:q2 v）

　　　　　　　　如果设置了cf属性中的bloomfilter为ROW，无论get（r1，q1）还是get（r1，q2）都会读取sf1+sf2；而如果设置了cf属性中的bloomfilter为ROWCOL，那么get（r1，q1）就会过滤　　　　　　　　　sf2，get（r1，q2）就会过滤sf1。

（4）ROWCOL与ROW对比

i. ROWCOL只对指定列（Qualifier）的随机读取Get有效，如果应用中的随机读取Get只含有row，而且没有指定读取哪个qualifier，那么设置ROWCOL是没有效果的，这种场景就应该使用ROW。

ii. 如果随机读中指定的列（Qualifier）的数目大于等于2，在0.9版本中ROWCOL是无效的，0.9版本以后是有效的。

iii. 如果同一个row多个列的数据在应用上是同一时间put的，那么ROW与ROWCOL的效果近似相同，而ROWCOL只对指定了列的随机读才会有效，所以设置为ROW更佳。

iv. ROWCOL与ROW只在名称上有联系，ROWCOL并不是ROW的扩展，不能取代ROW。

Hbase中的BloomFilter（布隆过滤器）的更多相关文章

第三百五十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详 ...
三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如 ...
将bloomfilter(布隆过滤器)集成到scrapy-redis中
Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如 ...
BloomFilter(布隆过滤器)
原文链接:http://blog.csdn.net/qq_38646470/article/details/79431659 1.概念: 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保 ...
BloomFilter布隆过滤器
BloomFilter 简介当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1.检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些 ...
BloomFilter布隆过滤器使用
从上一篇可以得知,BloomFilter的关键在于hash算法的设定和bit数组的大小确定,通过权衡得到一个错误概率可以接受的结果. 算法比较复杂,也不是我们研究的范畴,我们直接使用已有的实现. go ...
使用BloomFilter布隆过滤器解决缓存击穿、垃圾邮件识别、集合判重
Bloom Filter是一个占用空间很小.效率很高的随机数据结构,它由一个bit数组和一组Hash算法构成.可用于判断一个元素是否在一个集合中,查询效率很高(1-N,最优能逼近于1). 在很多场景下 ...
Redis解读（4）：Redis中HyperLongLog、布隆过滤器、限流、Geo、及Scan等进阶应用
Redis中的HyperLogLog 一般我们评估一个网站的访问量,有几个主要的参数: pv,Page View,网页的浏览量 uv,User View,访问的用户一般来说,pv 或者 uv 的统计 ...
Spark布隆过滤器(bloomFilter)
数据过滤在很多场景都会应用到,特别是在大数据环境下.在数据量很大的场景实现过滤或者全局去重,需要存储的数据量和计算代价是非常庞大的.很多小伙伴第一念头肯定会想到布隆过滤器,有一定的精度损失,但是存储性 ...

随机推荐

usermod
环境: [root@vm-xiluhua][/]# cat /etc/redhat-release CentOS Linux release (Core) usermod usage:(本人使用的版本 ...
[转]SVN客户端解决authorization failed问题
转载地址:http://blog.csdn.net/patdz/article/details/7669591 1. 创建文件夹 E:\STWSource\STWLibrarySVN 2.在文件夹ST ...
arraylist与linkedlist的区别与性能测试
/** *arraylist和linkedlist的适用场合. **/ import java.util.List; import java.util.ArrayList; import java.u ...
Java菜鸟培训第二天
HTML——超文本标记语言…………… 静态网页:不需要访问数据库. 动态网页:在网上发布的好的,我们能通过网络浏览到的都是动态的,需要访问数据库. <html>--开始标签 <hea ...
批量删除.pyo后缀的文件
find . -name "*.pyo" -exec rm {} \; 删除以.pyo后缀的所有文件 find . ! -name "*.pyo" -exec ...
[问题2014A11] 复旦高等代数 I（14级）每周一题（第十三教学周）
[问题2014A11] 设 \(n\) 阶方阵 \(A,B\) 满足: \((A+B)^2=A+B\), \(\mathrm{r}(A+B)=\mathrm{r}(A)+\mathrm{r}(B)\ ...
hadoop2.0初识1.3
1.配置分布式hadoop 1.1 准备三台测试机(虚拟机就可以) 1.1.1 将life-hadoop虚拟机克隆2个分别为life-hadoop02和life-hadoop03 1.1.2 查看ip ...
MVC 4 用Nuget安装组件后的常见错误
1,[A]System.Web.WebPages.Razor.Configuration.HostSection 无法强制转换为 [B]System.Web.WebPages.Razor.Config ...
jquery总结04-DOM节点操作
一般js操作节点 ①创建节点(元素文本)document.createElement innerHTML ②添加属性 setAttribute ③加入文档 appendChild 操作繁琐还有兼容性 ...
12款最佳Linux命令行终端工具,　20款优秀的 Linux 终端仿真器
12款最佳Linux命令行终端工具如果你跟我一样,整天要花大量的时间使用Linux命令行,而且正在寻找一些可替代系统自带的老旧且乏味的终端软件,那你真是找对了文章.我这里搜集了一些非常有趣的 ...

Hbase中的BloomFilter（布隆过滤器）

Hbase中的BloomFilter（布隆过滤器）的更多相关文章

随机推荐

热门专题