HBase scan setBatch和setCaching的区别

HBase的查询实现只提供两种方式：

1、按指定RowKey获取唯一一条记录，get方法（org.apache.hadoop.hbase.client.Get）

2、按指定的条件获取一批记录，scan方法（org.apache.Hadoop.Hbase.client.Scan）

实现条件查询功能使用的就是scan方式，scan在使用时有以下几点值得注意：
1、scan可以通过setCaching与setBatch方法提高速度（以空间换时间）；
2、scan可以通过setStartRow与setEndRow来限定范围（[start，end）start是闭区间，end是开区间）。范围越小，性能越高。
通过巧妙的RowKey设计使我们批量获取记录集合中的元素挨在一起（应该在同一个Region下），可以在遍历结果时获得很好的性能。
3、scan可以通过setFilter方法添加过滤器，这也是分页、多条件查询的基础。

scan中的setCaching与setBatch方法的区别是什么呢？

setCaching设置的值为每次rpc的请求记录数，默认是1；cache大可以优化性能，但是太大了会花费很长的时间进行一次传输。

setBatch设置每次取的column size；有些row特别大，所以需要分开传给client，就是一次传一个row的几个column。

batch和caching和hbase table column size共同决意了rpc的次数。

通过下表可以看出caching/batch/rpc次数的关系：

10 rows， 2 families， 10column per family，total：200 cell

缓存	批量处理	Result个数	RPC次数	说明
1	1	200	201	每个列都作为一个Result实例返回。最后还多一个RPC确认扫描完成
200	1	200	2	每个Result实例都只包含一列的值，不过它们都被一次RPC请求取回
2	10	20	11	批量参数是一行所包含的列数的一半，所以200列除以10，需要20个result实例。同时需要10次RPC请求取回。
5	100	10	3	对一行来讲，这个批量参数实在是太大了，所以一行的20列都被放入到了一个Result实例中。同时缓存为5，所以10个Result实例被两次RPC请求取回。
5	20	10	3	同上，不过这次的批量值与一行列数正好相同，所以输出与上面一种情况相同
10	10	20	3	这次把表分成了较小的result实例，但使用了较大的缓存值，所以也是只用了两次RPC请求就返回了数据

要计算一次扫描操作的RPC请求的次数，用户需要先计算出行数和每行列数的乘积。然后用这个值除以批量大小和每行列数中较小的那个值。最后再用除得的结果除以扫描器缓存值。用数学公式表示如下:

RPC请求的次数=(行数x每行的列数)/
Min(每行的列数，批量大小)/扫描器缓存

此外，还需要一些请求来打开和关闭扫描器。用户或许需要把这两次请求也考虑在内。

下图展示了缓存和批量两个参数如何联动。

小的批量值使服务器端把3个列装入一个Result实例，同时扫描器缓存为6，使每个RPC请求传输6行，即6个被批量封装的Result实例。如果没有指定批量大小，而是指定了扫描器缓存，那么一个调用结果就能包含所有的行，因为每一行都包含在一个Result实例中。只有当用户使用批量模式后，行内(intra-row)扫描功能才会启用。

HBase scan setBatch和setCaching的区别的更多相关文章

HBase scan setBatch和setCaching的区别【转】
转自:http://blog.csdn.net/caoli98033/article/details/44650497 HBase的查询实现只提供两种方式: 1.按指定RowKey获取唯一一条记录,g ...
Hbase Scan的重要参数
Scan是操作Hbase中非常常用的一个操作,虽然前面的Hbase API操作简单的介绍了Scan的操作,但不够详细,由于Scan非常常用,关于其详细的整理也是很有必要的. Scan HBase中的数 ...
HBase Scan Timeout-OutOfOrderScannerNextException
最近迁移数据时需要执行大Scan,HBase集群经常碰到以下日志: Exception in thread "main" org.apache.hadoop.hbase.DoNot ...
图解Nosql（hbase）与传统数据库的区别
图解Nosql(hbase)与传统数据库的区别http://www.aboutyun.com/thread-7804-1-1.html(出处: about云开发) 问题导读:1.nosql数据库能否删 ...
<HBase><Scan>
Overview The Scan operation for HBase. Scan API All operations are identical to Get with the excepti ...
HBase Scan流程分析
HBase Scan流程分析 HBase的读流程目前看来比较复杂,主要由于: HBase的表数据分为多个层次,HRegion->HStore->[HFile,HFile,...,MemSt ...
HBase Scan,Get用法
Scan,get用法 1. get help帮助信息从下列get用法信息可以看出 get 后面可以跟table表名,rowkey,以及column,value.但是如果想通过get直接获取一个表中的 ...
Hbase Scan的方法
public static void main(String[] args) throws IOException { //Scan类常用方法说明 //指定需要的family或column ,如果没有 ...
MySQL、HBase、ES的特点和区别
MySQL:关系型数据库,主要面向OLTP,支持事务,支持二级索引,支持sql,支持主从.Group Replication架构模型(本文全部以Innodb为例,不涉及别的存储引擎). HBase:基 ...

随机推荐

kaggle竞赛-保险转化-homesite
时间格式的转化查看数据类型查看DataFrame的详细信息填充缺失值 category 数据类型转化模型参数设定结论该项目是针对kaggle中的homesite进行的算法预测,使用xgbo ...
JAVA课后作业01
一.关于枚举的问题 public class EnumTest { public static void main(String[] args) { Size s=Size.SMALL; Size t ...
mobx 添加 isEmpty 装饰器
避免 obj.xxx && obj.xxx.length 这样的写法 store import * as u from "lodash"; function isE ...
swiper嵌套小demo(移动端触摸滑动插件)
swiper(移动端触摸滑动插件) tip:自己敲得Swiper 的小demo,可以复制粘贴看看效果哦. swiper的js包css包下链接地址 : https://github.com/Clear ...
360自带--JS开发工具箱
360自带–JS开发工具箱 360自带–JS开发工具箱 360自带–JS开发工具箱
Restful API设计规范
理解RESTful架构 Restful API设计指南理解RESTful架构越来越多的人开始意识到,网站即软件,而且是一种新型的软件. 这种"互联网软件"采用客户端/服务器模式 ...
js多选下拉框
1.js原生实现 1.1:引用JS文件 /*! jQuery v1.12.4 | (c) jQuery Foundation | jquery.org/license */ !function(a,b ...
office 2016密钥
Office 2016 Pro Plus Retail 版激活密钥:[Key]:3XJTG-YNBMY-TBH9M-CWB2Y-YWRHH[Key]:6TCQ3-NBBJ2-RTJCM-HFRKV-G ...
GDB调试原理——ptrace系统调用
本文由霸气的菠萝原创,转载请注明出处:http://www.cnblogs.com/xsln/p/ptrace.html 全部关于gdb的文章索引请点这里引子: gdb基本上大家都在用,你有没有想过 ...
SharePoint开启错误提示
1,打开80下面的Web.config文件2,CallStack="true" 和 <customErrors mode="Off" /> < ...

HBase scan setBatch和setCaching的区别

HBase scan setBatch和setCaching的区别的更多相关文章

随机推荐

热门专题