Hbase Scan的重要参数

　　Scan是操作Hbase中非常常用的一个操作，虽然前面的Hbase API操作简单的介绍了Scan的操作，但不够详细，由于Scan非常常用，关于其详细的整理也是很有必要的。

　　Scan

　　HBase中的数据表通过划分成一个个的Region来实现数据的分片，每一个Region关联一个RowKey的范围区间，而每一个Region中的数据，按RowKey的字典顺序进行组织。

　　正是基于这种设计，使得HBase能够轻松应对这类查询：“指定一个RowKey的范围区间，获取该区间的所有记录”，这类查询在HBase被称之为Scan。

　　1 . 构建Scan，指定startRow与stopRow，如果未指定的话会进行全表扫描

　　2 . 获取ResultScanner

　　3 . 遍历查询结果

　　4 . 关闭ResultScanner

　　public void stringFilter() throws IOException { Configuration conf = HBaseConfiguration.create(); // 获取Table实例 HTable table = new HTable(conf, user); // 构建Scan Scan scan = new Scan(); scan = scan.setStartRow(Bytes.toBytes(startRowxxx)).setStopRow(Bytes.toBytes(StopRowxxx)); RowFilter filter = new RowFilter( CompareFilter.CompareOp.EQUAL, new BinaryComparator(Bytes.toBytes(224382618261914241)) ); scan.setFilter(filter); // 获取resultScanner ResultScanner scanner = table.getScanner(scan); Result result = null; // 处理结果 while ((result = scanner.next()) != null) { byte[] value = result.getValue(Bytes.toBytes(ship), Bytes.toBytes(addr)); if (value == null || value.length == 0) { continue; } System.out.println( new String(value) ); System.out.println(hello World); } // 关闭ResultScanner scanner.close(); table.close(); }

　　其它的设置参数

　　Caching: 设置一次RPC请求批量读取的Results数量

　　下面的示例代码设定了一次读取回来的Results数量为100：

　　scan.setCaching(100);

　　Client每一次往RegionServer发送scan请求，都会批量拿回一批数据(由Caching决定过了每一次拿回的Results数量)，然后放到本次的Result Cache中：

　　应用每一次读取数据时，都是从本地的Result Cache中获取的。如果Result Cache中的数据读完了，则Client会再次往RegionServer发送scan请求获取更多的数据。

　　Batch: 设置每一个Result中的列的数量

　　下面的示例代码设定了每一个Result中的列的数量的限制值为3：

　　scan.setBatch(3);

　　该参数适用于一行数据过大的场景，这样，一行数据被请求的列会被拆成多个Results返回给Client。

　　举例说明如下：

　　假设一行数据中共有十个列：

　　{Col01，Col02，Col03，Col04，Col05，Col06，Col07，Col08，Col09, Col10}

　　假设Scan中设置的Batch为3，那么，这一行数据将会被拆成4个Results返回：

　　Result1 - {Col01，Col02，Col03}Result2 - {Col04，Col05，Col06}Result3 - {Col07，Col08，Col09}Result4 - {Col10}

　　关于Caching参数，我们说明了是Client每一次从RegionServer侧获取到的Results的数量，上例中，一行数据被拆成了4个Results，这将会导致Caching中的计数器被减了4次。结合Caching与Batch，我们再列举一个稍复杂的例子：

　　假设，Scan的参数设置如下：

　　final byte[] start = Bytes.toBytes(“Row1”);

　　final byte[] stop = Bytes.toBytes(“Row5”);

　　Scan scan = new Scan();

　　scan.withStartRow(start).withStopRow(stop);

　　scan.setCaching(10);

　　scan.setBatch(3);

　　待读取的数据RowKey与所关联的列集如下所示：

　　Row1: {Col01，Col02，Col03，Col04，Col05，Col06，Col07，Col08，Col09，Col10}

　　Row2: {Col01，Col02，Col03，Col04，Col05，Col06，Col07，Col08，Col09，Col10，Col11}

　　Row3: {Col01，Col02，Col03，Col04，Col05，Col06，Col07，Col08，Col09，Col10}

　　再回顾一下Caching与Batch的定义：

　　Caching: 影响一次读取返回的Results数量。

　　Batch: 限定了一个Result中所包含的列的数量，如果一行数据被请求的列的数量超出Batch限制，那么这行数据会被拆成多个Results。

　　那么， Client往RegionServer第一次请求所返回的结果集如下所示：

　　Result1 - Row1: {Col01，Col02，Col03}

　　Result2 - Row1: {Col04，Col05，Col06}

　　Result3 - Row1: {Col07，Col08，Col09}

　　Result4 - Row1: {Col10}

　　Result5 - Row2: {Col01，Col02，Col03}

　　Result6 - Row2: {Col04，Col05，Col06}

　　Result7 - Row2: {Col07，Col08，Col09}

　　Result8 - Row2: {Col10，Col11}

　　Result9 - Row3: {Col01，Col02，Col03}

　　Result10 - Row3: {Col04，Col05，Col06}

　　Limit: 限制一次Scan操作所获取的行的数量

　　同SQL语法中的limit子句，限制一次Scan操作所获取的行的总量：

　　scan.setLimit(10000);

　　注意：Limit参数是在2.0版本中新引入的。但在2.0.0版本中，当Batch与Limit同时设置时，似乎还存在一个BUG，初步分析问题原因应该与BatchScanResultCache中的numberOfCompletedRows计数器逻辑处理有关。因此，暂时不建议同时设置这两个参数。

　　CacheBlock: RegionServer侧是否要缓存本次Scan所涉及的HFileBlocks

　　scan.setCacheBlocks(true);

　　e) Raw Scan: 是否可以读取到删除标识以及被删除但尚未被清理的数据

　　scan.setRaw(true);

　　MaxResultSize: 从内存占用量的维度限制一次Scan的返回结果集

　　下面的示例代码将返回结果集的最大值设置为5MB：

　　scan.setMaxResultSize(5 * 1024 * 1024);

　　Reversed Scan: 反向扫描

　　普通的Scan操作是按照字典顺序从小到大的顺序读取的，而Reversed Scan则恰好相反：

　　scan.setReversed(true);

　　带Filter的Scan

　　Filter可以在Scan的结果集基础之上，对返回的记录设置更多条件值，这些条件可以与RowKey有关，可以与列名有关，也可以与列值有关，还可以将多个Filter条件组合在一起，等等。

　　最常用的Filter是SingleColumnValueFilter，基于它，可以实现如下类似的查询：

　　“返回满足条件{列I:D的值大于等于10}的所有行”

　　示例代码如下：

　　Filter丰富了HBase的查询能力，但使用Filter之前，需要注意一点：Filter可能会导致查询响应时延变的不可控制。因为我们无法预测，为了找到一条符合条件的记录，背后需要扫描多少数据量，如果在有效限制了Scan范围区间(通过设置StartRow与StopRow限制)的前提下，该问题能够得到有效的控制。这些信息都要求使用Filter之前应该详细调研自己的业务数据模型。

Hbase Scan的重要参数的更多相关文章

由hbase.client.scanner.caching参数引发的血案（转）
转自:http://blog.csdn.net/rzhzhz/article/details/7536285 环境描述 Hadoop 0.20.203.0Hbase 0.90.3Hive 0.80.1 ...
HBase Scan Timeout-OutOfOrderScannerNextException
最近迁移数据时需要执行大Scan,HBase集群经常碰到以下日志: Exception in thread "main" org.apache.hadoop.hbase.DoNot ...
<HBase><Scan>
Overview The Scan operation for HBase. Scan API All operations are identical to Get with the excepti ...
HBase Scan流程分析
HBase Scan流程分析 HBase的读流程目前看来比较复杂,主要由于: HBase的表数据分为多个层次,HRegion->HStore->[HFile,HFile,...,MemSt ...
HBase Scan,Get用法
Scan,get用法 1. get help帮助信息从下列get用法信息可以看出 get 后面可以跟table表名,rowkey,以及column,value.但是如果想通过get直接获取一个表中的 ...
HBase scan setBatch和setCaching的区别
HBase的查询实现只提供两种方式: 1.按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get) 2.按指定的条件获取一批记录,scan ...
HBase scan setBatch和setCaching的区别【转】
转自:http://blog.csdn.net/caoli98033/article/details/44650497 HBase的查询实现只提供两种方式: 1.按指定RowKey获取唯一一条记录,g ...
hbase scan 的例子
/** * Created by han on 2016/1/28. */ import org.apache.hadoop.conf.Configuration; import org.apache ...
关于thenao.scan() fn函数参数的说明
theano.scan()原型: theano.scan( fn, sequences=None, outputs_info=None, non_sequences=None, n_steps=Non ...

随机推荐

微信小程序 --- page.js文件
page.js文件是写当前 page.wxml 页面的 JS 脚本文件: 示例: //获取应用实例 const app = getApp() Page({ data: { navComOneOnOff ...
Linux系统下JDK安装配置（转载）
转载出处:http://www.cnblogs.com/xuliangxing/p/7066913.html 本文主要介绍的是如何是Linux环境下安装JDK的,因为Linux环境下,很多时候也离不开 ...
170524、java.lang.IllegalArgumentException: No converter found for return value of type异常解决
错误原因及解决步骤 1.原因:这是因为springmvc默认是没有对象转换成json的转换器的,需要手动添加jackson依赖. 2.解决步骤: 手动添加jackson依赖到pom.xml文件中 &l ...
SaltStack配置管理-jinja模板
上一篇:SaltStack配置管理-状态间关系需求:需要apache配置文件里面监听的端口是每个minion本地的地址 saltstack默认的模板是jinjia模板参考文档:http://doc ...
HDU 1104 Remainder(BFS 同余定理)
题目链接 http://acm.hdu.edu.cn/showproblem.php?pid=1104 在做这道题目一定要对同余定理有足够的了解,所以对这道题目对同余定理进行总结首先要明白计算机里的 ...
ubuntu下完全卸载opencv3.1.0
在ubuntu下删除opencv需要以下步骤: 1.进入opencv的源代码文件夹下的release(这是你在安装opencv时候自己命名的,cmake时候所在的目录) 2.执行以下命令 sudo m ...
SLF4J其实只是一个门面服务而已，他并不是真正的日志框架，真正的日志的输出相关的实现还是要依赖Log4j、logback等日志框架的。
小结: 1.加层: 每一种日志框架都有自己单独的API,要使用对应的框架就要使用其对应的API,这就大大的增加应用程序代码对于日志框架的耦合性. 为了解决这个问题,就是在日志框架和应用程序之间架设一个 ...
numpy中的convolve的理解
https://blog.csdn.net/u011599639/article/details/76254442 函数 numpy.convolve(a, v, mode=‘full’),这是num ...
10.Git远程仓库
到目前为止,我们已经掌握了如何在Git仓库里对一个文件进行时光穿梭,你再也不用担心文件备份或者丢失的问题了.可是有用过集中式版本控制系统SVN的童鞋会站出来说,这些功能在SVN里早就有了,没看出Git ...
python+Nginx+uWSGI使用说明
安装环境 Remote: CentOS 7.4 x64 (django.example.com) Python: Python3.6.5 Django: Django 2.0.4 nWSGI: uw ...

Hbase Scan的重要参数

Hbase Scan的重要参数的更多相关文章

随机推荐

热门专题