数据分页处理系列之二：HBase表数据分页处理

HBase是Hadoop大数据生态技术圈中的一项关键技术，是一种用于分布式存储大数据的列式数据库，关于HBase更加详细的介绍和技术细节，朋友们可以在网络上进行搜寻，笔者本人在接下来的日子里也会写一个HBase方面的技术专题，有兴趣的朋友们可以稍微的期待一下。不过本章节的重点是介绍下HBase表数据的分页处理，其他的就不多说了。

首先说一下表数据分页中不可回避的一个指标：总记录数。在关系数据库中很容易统计出记录总数，但在HBase中，这却是一个大难题，至少在目前，朋友们根本不要奢望能够通过类似“SELECT COUNT(*) FROM TABLE”的方式统计出一个表的总行数。HBase本身提供的表行数统计功能是一个MapReduce任务，极为耗时，所以在对HBase表数据进行分页处理时，我们只能忽略总记录数这个统计指标了。

如果总记录数不确定，那么总分页数也是不确定的，是否存在下一页也是未知的，以及由此引发的其他问题，都是我们在进行HBase表数据分页处理时需要特别注意的。

1、HBase表数据分页模型类

import java.io.Serializable;

import java.text.DecimalFormat;

import java.util.ArrayList;

import java.util.List;

import org.apache.hadoop.hbase.client.Result;

/**

 * Description: HBase表数据分页模型类。<br>

 * 利用此类可管理多个HBaseQualifierModel对象。

 * Copyright: Copyright (c) 2014<br>

 * Company: 河南电力科学研究院智能电网所<br>

 * @author shangbingbing 2014-01-01编写

 * @version 1.0

 */

public class HBasePageModel implements Serializable {

    private static final long serialVersionUID = 330410716100946538L;

    private int pageSize = 100;

    private int pageIndex = 0;

    private int prevPageIndex = 1;

    private int nextPageIndex = 1;

    private int pageCount = 0;

    private int pageFirstRowIndex = 1;

    private byte[] pageStartRowKey = null;

    private byte[] pageEndRowKey = null;

    private boolean hasNextPage = true;

    private int queryTotalCount = 0;

    private long startTime = System.currentTimeMillis();

    private long endTime = System.currentTimeMillis();

    private List<Result> resultList = new ArrayList<Result>();

    public HBasePageModel(int pageSize) {

        this.pageSize = pageSize;

    }

    /**

     * 获取分页记录数量

     * @return

     */

    public int getPageSize() {

        return pageSize;

    }

    /**

     * 设置分页记录数量

     * @param pageSize

     */

    public void setPageSize(int pageSize) {

        this.pageSize = pageSize;

    }

    /**

     * 获取当前页序号

     * @return

     */

    public int getPageIndex() {

        return pageIndex;

    }

    /**

     * 设置当前页序号

     * @param pageIndex

     */

    public void setPageIndex(int pageIndex) {

        this.pageIndex = pageIndex;

    }

    /**

     * 获取分页总数

     * @return

     */

    public int getPageCount() {

        return pageCount;

    }

    /**

     * 设置分页总数

     * @param pageCount

     */

    public void setPageCount(int pageCount) {

        this.pageCount = pageCount;

    }

    /**

     * 获取每页的第一行序号

     * @return

     */

    public int getPageFirstRowIndex() {

        this.pageFirstRowIndex = (this.getPageIndex() - 1) * this.getPageSize() + 1;

        return pageFirstRowIndex;

    }

    /**

     * 获取每页起始行键

     * @return

     */

    public byte[] getPageStartRowKey() {

        return pageStartRowKey;

    }

    /**

     * 设置每页起始行键

     * @param pageStartRowKey

     */

    public void setPageStartRowKey(byte[] pageStartRowKey) {

        this.pageStartRowKey = pageStartRowKey;

    }

    /**

     * 获取每页结束行键

     * @return

     */

    public byte[] getPageEndRowKey() {

        return pageEndRowKey;

    }

    /**

     * 设置每页结束行键

     * @param pageStartRowKey

     */

    public void setPageEndRowKey(byte[] pageEndRowKey) {

        this.pageEndRowKey = pageEndRowKey;

    }

    /**

     * 获取上一页序号

     * @return

     */

    public int getPrevPageIndex() {

        if(this.getPageIndex() > 1) {

            this.prevPageIndex = this.getPageIndex() - 1;

        } else {

            this.prevPageIndex = 1;

        }

        return prevPageIndex;

    }

    /**

     * 获取下一页序号

     * @return

     */

    public int getNextPageIndex() {

        this.nextPageIndex = this.getPageIndex() + 1;

        return nextPageIndex;

    }

    /**

     * 获取是否有下一页

     * @return

     */

    public boolean isHasNextPage() {

//这个判断是不严谨的，因为很有可能剩余的数据刚好够一页。

        if(this.getResultList().size() == this.getPageSize()) {

            this.hasNextPage = true;

        } else {

            this.hasNextPage = false;

        }

        return hasNextPage;

    }

    /**

     * 获取已检索总记录数

     */

    public int getQueryTotalCount() {

        return queryTotalCount;

    }

    /**

     * 获取已检索总记录数

     * @param queryTotalCount

     */

    public void setQueryTotalCount(int queryTotalCount) {

        this.queryTotalCount = queryTotalCount;

    }

    /**

     * 初始化起始时间（毫秒）

     */

    public void initStartTime() {

        this.startTime = System.currentTimeMillis();

    }

    /**

     * 初始化截止时间（毫秒）

     */

    public void initEndTime() {

        this.endTime = System.currentTimeMillis();

    }

    /**

     * 获取毫秒格式的耗时信息

     * @return

     */

    public String getTimeIntervalByMilli() {

        return String.valueOf(this.endTime - this.startTime) + "毫秒";

    }

    /**

     * 获取秒格式的耗时信息

     * @return

     */

    public String getTimeIntervalBySecond() {

        double interval = (this.endTime - this.startTime)/1000.0;

        DecimalFormat df = new DecimalFormat("#.##");

        return df.format(interval) + "秒";

    }

    /**

     * 打印时间信息

     */

    public void printTimeInfo() {

        LogInfoUtil.printLog("起始时间：" + this.startTime);

        LogInfoUtil.printLog("截止时间：" + this.endTime);

        LogInfoUtil.printLog("耗费时间：" + this.getTimeIntervalBySecond());

    }

    /**

     * 获取HBase检索结果集合

     * @return

     */

    public List<Result> getResultList() {

        return resultList;

    }

    /**

     * 设置HBase检索结果集合

     * @param resultList

     */

    public void setResultList(List<Result> resultList) {

        this.resultList = resultList;

    }

}

综上所述，我们没有对总记录数和总页数进行统计处理，并且用“已检索记录数”代替了“总记录数”。另外，对每次检索的耗时信息进行了统计记录，便于开发人员调试统计效率。

2、HBase表数据分页检索方法

就像关系数据库Oracle那样，我们进行数据检索时往往附带有很多的检索条件，HBase表数据检索也不例外。HBase表数据检索条件通常有以下几种：RowKey行键范围（如果不确定范围的话则面向全表）、过滤器、数据版本。所以，当我们决定要设计一个比较通用的数据分页检索接口方法时，就不得不考虑以上几种检索条件。

/**

* 分页检索表数据。<br>

* （如果在创建表时为此表指定了非默认的命名空间，则需拼写上命名空间名称，格式为【namespace:tablename】）。

* @param tableName 表名称(*)。

* @param startRowKey 起始行键(可以为空，如果为空，则从表中第一行开始检索)。

* @param endRowKey 结束行键(可以为空)。

* @param filterList 检索条件过滤器集合(不包含分页过滤器；可以为空)。

* @param maxVersions 指定最大版本数【如果为最大整数值，则检索所有版本；如果为最小整数值，则检索最新版本；否则只检索指定的版本数】。

* @param pageModel 分页模型(*)。

* @return 返回HBasePageModel分页对象。

*/

public static HBasePageModel scanResultByPageFilter(String tableName, byte[] startRowKey, byte[] endRowKey, FilterList filterList, int maxVersions, HBasePageModel pageModel) {

    if(pageModel == null) {

        pageModel = new HBasePageModel(10);

    }

    if(maxVersions <= 0 ) {

        //默认只检索数据的最新版本

        maxVersions = Integer.MIN_VALUE;

    }

    pageModel.initStartTime();

    pageModel.initEndTime();

    if(StringUtils.isBlank(tableName)) {

        return pageModel;

    }

    HTable table = null;

    try {

        //根据HBase表名称，得到HTable表对象，这里用到了笔者本人自己构建的一个表信息管理类。

        table = HBaseTableManageUtil.getHBaseTable(tableName);

        int tempPageSize = pageModel.getPageSize();

        boolean isEmptyStartRowKey = false;

        if(startRowKey == null) {

            //则读取表的第一行记录，这里用到了笔者本人自己构建的一个表数据操作类。

            Result firstResult = HBaseTableDataUtil.selectFirstResultRow(tableName, filterList);

            if(firstResult.isEmpty()) {

                return pageModel;

            }

            startRowKey = firstResult.getRow();

        }

        if(pageModel.getPageStartRowKey() == null) {

            isEmptyStartRowKey = true;

            pageModel.setPageStartRowKey(startRowKey);

        } else {

            if(pageModel.getPageEndRowKey() != null) {

                pageModel.setPageStartRowKey(pageModel.getPageEndRowKey());

            }

            //从第二页开始，每次都多取一条记录，因为第一条记录是要删除的。

            tempPageSize += 1;

        }

        Scan scan = new Scan();

        scan.setStartRow(pageModel.getPageStartRowKey());

        if(endRowKey != null) {

            scan.setStopRow(endRowKey);

        }

        PageFilter pageFilter = new PageFilter(pageModel.getPageSize() + 1);

        if(filterList != null) {

            filterList.addFilter(pageFilter);

            scan.setFilter(filterList);

        } else {

            scan.setFilter(pageFilter);

        }

        if(maxVersions == Integer.MAX_VALUE) {

            scan.setMaxVersions();

        } else if(maxVersions == Integer.MIN_VALUE) {

        } else {

            scan.setMaxVersions(maxVersions);

        }

        ResultScanner scanner = table.getScanner(scan);

        List<Result> resultList = new ArrayList<Result>();

        int index = 0;

        for(Result rs : scanner.next(tempPageSize)) {

            if(isEmptyStartRowKey == false && index == 0) {

                index += 1;

                continue;

            }

            if(!rs.isEmpty()) {

                resultList.add(rs);

            }

            index += 1;

        }

        scanner.close();

        pageModel.setResultList(resultList);

    } catch (Exception e) {

        e.printStackTrace();

    } finally {

        try {

            table.close();

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    int pageIndex = pageModel.getPageIndex() + 1;

    pageModel.setPageIndex(pageIndex);

    if(pageModel.getResultList().size() > 0) {

        //获取本次分页数据首行和末行的行键信息

        byte[] pageStartRowKey = pageModel.getResultList().get(0).getRow();

        byte[] pageEndRowKey = pageModel.getResultList().get(pageModel.getResultList().size() - 1).getRow();

        pageModel.setPageStartRowKey(pageStartRowKey);

        pageModel.setPageEndRowKey(pageEndRowKey);

    }

    int queryTotalCount = pageModel.getQueryTotalCount() + pageModel.getResultList().size();

    pageModel.setQueryTotalCount(queryTotalCount);

    pageModel.initEndTime();

    pageModel.printTimeInfo();

    return pageModel;

}

顺便贴出“获取HBase表第一行数据”的接口方法。

/**

 * 检索指定表的第一行记录。<br>

 * （如果在创建表时为此表指定了非默认的命名空间，则需拼写上命名空间名称，格式为【namespace:tablename】）。

 * @param tableName 表名称(*)。

 * @param filterList 过滤器集合，可以为null。

 * @return

 */

public static Result selectFirstResultRow(String tableName,FilterList filterList) {

    if(StringUtils.isBlank(tableName)) return null;

    HTable table = null;

    try {

        table = HBaseTableManageUtil.getHBaseTable(tableName);

        Scan scan = new Scan();

        if(filterList != null) {

            scan.setFilter(filterList);

        }

        ResultScanner scanner = table.getScanner(scan);

        Iterator<Result> iterator = scanner.iterator();

        int index = 0;

        while(iterator.hasNext()) {

            Result rs = iterator.next();

            if(index == 0) {

                scanner.close();

                return rs;

            }

        }

    } catch (IOException e) {

        e.printStackTrace();

    } finally {

        try {

            table.close();

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    return null;

}

3、HBase表数据分页检索应用实例

HBasePageModel pageModel = new HBasePageModel(pageSize);

pageModel = scanResultByPageFilter(“DLQX:SZYB_DATA”,null,null,null,pageModel);

if(pageModel.getResultList().size() == 0) {

    //本页没有数据，说明已经是最后一页了。

    return;

}

作者：商兵兵

单位：河南省电力科学研究院智能电网所

QQ：52190634

主页：http://www.cnblogs.com/shangbingbing

空间：http://shangbingbing.qzone.qq.com

数据分页处理系列之二：HBase表数据分页处理的更多相关文章

数据分页处理系列之一：Oracle表数据分页检索SQL
关于Oracle数据分页检索SQL语法,网络上比比皆是,花样繁多,本篇也是笔者本人在网络上搜寻的比较有代表性的语法,绝非本人原创,贴在这里,纯粹是为了让"数据分页专题系列"看起 ...
HBase表数据分页处理
HBase表数据分页处理 HBase是Hadoop大数据生态技术圈中的一项关键技术,是一种用于分布式存储大数据的列式数据库,关于HBase更加详细的介绍和技术细节,朋友们可以在网络上进行搜寻,笔者本人 ...
HBase(三): Azure HDInsigt HBase表数据导入本地HBase
目录: hdfs 命令操作本地 hbase Azure HDInsight HBase表数据导入本地 hbase hdfs命令操作本地hbase: 参见 HDP2.4安装(五):集群及组件安装 , ...
一种HBase表数据迁移方法的优化
1.背景调研: 目前存在的hbase数据迁移主要分如下几类: 根据上图,可以看出: 其实主要分为两种方式:(1)hadoop层:因为hbase底层是基于hdfs存储的,所以可以通过把hdfs上的数据拷 ...
大数据学习系列之二 ----- HBase环境搭建(单机)
引言在上一篇中搭建了Hadoop的单机环境,这一篇则搭建HBase的单机环境环境准备 1,服务器选择阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核内 ...
数据分页处理系列之三：Neo4j图数据分页处理
首先简单介绍下Neo4j,Neo4j是一个高性能的NOSQL图形数据库,它将结构化数据存储在网络上而不是表中,它是一个嵌入式的.基于磁盘的.具备完全的事务特性的Java持久化引擎,但是它将结构化数 ...
议：如何将树形菜单形式的数据转化成HTML的二维表（相同内容需合并单元格）
一般做OA类管理系统,经常涉及到“组织架构”的概念,那么像这种有上下层级关系的数据一般会做成树形菜单的方式显示,底层代码必定会用到递归算法.这篇随笔的目的就是要谈谈除了用树形菜单来显示这种上下层级关系 ...
Pandas系列（二）- DataFrame数据框
一.初识DataFrame dataFrame 是一个带有索引的二维数据结构,每列可以有自己的名字,并且可以有不同的数据类型.你可以把它想象成一个 excel 表格或者数据库中的一张表DataFram ...
HBase表数据的转移之使用自定义MapReduce
目标:将fruit表中的一部分数据,通过MR迁入到fruit_mr表中 Step1.构建ReadFruitMapper类,用于读取fruit表中的数据 package com.z.hbase_mr; ...

随机推荐

IOS----友盟推送详解
这两天好好的研究了下推送这功能,关于它我将分成两部分来讲,一.IOS手机端,二.Servlet服务端,今天先讲下IOS端一.感受下面讲下我对推送这个功能在IOS下的感受,这个算是我做了服务端的功能 ...
Materialize - 响应式 Material Design 框架
由谷歌创建和设计的 Material Design(材料设计)是一种设计语言,结合成功的设计的经典原则以及创新科技.谷歌的目标是开发一个设计系统,让所有的产品在任何平台上拥有统一的用户体验. Mate ...
带给你灵感：30个超棒的 SVG 动画展示【下篇】
前端开发人员和设计师一般使用 CSS 来创建 HTML 元素动画.然而,由于 HTML 在创建图案,形状,和其他方面的局限性,它们自然的转向了 SVG,它提供了更多更有趣的能力.借助 SVG,我们有更 ...
FormsAuthentication身份认证源代码
使用FormsAuthentication类可以实现身份认证功能,这里提供一个asp.net项目的源代码,项目名称KWS.项目实现了登录.退出和判断身份的功能. 关于项目点击这里下载源代码 http ...
高性能javascript学习笔记系列(1) -js的加载和执行
这篇笔记的内容主要涉及js的脚本位置,如何加载js脚本和脚本文件执行的问题,按照自己的理解结合高性能JavaScript整理出来的 javascript是解释性代码,解释性代码需要经历转化成计算机指令 ...
javascript 奇淫巧技44招
1.首次为变量赋值时务必使用var关键字变量没有声明而直接赋值得话,默认会作为一个新的全局变量,要尽量避免使用全局变量. 2.使用===取代== ==和!=操作符会在需要的情况下自动转换数据类型.但 ...
AloneJs.msgbox() —— 弹出消息框
一.引用 <link href="https://cdn.suziyun.com/alonejs.min.css" rel="stylesheet" /& ...
Oracle EXP-00091的解决方法
[sql] EXP-00091: 正在导出有问题的统计信息.www.2cto.com . . 正在导出表 WF_GENERAL导出了 EXP-00091: 正 ...
CXF：通过WebService上传文件，包括大文件的处理
参考网上文章,用CXF发布上传文件接口,并上传大文件的测试. 框架:spring3.1+cxf2.7.6 1.定义文件类实体 import javax.activation.DataHandler; ...
Ida动态修改android程序的内存数据和寄存器数值，绕过so文件的判断语句
我们继续分析自毁程序密码这个app,我们发现该程序会用fopen ()打开/proc/[pid]/status这个文件,随后会用fgets()和strstr()来获取,于是我们在strstr()处下个 ...

数据分页处理系列之二：HBase表数据分页处理

数据分页处理系列之二：HBase表数据分页处理的更多相关文章

随机推荐

热门专题