记一次Hbase的行键过滤器事故问题

数据总数：746条数据

因为后面需要进行算法合成，而且spark目前对这种算法支持并不好，因此采用代码编写，所以在查询hbase的过程中采用的是java直接查询，

但是为了加快查询速度，我尽可能的使用了过滤器

1：初期Hbase的rowkey组合：时间+"_"+订单id

查询思路：

1：能快速检索，减少GC，采用过滤器

2：支持时间段查询

根据上面两点，我采用时间过滤，比如：startTime=201904010000 endTime=201904180000|；【注意这个符号：“|” 】然后根据行键过滤器

CompareFilter.CompareOp.GREATER_OR_EQUAL和

CompareFilter.CompareOp.LESS_OR_EQUAL进行大小对比

使用代码在查询的时候，添加了行键过滤器

 FilterList filterList=new FilterList();

            //time+id

            if(startTime != null){

                RowFilter rf = new RowFilter(CompareFilter.CompareOp.GREATER_OR_EQUAL,

                        new BinaryComparator(Bytes.toBytes(startTime)));

                filterList.addFilter(rf);

            }

            if(endTime != null){

                RowFilter rf = new RowFilter(CompareFilter.CompareOp.LESS_OR_EQUAL,

                        new BinaryComparator(Bytes.toBytes(endTime)));

                filterList.addFilter(rf);

            }

            scan.setFilter(filterList);

完整代码：

 /**

     * 行键过滤器

     * */

    public static List<Map<String , String>> rowFilter(String tableName , String startTime , String endTime){

        Connection connection = null;

        Scan scan = new Scan();

        scan.setCacheBlocks(false);

        ResultScanner rs = null;

        Table table = null;

        List<Map<String , String>> list = new ArrayList<Map<String , String>>();

        try{

            connection = ConnectionFactory.createConnection(config);

            table = connection.getTable(TableName.valueOf(tableName));

            FilterList filterList=new FilterList();

            //time+id

            if(startTime != null){

                RowFilter rf = new RowFilter(CompareFilter.CompareOp.GREATER_OR_EQUAL,

                        new BinaryComparator(Bytes.toBytes(startTime)));

                filterList.addFilter(rf);

            }

            if(endTime != null){

                RowFilter rf = new RowFilter(CompareFilter.CompareOp.LESS_OR_EQUAL,

                        new BinaryComparator(Bytes.toBytes(endTime)));

                filterList.addFilter(rf);

            }

            scan.setFilter(filterList);

            rs = table.getScanner(scan);

            for (Result r : rs) {

                Map<String , String> map = new HashMap<String , String>();

                for (Cell cell : r.listCells()) {

                    map.put(Bytes.toString(cell.getQualifierArray(), cell.getQualifierOffset(), cell.getQualifierLength())

                            , Bytes.toString(cell.getValueArray(), cell.getValueOffset(), cell.getValueLength()));

                }

                list.add(map);

            }

        }catch (Exception e){

            e.printStackTrace();

        }finally {

            if (null != rs) {

                rs.close();

            }

            try {

                if (null != table) {

                    table.close();

                }

                if (null != connection && !connection.isClosed()) {

                    System.out.println("scan Result is closed");

                    connection.close();

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

        return list;

    }

初期完整代码

那么这种方案查询后返回的结果是：361条数据！实际Hbase测试表中有746条数据，那么可以肯定，是行键过滤器出错了（后面再研究为啥出错）

改善：

更改rowkey结构，采用：订单id+"_"+time来实现

然后过滤器代码改善：

 FilterList filterList=new FilterList();

            //id+time

            if(startTime != null){

                RowFilter rf = new RowFilter(CompareFilter.CompareOp.GREATER_OR_EQUAL,

                        new RegexStringComparator(".*_"+startTime));

                filterList.addFilter(rf);

            }

            if(endTime != null){

                RowFilter rf = new RowFilter(CompareFilter.CompareOp.LESS_OR_EQUAL,

                        new RegexStringComparator(".*_"+endTime));

                filterList.addFilter(rf);

            }

            scan.setFilter(filterList);

上面其实就是采用正则表达式进行后缀识别，这样我就可以根据后缀进行时间过滤

完整代码：

    /**

     * 行键过滤器

     * */

    public static List<Map<String , String>> rowEndFilter(String tableName , String startTime , String endTime){

        Connection connection = null;

        Scan scan = new Scan();

        scan.setCacheBlocks(false);

        ResultScanner rs = null;

        Table table = null;

        List<Map<String , String>> list = new ArrayList<Map<String , String>>();

        try{

            connection = ConnectionFactory.createConnection(config);

            table = connection.getTable(TableName.valueOf(tableName));

            FilterList filterList=new FilterList();

            //id+time

            if(startTime != null){

                RowFilter rf = new RowFilter(CompareFilter.CompareOp.GREATER_OR_EQUAL,

                        new RegexStringComparator(".*_"+startTime));

                filterList.addFilter(rf);

            }

            if(endTime != null){

                RowFilter rf = new RowFilter(CompareFilter.CompareOp.LESS_OR_EQUAL,

                        new RegexStringComparator(".*_"+endTime));

                filterList.addFilter(rf);

            }

            scan.setFilter(filterList);

            rs = table.getScanner(scan);

            for (Result r : rs) {

                Map<String , String> map = new HashMap<String , String>();

                for (Cell cell : r.listCells()) {

                    map.put(Bytes.toString(cell.getQualifierArray(), cell.getQualifierOffset(), cell.getQualifierLength())

                            , Bytes.toString(cell.getValueArray(), cell.getValueOffset(), cell.getValueLength()));

                }

                list.add(map);

            }

        }catch (Exception e){

            e.printStackTrace();

        }finally {

            if (null != rs) {

                rs.close();

            }

            try {

                if (null != table) {

                    table.close();

                }

                if (null != connection && !connection.isClosed()) {

                    System.out.println("scan Result is closed");

                    connection.close();

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

        return list;

    }

上面就会查询出完整数据。

记一次Hbase的行键过滤器事故问题的更多相关文章

HBase按照行键范围删除数据
#!/bin/bash #TOOL_PATH=$(cd "$(dirname "$0")"; pwd) #TOOL_PATH_TMP=$(cd "$( ...
Hadoop-No.7之行键
和哈希表类比,HBase中的行键类似于哈希表中的键.要构造一个良好的HBase模式,关键之一就是选择一个合适的行键. 1 记录检索行键是HBase中检索记录所使用的键.HBase记录含有的列在数量上 ...
HBase应用开发回顾与总结系列之二：RowKey行键设计规范
2. RowKey行键设计规范 2.1. RowKey四大特性 2.1.1 字符串类型虽然行键在HBase中是以byte[]字节数组的形式存储的,但是建议在系统开发过程中将其数据类型设置为Strin ...
Hadoop HBase概念学习系列之优秀行键设计（十六）
我们通过行键访问HBase.尽管使用扫描过滤器可以一次性指明大量的键,但是HBase仅仅能够根据行键识别出一行. 优秀的行键设计可以保证良好的HBase性能. 1.行键存在于HBase中的每一个单元格 ...
HBase应用开发回顾与总结系列之三：RowKey行键生成器工具
所谓RowKey行键生成器,是指通过软件工具制定行键生成策略,并可将策略信息保存成本地策略文件,待需要时再将本地策略文件序列化成行键生成策略对象,传入数据行信息后可自动生成RowKey行键. 那么 ...
Hadoop HBase概念学习系列之行、行键（十一）
行是由列簇中的列组成.行根据行键依照字典顺序排序. HBase的行使用行键标识,可以使用行键查询整行的数据. 对同一个行键的访问都会落在同样的物理节点上.如果表包含2个列簇,属于两个列簇的文件还是保存 ...
HBase行键的设计
rowkey是行的主键,而且hbase只能用rowkey范围即scan来查找数据.rowkey是以字典排序的.可以巧妙设计行键,比如想通过电影的评价进行排序,可以把评分rate和电影id组合起来,ra ...
架构师必备：HBase行键设计与应用
首先要回答一个问题,为何要使用HBase? 随着业务不断发展.数据量不断增大,MySQL数据库存在这些问题: MySQL支持的数据量为TB级,不能一直保留历史数据.而HBase支持的数据量为PB级,适 ...
Hbase rowkey设计+布隆过滤器+STORE FILE & HFILE结构
Rowkey设计 Rowkey设计原则 Rowkey设计应遵循以下原则: 1.Rowkey的唯一原则必须在设计上保证其唯一性.由于在HBase中数据存储是Key-Value形式,若HBase中同一表 ...

随机推荐

dedecms安装操作-重安装-开启GD库
wamp5_1.7.4 打开:http://localhost/install/安装 (输入:域名/install,回车跳转到安装界面,勾选“我已经阅读并同意此协议”,然后点击“继续按钮”.) 重安装 ...
ORA-00923: FROM keyword not found where expected（单双引号）
1.前提在学习oracel的过程中遇到的一个关于单双引号的问题备注一下 2.学习过程中创建表语句是这样的 create table DEPT_DML --部门表( DEPT_NO NUMBER(8 ...
Exp1 PC平台逆向破解
本次实践的对象是一个名为pwn1的linux可执行文件. 该程序正常执行流程是:main调用foo函数,foo函数会简单回显任何用户输入的字符串. 该程序同时包含另一个代码片段,getShell,会返 ...
IDEA 导入 Tomcat9 源码
源码下载(Source Code Distributions)地址:https://tomcat.apache.org/download-90.cgi tomcat 和 servlet 以及 jdk ...
GIT-windows系统下Gitblit的使用方式
GIT-windows系统下Gitblit的正确打开方式 1. 打开页面. 在配置好Gitblit后,打开可视化界面. 2. 创建用户点击右上角添加用户,进入明细页面,填写常规信息. 创建用户(账号 ...
责任链模式-Chain of Responsibility(Java实现), 例1
责任链模式-Chain of Responsibility, 例1 在这种模式中,通常每个接收者都包含对另一个接收者的引用.如果一个对象不能处理该请求,那么它会把相同的请求传给下一个接收者,依此类推. ...
Docker安装步骤
在学习springcloud的消息总线时,需要安装rabbitmq,因为rabbitmq是用erlang开发的,所以安装rabbitmq又需要先安装erlang,总之安装过程中遇到各种坑,然而最终还是 ...
基于jeesite的cms系统（五）：wangEditor富文本编辑器
一.关于wangEditor: wangEditor —— 轻量级 web 富文本编辑器,配置方便,使用简单.支持 IE10+ 浏览器. 官网:www.wangEditor.com 文档:www.ka ...
打开即时通讯服务器openfire的大门
1.什么是即时通讯你现在最常用的软件是什么,如果我没有猜错,应该是QQ和微信,是的,他们就是即时通讯软件. 一个可以让你无时无刻,只要有网络就能够沟通的工具,就是即时通讯工具.那么本教程,我们主要以 ...
python复习2
在操作字符串时,我们经常遇到str和bytes的互相转换.为了避免乱码问题,应当始终坚持使用UTF-8编码对str和bytes进行转换.

记一次Hbase的行键过滤器事故问题

记一次Hbase的行键过滤器事故问题的更多相关文章

随机推荐

热门专题