摘要:  大家在使用HBase和Solr搭建系统中经常遇到的一个问题就是:“我通过SOLR得到了RowKeys后,该怎样去HBase上取数据”。使用现有的Filter性能差劲,网上也没有现成的自定义Filter解决方案,我在这里把这个问题的解决办法分享给大家,抛砖引玉一下。先讲一下,虽然使用自定义过滤器来达到取数据的目的,但它其实并不是一个好的解决办法,因为它的性能是有问题的,具体分析还要看我的博客HBase 高性能获取数据 - 多线程批量式解决办法http://www.cnblogs.com/wgp13x/p/4245182.html


Solr和HBase专辑

1、“关于Solr的使用总结的心得体会”(http://www.cnblogs.com/wgp13x/p/3742653.html)

2、“中文分词器性能比较​”(http://www.cnblogs.com/wgp13x/p/3748764.html)

3、“Solr与HBase架构设计”(http://www.cnblogs.com/wgp13x/p/a8bb8ccd469c96917652201007ad3c50.html)

4、 “大数据架构: 使用HBase和Solr将存储与索引放在不同的机器上”(http://www.cnblogs.com/wgp13x/p/3927979.html)

5、“一个自定义 HBase Filter -通过RowKeys来高性能获取数据”(http://www.cnblogs.com/wgp13x/p/4196466.html)


       
         “大数据架构: 使用HBase和Solr将存储与索引放在不同的机器上”此文一经推出,览者众多,也有很多同仁朋友问我问题,看来近年关注先进大数据架构的公司越来越多了,基本上有数据接入的公司都会有这一问题。具我所知,“我该选Oracle还是MySQL作数据存储呢?”,“MySQL数据库索引创建后对双百分号%like不起作用啊!”,“没事,数据量再大我加存储柜不就行了?哈哈哈!”,这些都是还在用关系型数据库存储大数据的公司,它们往往对查询这块束手无策;它们的对策往往是:“我退而求其次,往年的数据我搜不了,我只搜今年的数据不就OK啦?反正业务单位我也能搞定。”--这是有垄断有背景的公司,也是不思进取的公司,“我分表,用户查近三个月的数据多,查前面的数据少,我每个月分一张表,解决了。”--这是吃了这顿没下顿的公司,抓紧把当前的项目搞完拿钱走人的公司,“上内存数据库哎,那个快。”--这是不管三七二十一、以屁股决定脑袋的公司。不管怎么说,能关注当前大数据架构技术的公司都是不落伍滴。
 
      现在我把大家在使用HBase和Solr搭建系统中经常遇到的一个问题的解决办法在这里分享给大家,这个问题就是:“我通过SOLR得到了RowKeys后,该怎样去HBase上取数据”。
 
      相信有人开始发问了,HBase不是提供了功能很强劲的Filter了吗?Comparision Filters,Dedicated Filters,Decorating Filters,可以或可以且,可以相等,还可以组合,看起来很丰满,用起来很骨感。经过一番实践过后,性能低得吓人,使用200条RowKey在300百万的数据集中取数据,要等上好几钟,究其原因,多Filter的或组合过滤就是在HBase的数据里滚了一遍又一遍,不慢才怪。
 
        那么应该怎么做呢?自定义HBase Filter,这样只要滚一遍就好啦。RowKeyFilter就是自定义的Filter,它继承自FilterBase类,类中主要定义了三个属性,byte[] value用来传入RowKeys,Map<Object, Object>用来存放传入的RowKeys,撞到了就返回,boolean filterRow用来告诉HBase是否滤掉。下面是具体的RowKeyFilter代码。
 
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.util.Arrays;
import java.util.HashMap;
import java.util.Map;
 
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.filter.FilterBase;
import org.apache.hadoop.hbase.util.Bytes;
 
/**
 * @description 自定义过滤器,用来读取大量离散行
 * @author 王安琪
 * @time 2014年11月8日上午10:47:17
 * @className RowKeyFilter
 */
public class RowKeyFilter extends FilterBase
{
    private byte[] value = null;
    private boolean filterRow = true;
    /**
     * map中存放需要读的行RowKey
     */
    public Map<Object, Object> map = new HashMap<Object, Object>();
 
    public RowKeyFilter()
    {
        super();
    }
 
    public RowKeyFilter(byte[] value)
    {
        this.value = value;
    }
 
    @Override
    public ReturnCode filterKeyValue(KeyValue ignored)
    {
        if (this.filterRow == false)
            return ReturnCode.INCLUDE;
        else
            return ReturnCode.NEXT_ROW;
    }
 
    /**
     * 行过滤,查询该行RowKey是否在Map中
     */
    @Override
    public boolean filterRowKey(byte[] buffer, int offset, int length)
    {
        byte[] rowKey = Arrays.copyOfRange(buffer, offset, offset + length);
        String str = new String(rowKey);
        if (map.containsKey(str))
        { // 在0(1)时间内返回,效率较高
            this.filterRow = false; // false表示包括这一行
        }
        return this.filterRow;
    }
 
    @Override
    public void reset()
    {
        this.filterRow = true;
    }
 
    @Override
    public boolean filterRow()
    {
        return filterRow;
    }
 
    /**
     * 将Map中的数据以Byte[]形式传给服务器
     */
    @Override
    public void write(DataOutput dataOutput) throws IOException
    {
        Bytes.writeByteArray(dataOutput, this.value);
    }
 
    /**
     * 服务器读取Byte[]数据,再将数据存储到Map中 不同的RowKey以","分割
     */
    @Override
    public void readFields(DataInput dataInput) throws IOException
    {
        this.value = Bytes.readByteArray(dataInput);
 
        String string = new String(this.value);
        String[] strs = string.split(",");
        for (String str : strs)
        {
            map.put(str, str);
        }
    }

}

 
自定义Filter如何加载到HBase中,网上有很多的介绍,这里就不作说明了,下面列举出了如何使用RowKeyFilter的代码段来达到筛选的目的。
 
/**
     * 根据rowKeys获取数据
     * 
     * @param rowKeys:每个rowkey之间使用逗号分隔符
     * @param filterColumn:表示过滤的列,如果为空表示所有列的数据都返回
     * @param isContiansRowkeys:设置为true,表示返回结果集中包含rowkeys;否则返回结果集中不包含rowkeys
     * @return
     */
    /* @Override */
    public Datas getDatasFromHbase(String rowKeys, List<String> filterColumn,
        boolean isContiansRowkeys)
    {
        Datas datas = new Datas();
        HTableInterface hTableInterface = getTable(tableName);
        Scan scan = new Scan();
        if (filterColumn != null)
        {
            for (String column : filterColumn)
            {
                scan.addColumn(columnFamilyName.getBytes(), column.getBytes());
            }
        }
        if (rowKeys != null && rowKeys.length() > 0)
        {
            RowKeyFilter rowKeyFilter = new RowKeyFilter(rowKeys.getBytes());
                        scan.setFilter(rowKeyFilter);
        }
        ResultScanner resultScanner = null;
        List<Data> listData = new ArrayList<Data>();
        try
        {
            resultScanner = hTableInterface.getScanner(scan);
            for (Result result : resultScanner)
            {
                Data data = new Data();
                if (isContiansRowkeys)
                {
                    data.setRowkey(new String(result.getRow()));
                }
                Map<String, String> map = new HashMap<String, String>();
                List<String> content = new ArrayList<String>();
                String[] temp = null;
                if (filterColumn != null)
                {
                    temp = new String[filterColumn.size()];
                }
                for (KeyValue keyValue : result.raw())
                {
                    if (filterColumn == null)
                    {
                        content.add(new String(keyValue.getValue()));
                    }
                    else if (filterColumn != null)
                    {
                        String qualifier = new String(keyValue.getQualifier());
                        String value = new String(keyValue.getValue());
                        if (filterColumn.contains(qualifier))
                        {
                            int index = filterColumn.indexOf(qualifier);
                            temp[index] = value;
                        }
                    }
                }
                if (temp != null)
                {
                    for (int i = 0; i < temp.length; i++)
                    {
                        content.add(temp[i]);
                    }
                }
              data.setContent(content);
                listData.add(data);
            }
            datas.setDatas(listData);
        }
        catch (IOException e)
        {
            e.printStackTrace();
        }
        finally
        {
            resultScanner.close();
            try
            {
                hTableInterface.close();
            }
            catch (IOException e)
            {
                e.printStackTrace();
            }
        }
        return datas;

}

 
        经过验证,在MySQL单表数量为1000万时,过滤主键300个ID共花费20s左右;在HBase单表数据量达到1000万条时,过滤300条RowKey的数据共花了10多秒,显然此Filter的性能比自带Filter的性能提高了不少,还要优于MySQL主键获取,但我觉得尚且不够,性能还远远达不到目标要求。这种方式肯定不能达到高速度取数据的目的,高性能方法还要看我最新的博客:HBase 高性能获取数据 - 多线程批量式解决办法http://www.cnblogs.com/wgp13x/p/4245182.html
 
        另,有挂靠《系统集成项目管理师》的公司吗?我刚考过,有需要的Q我详聊。写在2014年末。
 

一个自定义 HBase Filter -“通过RowKeys来高性能获取数据”的更多相关文章

  1. HBase 高性能获取数据(多线程批量式解决办法) + MySQL和HBase性能测试比较

    摘要:   在前篇博客里已经讲述了通过一个自定义 HBase Filter来获取数据的办法,在末尾指出此办法的性能是不能满足应用要求的,很显然对于如此成熟的HBase来说,高性能获取数据应该不是问题. ...

  2. Hbase之尝试使用错误列族获取数据

    import com.google.common.base.Strings; import org.apache.hadoop.conf.Configuration; import org.apach ...

  3. HBase 高性能加入数据 - 按批多“粮仓”式解决办法

    摘要:如何从HBase中的海量数据中,以很快的速度的获取大批量数据,这一议题已经在<HBase 高性能获取数据>(http://www.cnblogs.com/wgp13x/p/42451 ...

  4. hbase高性能读取数据

    有时需要从hbase中一次读取大量的数据,同时对实时性有较高的要求.可以从两方面进行考虑:1.hbase提供的get方法提供了批量获取数据方法,通过组装一个list<Get> gets即可 ...

  5. 从SQLite获取数据完成一个产品信息展示

    在ios实际开发当中,我们常常用到Core Data做为数据储存首选.但在处理一些大量复杂的数据值且数据之间相互关联的时候,这就不得不使用关系型数据库来实现.例如一个导航程序,自身应该包含大量的地图自 ...

  6. HBase - Filter - 过滤器的介绍以及使用

    1 过滤器HBase 的基本 API,包括增.删.改.查等.增.删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(Get)或者根据行键的范围来查询( ...

  7. HBase Filter 过滤器之 Comparator 原理及源码学习

    前言:上篇文章HBase Filter 过滤器概述对HBase过滤器的组成及其家谱进行简单介绍,本篇文章主要对HBase过滤器之比较器作一个补充介绍,也算是HBase Filter学习的必备低阶魂技吧 ...

  8. asp.net MVC之 自定义过滤器(Filter) - shuaixf

    一.系统过滤器使用说明 1.OutputCache过滤器 OutputCache过滤器用于缓存你查询结果,这样可以提高用户体验,也可以减少查询次数.它有以下属性: Duration :缓存的时间, 以 ...

  9. HBase filter shell操作

    创建表 create 'test1', 'lf', 'sf' lf: column family of LONG values (binary value) -- sf: column family ...

随机推荐

  1. angular中$cacheFactory缓存的使用

    最近在学习使用angular,慢慢从jquery ui转型到用ng开发,发现了很多不同点,继续学习吧: 首先创建一个服务,以便在项目中的controller中引用,服务有几种存在形式,factory( ...

  2. 重构第8天:使用委托代替继承(Replace Inheritance with Delegation)

    理解:根本没有父子关系的类中使用继承是不合理的,可以用委派的方式来代替. 详解:我们经常在错误的场景使用继承.继承应该在仅仅有逻辑关系的环境中使用,而很多情况下却被使用在达到方便为目的的环境中. 看下 ...

  3. 【C#】线程协作式取消

    Microsoft .Net Framework 提供了一个标准的取消操作的模式.这个模式是协作式的,意味着你想取消的操作必须显示地支持取消. CLR为我们提供了两个类: System.Threadi ...

  4. 小白学Linux(三)--文件系统基本结构

    Linux文件系统是一个倒立的单根树状结构,文件名称严格区分大小写(windows系统则是对大小写不明感的).路径用“/”分隔,跟windows的“\”不同. 这里我画了一张一般Linux系统的正常目 ...

  5. markdown这么好用的东西我才知道。。。多么不折腾的我。。。

    markdown 锚点 努力吧 我的网站 之前有个域名phifan.com没续费被抢了,之后又买了phifan.cn没续费被抢了,还剩下个plusnet.cn说什么也不能再丢掉了! package c ...

  6. 使用layout_weight设置控件占屏幕百分比

    水平LinearLayout中如果A,B两个控件都是layout_weight="1",那么控件在水平方向占比为A的layout_width+1/2空闲空间,B的layout_wi ...

  7. domain规划

    user-generated content 用户产生内容 和 admin-generated content 管理员产生内容,要区分开来,便于不同的图片压缩.备份.带宽.CDN.审核方案. 图片(j ...

  8. C# Sqlite事务

    在 C#中执行Sqlite数据库事务有两种方式:Sql代码和C#代码 1.Sql代码: BEGIN… COMMIT /ROLLBACK 2.C#代码: using (SQLiteConnection ...

  9. Java学习笔记之_JDBC

    JDBC简介 1.SUN公司为了简化,统一数据库的操作,定义了一套Java操作数据库的规范,称之为JDBC 2.数据库驱动 3.JDBC全称为:JAVA DataBase Commectivity(j ...

  10. JS控制HTML元素的显示和隐藏

    JS控制HTML元素的显示和隐藏 利用来JS控制页面控件显示和隐藏有两种方法,两种方法分别利用HTML的style中的两个属性,两种方法的不同之处在于控件隐藏后是否还在页面上占空位. 方法一: 1 2 ...