HBase的二级索引

使用HBase存储中国好声音数据的案例，业务描述如下：

为了能高效的查询到我们需要的数据，我们在RowKey的设计上下了不少功夫，因为过滤RowKey或者根据RowKey查询数据的效率是最高的，我们的RowKey的设计是：UserID + CreateTime + FileID，那么我们在HBase中的数据格式如下：

每一行数据中包含两个Column：f:c和f:n

我们在查询的时候还是用了SingleColumnValueFilter这个Filter来过滤单个的Column的Value的值，我们说如果在海量数据的时候使用这个SingleColumnValueFilter来过滤数据的话是非常耗时的事情，那么现在问题来了：

问题：

假设针对这张sound的表，我们需要查询包含“中国好声音”以及包含“综艺”的数据，也就是说我们的业务查询是：

2个条件同时输入find(“中国好声音”，“综艺”)

这个时候我们该怎么查询呢？

解决方案：

首先，我们现在的查询条件中没有对RowKey的过滤了，如果我们直接使用SingleColumnValueFilter这个Filter来过滤查询数据的话是可以达到目的，但是非常的耗时，所以我们不能使用这种方式

那么，我们现在就使用HBase中的二级索引来解决这个问题，我们先不解释二级索引是什么，我们先看下解决上面问题的过程，如下：

第一步：创建两张HBase表

第一张HBase表的RowKey是数据中的Name字段的值，这张表可以有不定数量的Column，每一个Column的值就是sound表的RowKey(和Name对应的RowKey)，这张表我们称之为name_indexer表。create 'name_indexer','f'

第二张HBase表的RowKey是数据中的Category字段的值，这张表可以有不定数量的Column，每一个Column的值就是sound表的RowKey(和Category对应的RowKey)，这张表我们称之为category_indexer表。create 'category_indexer','f'

第二步：将sound中的数据导入到name_indexer和category_indexer两张表中

使用Spark程序来实现索引表数据的导入，

import org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Scan}

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.hbase.util.Bytes

import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.SparkSession

/**

  *  使用Spark来建立HBase中表sound的二级索引

  */

object MyIndexBuilder {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .appName("MyIndexBuilder")

      .master("local")

      .getOrCreate()

    // 1、创建HBaseContext

    val configuration = HBaseConfiguration.create()

    configuration.set("hbase.zookeeper.quorum", "master,slave1,slave2")

    val hBaseContext = new HBaseContext(spark.sparkContext, configuration)

    // 2、读取HBase表sound中的f:n和f:c两个列的值以及他们对应的rowKey的值

    // 并且需要区分开是哪一个列的值

    val soundRDD = hBaseContext.hbaseRDD(TableName.valueOf("sound"), new Scan())

    val indexerRDD: RDD[((String, Array[Byte]), ImmutableBytesWritable)] = soundRDD.flatMap { case (byteRowKey, result) =>

      val nameValue = result.getValue(Bytes.toBytes("f"), Bytes.toBytes("n"))

      val categoryValue = result.getValue(Bytes.toBytes("f"), Bytes.toBytes("c"))

      // 区分开是哪一个列的值，使用key来区分

      // 返回key是(tableName，列值), value是这个列对应的rowKey的值

      Seq((("name_indexer", nameValue), byteRowKey), (("category_indexer", categoryValue), byteRowKey))

    }

    // 3、按照key进行分组，拿到相同列值对应的所有的rowKeys（因为在原表sound中多个rowKey的值可能会对应着相同的列值）

    val groupedIndexerRDD: RDD[((String, Array[Byte]), Iterable[ImmutableBytesWritable])] = indexerRDD.groupByKey()

    // 4、将不同的列值以及对应的rowKeys写入到相对应的indexer表中

    groupedIndexerRDD.foreachPartition { partitionIterator =>

      val conf = HBaseConfiguration.create()

      conf.set("hbase.zookeeper.quorum", "master,slave1,slave2")

      val conn = ConnectionFactory.createConnection(conf)

      val nameIndexerTable = conn.getTable(TableName.valueOf("name_indexer"))

      val categoryIndexerTable = conn.getTable(TableName.valueOf("category_indexer"))

      try {

        val nameIndexerTablePuts = new util.ArrayList[Put]()

        val categoryIndexerTablePuts = new util.ArrayList[Put]()

        partitionIterator.map { case ((tableName, indexerValue), rowKeys) =>

          val put = new Put(indexerValue) // 将列值作为索引表的rowKey

          rowKeys.foreach(rowKey => {

            put.addColumn(Bytes.toBytes("f"), null, rowKey.get())

          })

          if (tableName.equals("name_indexer")) {

            nameIndexerTablePuts.add(put) // 需要写入到表name_indexer中的数据

          } else {

            categoryIndexerTablePuts.add(put) // 需要写入到表category_indexer中的数据

          }

        }

        nameIndexerTable.put(nameIndexerTablePuts)

        categoryIndexerTable.put(categoryIndexerTablePuts)

      } finally {

        nameIndexerTable.close()

        categoryIndexerTable.close()

        conn.close()

      }

    }

    spark.stop()

  }

}

第三步：查询结果

我们先从name_indexer这张表中按照RowKey查询属于“中国好声音”的记录，这些记录中的所有的列的值就是需要在sound中查询的RowKey的值

然后从category_indexer这张表中按照RowKey查询属于“综艺”的记录，这些记录中的所有的列的值就是需要在sound中查询的RowKey的值

最后将上面两步查询出来的结果做一个合并，就是将查询出来的结果做一次去重，得到了所有在sound中符合需求的RowKey，然后在根据这些RowKey去sound表中查询相应的数据

我们每一步查询都是根据HBase中的一级索引RowKey来查询的，所以查询速度会非常的快

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.Cell;

import org.apache.hadoop.hbase.CellUtil;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.TableName;

import org.apache.hadoop.hbase.client.*;

import org.apache.hadoop.hbase.filter.CompareFilter;

import org.apache.hadoop.hbase.filter.RowFilter;

import org.apache.hadoop.hbase.filter.SubstringComparator;

import org.apache.hadoop.hbase.util.Bytes;

import java.io.IOException;

import java.util.ArrayList;

import java.util.HashSet;

import java.util.List;

import java.util.Set;

public class SecondaryIndexSearcher {

    public static void main(String[] args) throws IOException {

        Configuration config = HBaseConfiguration.create();

        config.set("hbase.zookeeper.quorum", "master,slave1,slave2");

        try(Connection connection = ConnectionFactory.createConnection(config)) {

            Table nameIndexer = connection.getTable(TableName.valueOf("name_indexer"));

            Table categoryIndexer = connection.getTable(TableName.valueOf("category_indexer"));

            Table sound = connection.getTable(TableName.valueOf("sound"));

            // 1、先从表name_indexer中找到rowKey包含“中国好声音”对应的所有的column值

            Scan nameIndexerScan = new Scan();

            SubstringComparator nameComp = new SubstringComparator("中国好声音");

            RowFilter nameRowFilter = new RowFilter(CompareFilter.CompareOp.EQUAL, nameComp);

            nameIndexerScan.setFilter(nameRowFilter);

            Set<String> soundRowKeySetOne = new HashSet<>();

            ResultScanner rsOne = nameIndexer.getScanner(nameIndexerScan);

            try {

                for (Result r = rsOne.next(); r != null; r = rsOne.next()) {

                    for (Cell cell : r.listCells()) {

                        soundRowKeySetOne.add(Bytes.toString(CellUtil.cloneValue(cell)));

                    }

                }

            } finally {

                rsOne.close();  // always close the ResultScanner!

            }

            // 2、再从表category_indexer中找到rowKey包含“综艺”对应的所有的column值

            Scan categoryIndexerScan = new Scan();

            SubstringComparator categoryComp = new SubstringComparator("综艺");

            RowFilter categoryRowFilter = new RowFilter(CompareFilter.CompareOp.EQUAL, categoryComp);

            nameIndexerScan.setFilter(categoryRowFilter);

            Set<String> soundRowKeySetTwo = new HashSet<>();

            ResultScanner rsTwo = categoryIndexer.getScanner(categoryIndexerScan);

            try {

                for (Result r = rsTwo.next(); r != null; r = rsTwo.next()) {

                    for (Cell cell : r.listCells()) {

                        soundRowKeySetTwo.add(Bytes.toString(CellUtil.cloneValue(cell)));

                    }

                }

            } finally {

                rsTwo.close();  // always close the ResultScanner!

            }

            // 3、合并并去重上面两步查询的结果

            soundRowKeySetOne.addAll(soundRowKeySetTwo);

            // 4、根据soundRowKeySetOne中所有的rowKeys去sound表中查询数据

            List<Get> gets = new ArrayList<>();

            for (String rowKey : soundRowKeySetOne) {

                Get get = new Get(Bytes.toBytes(rowKey));

                gets.add(get);

            }

            Result[] results = sound.get(gets);

            for (Result result : results) {

                for (Cell cell : result.listCells()) {

                    System.out.println(Bytes.toString(CellUtil.cloneRow(cell)) + "===> " +

                            Bytes.toString(CellUtil.cloneFamily(cell)) + ":" +

                            Bytes.toString(CellUtil.cloneQualifier(cell)) + "{" +

                            Bytes.toString(CellUtil.cloneValue(cell)) + "}");

                }

            }

        }

    }

}

结论：

那么表name_indexer和category_indexer中的RowKey就是我们解决问题的二级索引，

所以二级索引的本质就是：建立各列值与行键之间的映射关系

最后，我们需要知道创建HBase二级索引的方式

1、Spark来实现二级索引的建立

我们前面使用的是Spark来实现二级索引的建立，但是这种方式适用于离线批处理，这些二级索引是每天或者每段时间执行一次的建立的

2、使用HBase的协处理器(coprocessor)

对于如果数据是实时更新的话，则这种离线批处理的方式是不行的，这个时候我们可以使用HBase的协处理器(coprocessor)

HBase的协处理器(Coprocessor)的介绍可以参考：https://www.cnblogs.com/small-k/p/9648453.html

3、HBase + Solr其实也是一个二级索引实现，只不过是把二级索引存储在Solr中

HBase的二级索引的更多相关文章

HBase的二级索引，以及phoenix的安装（需再做一次）
一:HBase的二级索引 1.讲解 uid+ts 11111_20161126111111:查询某一uid的某一个时间段内的数据查询某一时间段内所有用户的数据:按照时间索引表 rowkey:ts+ ...
085 HBase的二级索引，以及phoenix的安装（需再做一次）
一:问题由来 1.举例有A列与B列,分别是年龄与姓名. 如果想通过年龄查询姓名. 正常的检索是通过rowkey进行检索. 根据年龄查询rowkey,然后根据rowkey进行查找姓名. 这样的效率不高 ...
HBase建立二级索引的一些解决方式
HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索. 假设我们相对hbase里面列族的列列进行一些组合查询.就须要採用HBase的二级索引方案来进行多条件的查询. 常见的二级索引 ...
基于Solr实现HBase的二级索引
文章来源:http://www.open-open.com/lib/view/open1421501717312.html 实现目的: 由于hbase基于行健有序存储,在查询时使用行健十分高效,然后想 ...
hbase coprocessor 二级索引
Coprocessor方式二级索引 1. Coprocessor提供了一种机制可以让开发者直接在RegionServer上运行自定义代码来管理数据.通常我们使用get或者scan来从Hbase中获取数 ...
[How to] MapReduce on HBase ----- 简单二级索引的实现
1.简介 MapReduce计算框架是二代hadoop的YARN一部分,能够提供大数据量的平行批处理.MR只提供了基本的计算方法,之所以能够使用在不用的数据格式上包括HBase表上是因为特定格式上的数 ...
利用Phoenix为HBase创建二级索引
为什么需要Secondary Index 对于Hbase而言,如果想精确地定位到某行记录,唯一的办法是通过rowkey来查询.如果不通过rowkey来查找数据,就必须逐行地比较每一列的值,即全表扫瞄. ...
hbase构建二级索引解决方案
关注公众号:大数据技术派,回复"资料",领取1024G资料. 1 为什么需要二级索引 HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索.假设我们相对Hbas ...
HBase二级索引的设计(案例讲解)
摘要最近做的一个项目涉及到了多条件的组合查询,数据存储用的是HBase,恰恰HBase对于这种场景的查询特别不给力,一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowK ...

随机推荐

windows下的计算时间间隔 -- GetTickCount()
用法: #include "windows.h" DWORD lastTime =0;DWORD currentTime = 0;DWORD spendTime = 0; last ...
【洛谷4482】Border的四种求法（后缀自动机_线段树合并_链分治）
这题我写了一天后交了一发就过了我好兴奋啊啊啊啊啊啊题目洛谷 4482 分析这题明明可以在线做的,为什么我见到的所有题解都是离线啊 -- 什么时候有机会出一个在线版本坑人. 题目的要求可以转化为求 ...
Java reactor响应式编程
转载自:https://www.cnblogs.com/lixinjie/p/a-reactive-streams-on-jvm-is-reactor.html 响应式编程作为响应式编程方向上的第一 ...
LeetCode 5198. 丑数 III（Java）容斥原理和二分查找
题目链接:5198. 丑数 III 请你帮忙设计一个程序,用来找出第 n 个丑数. 丑数是可以被 a 或 b 或 c 整除的正整数. 示例 1: 输入:n = 3, a = 2, b = 3, c ...
mysql执行顺序与join连接
mysql加载顺序手写顺序 SELECT DISTINCT <select list> FROM <left_table> join <join_type> JO ...
idea中的调试按键（f5,f6,f7,f8,f9）
f5: 如果断点处存在方法,f5 则强制进入方法内部,然后一步一步执行方法体, 如果再遇到方法,则继续进入方法体,如此循环,直到执行到断点开始处: f6: 从断点处一步步执行以后的代码,会跳出断点所在 ...
c笔试题
以下程序的输出是(). struct st { int x; int *y; } *p; ] = { ,,, }; ] = { ,&dt[],,&dt[],,&dt[],,&a ...
git reset --hard HEAD^后显示more?的原因及如何解决
在windows的cmd控制台下操作git,想要回滚到上一次提交,但是输入git reset --hard HEAD^后就显示more? fatal: ambiguous argument 'HEAD ...
jquery DataTable默认显示指定页
原文:https://blog.csdn.net/zimuxin/article/details/83304819 主要添加iDisplayStart和iDisplayLength参数即可 $('#t ...
oracle中start with和connect by的用法理解
转自:https://blog.csdn.net/qq_29274091/article/details/72627350 Oracle中start with和connect by 用法理解转自:ht ...

HBase的二级索引

HBase的二级索引的更多相关文章

随机推荐

热门专题