一:问题由来

1.举例

  有A列与B列,分别是年龄与姓名。

  如果想通过年龄查询姓名。

  正常的检索是通过rowkey进行检索。

    根据年龄查询rowkey,然后根据rowkey进行查找姓名。

    这样的效率不高,因为要两次scan。

2.建议有一张索引表。

二:HBase的二级索引

1.讲解

  rowkey是uid+ts
    11111_20161126111111:

    这个rowkey方便查询某一uid的某一个时间段内的数据

  问题:
    查询某一时间段内所有用户的数据:按照时间

  索引表

   rowkey:ts+uid 20161126111111—111111

   其他列:info:uid

   值是uid+ts,因为这个是原表的rowkey。

  检索流程:

    从索引表中根据时间段来查询源表rowkey
    根据rowkey来查询源表

2.还有的问题

  如何保持索引表与原表的同步问题。

  好的方式是:编写协处理器,将客户端实现的逻辑代码放到服务端。

  同时,可以使用其他的框架,主要有solr,phoenix。elassearch。

3.协处理器

  observer处理器:观察者,类似于触发器

  endpoint类:终端类,类似于储存过程。

4.hbase自带的协处理器

  这个在hbase:meta中

  可以通过desc 'hbase:meta'进行查看

  是coprocessor$1。

三:phoenix的安装

1.上传源码包

  因为对应的hbase0.98.6没有对应的phoenix,所以需要自己进行编译。

  

2.解压到modules文件夹下

  tar -zxvf phoenix-4.2.2-src.tar.gz -C /etc/opt/modules/

3.修改pom.xml文件

  有一个问题,将所有的hadoop-two.version 变量都换成2.5.0

  <hbase.version>0.98.6-hadoop2</hbase.version>
  <hadoop-two.version>2.5.0</hadoop-two.version>

  

4.进入主目录

5.编译

  mvn clean package -DskipTests

  ----------------------------------------------------(以下需要重新编译,重新做)------------------------------------------------------------

6.查找编译好的包

  Phoenix_home/Phoenix-assembly/target/phoenix-4.2.2.tar.gz

7.安装phoenix

  启动的时候,后面跟的是zookeeper地址。

8.phoenix映射原有的表

  执行的语句,在phoenix中。

  hbase对于大小写敏感,然后需要将phoenix中的语句进行双引号引起来。

  

9.看效果

  可以在phoenix中查询映射的表。

  select * from "s1";

  将会发现,这里的数据与hbase中的数据相同。

085 HBase的二级索引,以及phoenix的安装(需再做一次)的更多相关文章

  1. HBase的二级索引,以及phoenix的安装(需再做一次)

    一:HBase的二级索引 1.讲解 uid+ts 11111_20161126111111:查询某一uid的某一个时间段内的数据 查询某一时间段内所有用户的数据:按照时间 索引表 rowkey:ts+ ...

  2. HBase建立二级索引的一些解决方式

    HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索. 假设我们相对hbase里面列族的列列进行一些组合查询.就须要採用HBase的二级索引方案来进行多条件的查询. 常见的二级索引 ...

  3. HBase之八--(2):HBase二级索引之Phoenix

    1. 介绍 Phoenix 是 Salesforce.com 开源的一个 Java 中间件,可以让开发者在Apache HBase 上执行 SQL 查询.Phoenix完全使用Java编写,代码位于 ...

  4. 利用Phoenix为HBase创建二级索引

    为什么需要Secondary Index 对于Hbase而言,如果想精确地定位到某行记录,唯一的办法是通过rowkey来查询.如果不通过rowkey来查找数据,就必须逐行地比较每一列的值,即全表扫瞄. ...

  5. hbase构建二级索引解决方案

    关注公众号:大数据技术派,回复"资料",领取1024G资料. 1 为什么需要二级索引 HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索.假设我们相对Hbas ...

  6. 基于Solr实现HBase的二级索引

    文章来源:http://www.open-open.com/lib/view/open1421501717312.html 实现目的: 由于hbase基于行健有序存储,在查询时使用行健十分高效,然后想 ...

  7. hbase coprocessor 二级索引

    Coprocessor方式二级索引 1. Coprocessor提供了一种机制可以让开发者直接在RegionServer上运行自定义代码来管理数据.通常我们使用get或者scan来从Hbase中获取数 ...

  8. [How to] MapReduce on HBase ----- 简单二级索引的实现

    1.简介 MapReduce计算框架是二代hadoop的YARN一部分,能够提供大数据量的平行批处理.MR只提供了基本的计算方法,之所以能够使用在不用的数据格式上包括HBase表上是因为特定格式上的数 ...

  9. HBase的二级索引

    使用HBase存储中国好声音数据的案例,业务描述如下: 为了能高效的查询到我们需要的数据,我们在RowKey的设计上下了不少功夫,因为过滤RowKey或者根据RowKey查询数据的效率是最高的,我们的 ...

随机推荐

  1. 嵌入式iframe子页面与父页面js通信方式

    iframe框架中的页面与主页面之间的通信方式根据iframe中src属性是同域链接还是跨域链接,有明显不同的通信方式,同域下的数据交换和DOM元素互访就简单的多了,而跨域的则需要一些巧妙的方式来实现 ...

  2. [C++]数组指针与指针数组

    //声明: 1.&----取地址运算符 eg: int m = 1; int *p = &m;//(*p) == m的地址 == &m; 2.*----间接访问运算符 eg: ...

  3. UVA - 10480 Sabotage【最小割最大流定理】

    题意: 把一个图分成两部分,要把点1和点2分开.隔断每条边都有一个花费,求最小花费的情况下,应该切断那些边.这题很明显是最小割,也就是最大流.把1当成源点,2当成汇点,问题是要求最小割应该隔断那条边. ...

  4. MySQL事务隔离级别以及验证

    事务的并发执行,容易出现的几个现象 --------------------------     1.脏读         读未提交,一个事务读取了另外一个事务改写还没有提交的数据,如果另外一个    ...

  5. 【文件】java生成PDF文件

    package test; import java.awt.Color; import java.io.FileOutputStream; import org.junit.Test; import ...

  6. mysql 案例 ~ 瘦身mysql系列(1)

    一 简介:这一系列我们要进行如何瘦身mysql 二 目的:通过提高CPU利用率和节约成本,降低数据库容量及I/O负载,从而使数据吞吐率得到显著提高 三 方法: 利用innodb的COMPRESSED ...

  7. Freemarker进行非空处理

    1.需求是这样的: 一个对象可能有图片,也可能没有,在对象有图片的时候输出图片,没有的时候不做处理. 2.新建一个doc文档,另存为Xml文档(2003版本的). 修改Xml文档:用Freemarke ...

  8. 首次使用Vue开发

    1.首先在页面上添加如下的代码 var app = new Vue({ el: '#signupForm', data: { UserName: '', PWD: '' } }); 2.在下面添加ht ...

  9. [转]GDB-----2.watchpoint

    TODO需要在ARM下验证 1. 前言 watchpoint,顾名思义,其一般用来观察某个变量/内存地址的状态(也可以是表达式),如可以监控该变量/内存值是否被程序读/写情况. 在gdb中可通过下面的 ...

  10. UML和模式应用4:初始阶段(4)--需求制品之用例模型模板示例

    1. 前言 UP开发包括四个阶段:初始阶段.细化阶段.构建阶段.移交阶段: UP每个阶段包括 业务建模.需求.设计等科目: 其中需求科目对应的需求制品包括:设想.业务规则.用例模型.补充性规格说明.词 ...