085 HBase的二级索引,以及phoenix的安装(需再做一次)
一:问题由来
1.举例
有A列与B列,分别是年龄与姓名。
如果想通过年龄查询姓名。
正常的检索是通过rowkey进行检索。
根据年龄查询rowkey,然后根据rowkey进行查找姓名。
这样的效率不高,因为要两次scan。
2.建议有一张索引表。
二:HBase的二级索引
1.讲解
rowkey是uid+ts
11111_20161126111111:
这个rowkey方便查询某一uid的某一个时间段内的数据
问题:
查询某一时间段内所有用户的数据:按照时间
索引表
rowkey:ts+uid 20161126111111—111111
其他列:info:uid
值是uid+ts,因为这个是原表的rowkey。
检索流程:
从索引表中根据时间段来查询源表rowkey
根据rowkey来查询源表
2.还有的问题
如何保持索引表与原表的同步问题。
好的方式是:编写协处理器,将客户端实现的逻辑代码放到服务端。
同时,可以使用其他的框架,主要有solr,phoenix。elassearch。
3.协处理器
observer处理器:观察者,类似于触发器
endpoint类:终端类,类似于储存过程。
4.hbase自带的协处理器
这个在hbase:meta中
可以通过desc 'hbase:meta'进行查看
是coprocessor$1。
三:phoenix的安装
1.上传源码包
因为对应的hbase0.98.6没有对应的phoenix,所以需要自己进行编译。
2.解压到modules文件夹下
tar -zxvf phoenix-4.2.2-src.tar.gz -C /etc/opt/modules/
3.修改pom.xml文件
有一个问题,将所有的hadoop-two.version 变量都换成2.5.0
<hbase.version>0.98.6-hadoop2</hbase.version>
<hadoop-two.version>2.5.0</hadoop-two.version>
4.进入主目录
5.编译
mvn clean package -DskipTests
----------------------------------------------------(以下需要重新编译,重新做)------------------------------------------------------------
6.查找编译好的包
Phoenix_home/Phoenix-assembly/target/phoenix-4.2.2.tar.gz
7.安装phoenix
启动的时候,后面跟的是zookeeper地址。
8.phoenix映射原有的表
执行的语句,在phoenix中。
hbase对于大小写敏感,然后需要将phoenix中的语句进行双引号引起来。
9.看效果
可以在phoenix中查询映射的表。
select * from "s1";
将会发现,这里的数据与hbase中的数据相同。
085 HBase的二级索引,以及phoenix的安装(需再做一次)的更多相关文章
- HBase的二级索引,以及phoenix的安装(需再做一次)
一:HBase的二级索引 1.讲解 uid+ts 11111_20161126111111:查询某一uid的某一个时间段内的数据 查询某一时间段内所有用户的数据:按照时间 索引表 rowkey:ts+ ...
- HBase建立二级索引的一些解决方式
HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索. 假设我们相对hbase里面列族的列列进行一些组合查询.就须要採用HBase的二级索引方案来进行多条件的查询. 常见的二级索引 ...
- HBase之八--(2):HBase二级索引之Phoenix
1. 介绍 Phoenix 是 Salesforce.com 开源的一个 Java 中间件,可以让开发者在Apache HBase 上执行 SQL 查询.Phoenix完全使用Java编写,代码位于 ...
- 利用Phoenix为HBase创建二级索引
为什么需要Secondary Index 对于Hbase而言,如果想精确地定位到某行记录,唯一的办法是通过rowkey来查询.如果不通过rowkey来查找数据,就必须逐行地比较每一列的值,即全表扫瞄. ...
- hbase构建二级索引解决方案
关注公众号:大数据技术派,回复"资料",领取1024G资料. 1 为什么需要二级索引 HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索.假设我们相对Hbas ...
- 基于Solr实现HBase的二级索引
文章来源:http://www.open-open.com/lib/view/open1421501717312.html 实现目的: 由于hbase基于行健有序存储,在查询时使用行健十分高效,然后想 ...
- hbase coprocessor 二级索引
Coprocessor方式二级索引 1. Coprocessor提供了一种机制可以让开发者直接在RegionServer上运行自定义代码来管理数据.通常我们使用get或者scan来从Hbase中获取数 ...
- [How to] MapReduce on HBase ----- 简单二级索引的实现
1.简介 MapReduce计算框架是二代hadoop的YARN一部分,能够提供大数据量的平行批处理.MR只提供了基本的计算方法,之所以能够使用在不用的数据格式上包括HBase表上是因为特定格式上的数 ...
- HBase的二级索引
使用HBase存储中国好声音数据的案例,业务描述如下: 为了能高效的查询到我们需要的数据,我们在RowKey的设计上下了不少功夫,因为过滤RowKey或者根据RowKey查询数据的效率是最高的,我们的 ...
随机推荐
- Flask最强攻略 - 跟DragonFire学Flask - 第八篇 实例化Flask的参数 及 对app的配置
Flask 是一个非常灵活且短小精干的web框架 , 那么灵活性从什么地方体现呢? 有一个神奇的东西叫 Flask配置 , 这个东西怎么用呢? 它能给我们带来怎么样的方便呢? 首先展示一下: from ...
- mysql 原理 ~ double write
一 简介:今天来聊聊double write 二 细节 1 Double write 是InnoDB在 tablespace(ibdata1)上的128个页(2个区)是2MB: 2 何谓页断裂 所谓页 ...
- JQuery基础概念--$符号的实质
$符号的实质 //$其实就是一个函数,以后用$的时候,记得跟小括号 $(); //参数不同,功能就不同 //3种用法 //1. 参数是一个function, 入口函数 $(function () { ...
- Android NetworkInterface 的 name
user@android:/$ ls /sys/class/net/ dummy0 lo p2p0 rev_rmnet0 rev_rmnet1 rev_rmnet2 rev_rmnet3 rmnet0 ...
- js sort方法根据数组中对象的某一个属性值进行排序
sort方法接收一个函数作为参数,这里嵌套一层函数用来接收对象属性名,其他部分代码与正常使用sort方法相同. var arr = [ {name:'zopp',age:0}, {name:'gpp' ...
- Mask RCNN 学习笔记
下面会介绍基于ResNet50的Mask RCNN网络,其中会涉及到RPN.FPN.ROIAlign以及分类.回归使用的损失函数等 介绍时所采用的MaskRCNN源码(python版本)来源于GitH ...
- 光照问题之常见算法比较(附Python代码)
一.灰度世界算法 ① 算法原理 灰度世界算法以灰度世界假设为基础,该假设认为:对于一幅有着大量色彩变化的图像,R,G,B三个分量的平均值趋于同一灰度值Gray.从物理意义上讲,灰色世界法假设自然界景物 ...
- JXL读取Excel(只支持xls版本)——(二)
注意:jxl是不支持xlsx后缀的excel的.因此建议用POI读取excel. Jar包 同一一样 Java代码 package JXL; import java.io.File; import j ...
- ssh Jetson tk1
背景: 因为TK1要放到智能车上,不方便打开roscore和各个节点,因此需要PC远程控制. 方法: 在PC端用ssh命令登录: (1)命令sudo ssh tegra-ubuntu.local(te ...
- 004_Nginx 499错误的原因及解决方法
一. 今天进行系统维护,发现了大量的499错误, 499错误 ngx_string(ngx_http_error_495_page), /* 495, https certificate error ...