Mapreduce atop Apache Phoenix (ScanPlan 初探)

利用Mapreduce/hive查询Phoenix数据时如何划分partition？

PhoenixInputFormat的源码一看便知：

    public List<InputSplit> getSplits(JobContext context) throws IOException, InterruptedException {

        Configuration configuration = context.getConfiguration();

        QueryPlan queryPlan = this.getQueryPlan(context, configuration);

        List allSplits = queryPlan.getSplits();

        List splits = this.generateSplits(queryPlan, allSplits);

        return splits;

    }

根据select查询语句创建查询计划，QueryPlan，实际是子类ScanPlan。getQueryPlan函数有一个特殊操作：

queryPlan.iterator(MapReduceParallelScanGrouper.getInstance());

如果HBase表有多个Region，则会将一个Scan划分为多个，每个Region对应一个Split。这个逻辑跟MR on HBase类似。只是这边的实现过程不同，这边调用的是Phoenix的QueryPlan，而不是HBase API。

以下是一个示例，加深这一过程的理解。

Phoenix 建表

将表presplit为4个region：[-∞,CS), [CS, EU), [EU, NA), [NA, +∞)

CREATE TABLE TEST (HOST VARCHAR NOT NULL PRIMARY KEY, DESCRIPTION VARCHAR) SPLIT ON ('CS','EU','NA');

upsert into test(host, description) values ('CS11', 'cccccccc');

upsert into test(host, description) values ('EU11', 'eeeddddddddd')

upsert into test(host, description) values ('NA11', 'nnnnneeeddddddddd');

0: jdbc:phoenix:localhost> select * from test;

+-------+--------------------+

| HOST  |    DESCRIPTION     |

+-------+--------------------+

| CS11  | cccccccc           |

| EU11  | eeeddddddddd       |

| NA11  | nnnnneeeddddddddd  |

+-------+--------------------+

窥探ScanPlan

import org.apache.hadoop.hbase.client.Scan;

import org.apache.log4j.BasicConfigurator;

import org.apache.phoenix.compile.QueryPlan;

import org.apache.phoenix.iterate.MapReduceParallelScanGrouper;

import org.apache.phoenix.jdbc.PhoenixStatement;

import java.io.IOException;

import java.sql.*;

import java.util.List;

public class LocalPhoenix {

    public static void main(String[] args) throws SQLException, IOException {

        BasicConfigurator.configure();

        Statement stmt = null;

        ResultSet rs = null;

        Connection con = DriverManager.getConnection("jdbc:phoenix:localhost:2181:/hbase");

        stmt = con.createStatement();

        PhoenixStatement pstmt = (PhoenixStatement)stmt;

        QueryPlan queryPlan = pstmt.optimizeQuery("select * from TEST");

        queryPlan.iterator(MapReduceParallelScanGrouper.getInstance());

        Scan scan = queryPlan.getContext().getScan();

        List<List<Scan>> scans = queryPlan.getScans();

        for (List<Scan> sl : scans) {

            System.out.println();

            for (Scan s : sl) {

                System.out.print(s);

            }

        }

        con.close();

    }

}

4个scan如下：

{"loadColumnFamiliesOnDemand":null,"startRow":"","stopRow":"CS","batch":-1,"cacheBlocks":true,"totalColumns":1,"maxResultSize":-1,"families":{"0":["ALL"]},"caching":100,"maxVersions":1,"timeRange":[0,1523338217847]}

{"loadColumnFamiliesOnDemand":null,"startRow":"CS","stopRow":"EU","batch":-1,"cacheBlocks":true,"totalColumns":1,"maxResultSize":-1,"families":{"0":["ALL"]},"caching":100,"maxVersions":1,"timeRange":[0,1523338217847]}

{"loadColumnFamiliesOnDemand":null,"startRow":"EU","stopRow":"NA","batch":-1,"cacheBlocks":true,"totalColumns":1,"maxResultSize":-1,"families":{"0":["ALL"]},"caching":100,"maxVersions":1,"timeRange":[0,1523338217847]}

{"loadColumnFamiliesOnDemand":null,"startRow":"NA","stopRow":"","batch":-1,"cacheBlocks":true,"totalColumns":1,"maxResultSize":-1,"families":{"0":["ALL"]},"caching":100,"maxVersions":1,"timeRange":[0,1523338217847]}Disconnected from the target VM, address: '127.0.0.1:63406', transport: 'socket'

Mapreduce atop Apache Phoenix (ScanPlan 初探)的更多相关文章

Apache Phoenix基本操作-1
本篇我们将介绍phoenix的一些基本操作. 1. 如何使用Phoenix输出Hello World? 1.1 使用sqlline终端命令 sqlline.py SZB-L0023780:2181:/ ...
Apache Phoenix系列 | 从入门到精通（转载）
原文地址:https://cloud.tencent.com/developer/article/1498057 来源: 云栖社区作者: 瑾谦 By 大数据技术与架构文章简介:Phoenix是一个 ...
[saiku] 使用 Apache Phoenix and HBase 结合 saiku 做大数据查询分析
saiku不仅可以对传统的RDBMS里面的数据做OLAP分析,还可以对Nosql数据库如Hbase做统计分析. 本文简单介绍下一个使用saiku去查询分析hbase数据的例子. 1.phoenix和h ...
Apache Phoenix JDBC 驱动和Spring JDBCTemplate的集成
介绍:Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排运行以生成标准的JDBC结果集. 直接使用HBase API.协同处理器与自己定义过滤器.对于简单查询来说,其性能 ...
phoenix 报错：type org.apache.phoenix.schema.types.PhoenixArray is not supported
今天用phoenix报如下错误: 主要原因: hbase的表中某字段类型是array,phoenix目前不支持此类型解决方法: 复制替换phoenix包的cursor文件 # Copyright 2 ...
org.apache.phoenix.exception.PhoenixIOException: SYSTEM:CATALOG
Error: SYSTEM:CATALOG (state=08000,code=101)org.apache.phoenix.exception.PhoenixIOException: SYSTEM: ...
phoenix连接hbase数据库，创建二级索引报错：Error: org.apache.phoenix.exception.PhoenixIOException: Failed after attempts=36, exceptions: Tue Mar 06 10:32:02 CST 2018, null, java.net.SocketTimeoutException: callTimeou
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VM ...
apache phoenix 安装试用
备注: 本次安装是在hbase docker 镜像的基础上配置的,主要是为了方便学习,而hbase搭建有觉得有点费事,用镜像简单. 1. hbase 镜像 docker pull har ...
How to use DBVisualizer to connect to Hbase using Apache Phoenix
How to use DBVisualizer to connect to Hbase using Apache Phoenix Article DB Visualizer is a popular ...

随机推荐

django之signal机制再探
djangobb中的signal post_save信号调用send函数时,为什么它会对与topic.post相关的其他models进行修改?同一个信号,例如post_save(保存过后的处理),是所 ...
javascript中let和var的区别
let是es6中新增命令,也是用来声明变量的,可能很多小伙伴都像我一样,定义变量的时候都会用var而很少用到let,那么,let和var到底有什么区别呢? let和var的区别体现在作用域上.var的 ...
异步请求Ajax（取得json数据）
异步请求Ajax 没有学习Ajax之前请求数据的时候都是整个页面全部刷新了一次,也就是每次请求都会重新请求所有的资源.但是在很多时候不需要页面全部刷新,仅仅是需要页面的局部数据刷新即可,此时需要发送异 ...
早期自学jQuery-一入门
本节目录: ----------①安装使用 ----------②语法 ----------③文档就绪函数 ----------④选择器一.安装使用(特别注意jQuery应当位于<head&g ...
echart 单选legend 并排序
java代码 List<Map<String, Object>> AllList = null; JSONArray jsonArray = JSONArray.fromObj ...
Mysql 单表查询子查询关联查询
数据准备: ## 学院表create table department( d_id int primary key auto_increment, d_name varchar(20) not nul ...
C++ is_same
is_same template< class T, class U > struct is_same; 如果T与U具有同一const-volatile限定的相同类型,则is_same&l ...
jquery 设置某div里面的内容为此div里面非img标签的内容
$('#div_1').html($('#div_1').children().not("img")); 要注意 <div id="#div_1"> ...
UI动画优化技巧
知乎上一篇比较好的文章,分享一下: tabs slide 内容过渡动画好的动画会淡化页面直接的过度. 但更好的做法是使用连续的动画来来过度内容当我们在设计交互式选项卡或弹出式菜单的时候,尝试将内容 ...
AndFix注意事项
1.生成补丁,修改前后的apk包都必须签名. 2.AndFix 不支持修改布局文件. 3.文件的路径必须正确. 4.AndFix 不支持添加匿名内部类(就是点击事件). 5.AndFix 不支持添加新 ...

Mapreduce atop Apache Phoenix (ScanPlan 初探)

Phoenix 建表

窥探ScanPlan

Mapreduce atop Apache Phoenix (ScanPlan 初探)的更多相关文章

随机推荐

热门专题