DataBrewery Cubes 连接Kylin
问题背景
Kylin作为一个极其优秀的MOLAP,提供了完整的Cube创建、更新流程。同时提供了Sql查询。功能上看没有问题,但是在提供查询服务的时候还是有些不友好。
sql查询需要常常需要关联Hive表,Cube的作用是对查询做优化,但是用户需要知道hive表结果——为什么不提供接口让用户直接对Cube模型查询呢?
比如,我们用kylin建立了一个Sales Cube,关于公司销售数据统计。维度包括:年/季度/天,以及部门site;统计值measure包括,销售金额,销量,销售员数量等。
这个Cube需要通过两个hive表join得到基础数据。
我们不想让用户关心底层的hive表结构,而是希望他们能够更直接地对Cube的数据结构查询。
MDX
多维表达式是OLAP的查询语言,查询对象是多维数据结构Cube,解析器(例如Mondrian)会吧MDX转换成SQL来查询关系数据库(可能是多条查询)。
Cubes Framework
从API调用者的角度提供一套OLAP操作的API可能更友好,例如我们的Sales Cube模型建立好之后,通过drilldown/rollup, slice/dice操作的组合就能得到最终的统计结果。这比用MDX或者Sql都更方便。Cubes能做到(https://pythonhosted.org/cubes/index.html)
某种意义上Cubes是多维模型的ORM。
Kylinpy
Cubes支持多种数据源,只要有SqlAlchemy dialect就可以。kylinpy是kylin的sqlalchemy包。但是跟cubes对接时需要稍作修改:
diff --git a/kylinpy/kylindb.py b/kylinpy/kylindb.py
index bd0562e..6d6f7c7 100644
--- a/kylinpy/kylindb.py
+++ b/kylinpy/kylindb.py
@@ -39,6 +39,10 @@ class Cursor(object):
] for c in self._column_metas)
def execute(self, query, *params, **kwargs):
+ for param in params:
+ for k,v in param.items():
+ query = query.replace('%('+k+')s', str(v))
+
Cubes model.json
根据Kylin的模型建立对应的Cubes模型文件:
{
"dimensions": [
{
"name":"year",
"levels": [
{
"name":"YEAR",
"label":"YEAR",
"attributes": ["YEAR_BEG_DT"]
},
{
"name":"QUATER",
"label":"QUATER",
"attributes": ["QTR_BEG_DT"]
},
{
"name":"PART_DT",
"label":"PART_DT",
"attributes": ["PART_DT"]
}
]
},
{
"name":"site",
"levels": [
{
"name": "LSTG_SITE_ID",
"label": "LSTG_SITE_ID",
"attributes": ["LSTG_SITE_ID"]
}
]
}
],
"cubes": [
{
"name": "KYLIN_SALES",
"dimensions": ["year", "site"],
"joins": [
{"master":"PART_DT", "detail":"KYLIN_CAL_DT.CAL_DT","method": "match"}
],
"measures": [
{"name": "PRICE", "label": "PRICE"},
{"name": "ITEM_COUNT", "label": "ITEM_COUNT"},
{"name": "SELLER_ID", "label": "SELLER_ID", "aggregates":["count_distinct"]}
],
"aggregates": [
{
"name": "TOTAL_SOLD",
"function": "sum",
"measure": "PRICE"
},
{
"name": "TOTAL_ITEMS",
"function": "sum",
"measure": "ITEM_COUNT"
},
{
"name": "_COUNT_",
"function": "count"
},
{
"name": "DISTINC_SALLERS",
"function": "count_distinct",
"measure": "SELLER_ID"
}
],
"mappings": {
"year.PART_DT": "PART_DT",
"year.YEAR_BEG_DT": "KYLIN_CAL_DT.YEAR_BEG_DT",
"year.QTR_BEG_DT": "KYLIN_CAL_DT.QTR_BEG_DT",
"site.LSTG_SITE_ID": "LSTG_SITE_ID"
},
"info": {
"min_date": "2010-01-01",
"max_date": "2010-12-31"
}
}
]
}
slicer启动和使用
slicer.ini 文件
[workspace]
log_level: debug
[server]
host: localhost
port: 5000
reload: yes
prettyprint: yes
[store]
type: sql
url: kylin://ADMIN:KYLIN@localhost:7070/Tutorial?version=v1
schema=DEFAULT
dimension_schema=DEFAULT
[models]
main: model.json
启动
slicer serve slicer.ini
http查询示例:
-- 按季度下钻所有统计结果
http://localhost:5000/cube/KYLIN_SALES/aggregate?drilldown=year:QUATER
-- 按年下钻所有统计结果
http://localhost:5000/cube/KYLIN_SALES/aggregate?drilldown=year:YEAR
-- 按年下钻site0的所有统计结果
http://localhost:5000/cube/KYLIN_SALES/aggregate?drilldown=year:YEAR&cut=site:0
-- 对0-4这几个销售点,统计2012年每个季度的结果
http://localhost:5000/cube/KYLIN_SALES/aggregate?drilldown=year.QUATER|site&cut=year.YEAR_BEG_DT:date'2012-01-01'|site:0-4
DataBrewery Cubes 连接Kylin的更多相关文章
- 使用Kylin构建企业大数据分析平台的4种部署方式
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...
- Kylin如何进行JDBC方式访问或者调用
Kylin提供了标准的ODBC和JDBC接口,能够和传统BI工具进行很好的集成.分析师们可以用他们最熟悉的工具来享受Kylin带来的快速.我们也可以对它进行定制开发报表等,把kylin当做数据库服务器 ...
- Python之Cubes框架使用
本文主要内容包含Cubes框架的介绍和简单使用. 一. 介绍和安装 Cubes是一个轻量级的Python框架和一套工具,用于开发报告和分析应用程序,在线分析处理(OLAP),多维分析和聚合数据的浏览. ...
- superset 安装测试,基于windows 和 centos7.x
1.刚开始在windows平台测试搭建,报各种问题,搭建可以参考官网https://superset.incubator.apache.org/installation.html#deeper-sql ...
- kylin 连接 hortonworks 中的 hive 遇到的问题
用 hortonworks(V3.1.0.0) 部署了 ambari (V2.7.3),用 ambari 部署了 hadoop 及 hive. 1. 启动 kylin(V2.6)时,遇到如下问题: ...
- 使用别的电脑连接另一台电脑当中的虚拟机中的kylin项目
环境说明: 本机A的ip:192.168.0.242 服务器B的ip:192.168.0.125 服务器上的虚拟机C的ip:192.168.43.129 目前状态: B上面能访问C上的站点kylin站 ...
- 【Kylin实战】邮件报表生成
在cube build完成后,我的工作是写sql生成数据分析邮件报表.但是,问题是这种重复劳动效率低.易出错.浪费时间.还好Kylin提供RESTful API,可以将这种数据分析需求转换成HTTP请 ...
- Apache Kylin的核心概念
不多说,直接上干货! 1.表(table):This is definition of hive tables as source of cubes,在build cube 之前,必须同步在 kyli ...
- Apache Kylin远程代码执行漏洞复现(CVE-2020-1956)
Apache Kylin远程代码执行(CVE-2020-1956) 简介 Apache Kylin 是美国 Apache 软件基金会的一款开源的分布式分析型数据仓库.该产品主要提供 Hadoop/Sp ...
随机推荐
- zabbix安装脚本
#!/bin/bash # #安装zabbix源.aliyun YUM源 #curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyu ...
- indexOf() 如何判断一个元素在指定数组中是否存在? 找出指定元素出现的所有位置? indexOf()方法 是正序查找,lastIndexOf()是倒叙查找
indexOf()方法返回在数组中可以找到一个给定元素的第一个索引,如果不存在,则返回-1. let a = [2, 9, 7, 8, 9]; a.indexOf(2); // 0 a.indexOf ...
- 特大数字之和,返回结果是字符串(考虑到数字特别大,如果相加会产生e)
自己做的,没有整理代码,还是做出来了: 做这个题时,最总要的一步思路就是,先让长度一致,然后从个位开始,每一个与每一个数字相加,如果大于10,则下一次另外两个数相加时加1 function add(a ...
- 多层josn数据 修改
var aa = { a: 1, b: { c: 1, d: 1 }, e: [{ f: 1, g: 2 }, { h: 1, i: { j: 3, k: [{ l: 55, m: [1, 2, 3, ...
- Android自定义View之上拉、下拉列表 头部元素跟随 缩放、平移效果的实现
滑动ListView列表然后 listView上边的视图 跟随着上拉或者下拉的距离 自动放大或者缩小 视图里边元素自动平移的效果 思路很简单 根据listView 的滑动距离去计算图片和文字应该平移 ...
- php Pthread 线程 互斥锁
在进行并发操作时,会导致共享数据的完整性的问题,要加入锁,在任意时刻只有一个线程访问该对象在PHP中定义专门用于线程同步控制的mutex的函数, pthreads v3 中已经将 Mutex 类移除. ...
- Javascript组成--ECMAScript,DOM,BOM
ECMAScript 部分 ECMAScript是一个标准,JS只是它的一个实现,其他实现包括ActionScript; “ECMAScript可以为不同种类的宿主环境提供核心的脚本编程能力”,即EC ...
- git的一些常用操作
一.克隆默认分支 git clone 远程地址 二.克隆某一分支 git clone -b 分支名 远程地址 三.切换分支 git branch 分支名 四.一般开发提交的流程 1).查看本地状态 g ...
- 特殊篮子问题——C语言暴力破解
You are given N baskets of gold coins. The baskets are numbered from 1 to N. In all except one of th ...
- 游戏脚本编程 文本token解析
一个数字的组成由以下几个字符 正负号 + - 小数点 . 数字 0-9 比如 3 -3 3.13 -34.2234 但是符号和小数点不会出现多次 那么识别流程用图来表示 则是 整数 浮点数 一 ...