kylin适用场景

  • OLAP
  • 它适合数据量大,查询维度多,但是业务改动不频繁的场景。因为业务多,则kylin的cube很多。每次业务变更,kylin修改的工作量大,且每次全量跑数据耗费时间比较长。
  • 它是采用空间换时间,预先将结果计算出来。维度较多时,数据膨胀很快。
  • 如果查询结果可以直接命中,则查询速度很快;如果cube未覆盖,则查询很慢。

如果业务频繁迭代,初期可以考虑用mysql来支撑,等业务比较稳定以后,通过kylin来优化查询速度。

关键概念

  1. 维度:维度是观察数据的角度。例如:销售日期、销售地点。计算机一点的描述就是在SQL中就是where、group by里的字段。

  2. 度量(指标):度量是具体考察的聚合数量值,例如:销售数量、销售金额、人均购买量。计算机一点描述就是在SQL中就是聚合函数

    –COUNT:统计行数量
    
    –SUM:获取单个列的合计值
    
    –AVG:计算某个列的平均值
    
    –MAX:计算列的最大值
    
    –MIN:计算列的最小值
    
    group by 关键字表示要进行分类聚合的字段,比如要按照班级分类进行学生人数统计,班级就应该放在group by 的后面。
  3. Aggregation Groups

    维度聚合组:给维度分组,属于不同组的维度不会组合(各组内部才能随意组合,组和组之间不组合)。

    主要作用:减少维度组合

    include:组里的所有维度字段。

    A、 联合维度Joint Dimensions:简单说:所有查询维度的集合>=联合维度。联合维度视为一个维度。适用于:多个维度都是查询条件,如group by outid,day,则outid、day作为联合维度。考虑查询条件中的非动态拼接的sql,如果有where、group by有多个维度,可以考虑设为联合维度。

    有效剪枝。跨联合的查询会把多个联合维度查询出来,再合并。(根据查询业务分组,就能有效剪枝,并且没有关联多个的查询,从而效率高)。

    B、 必要维度Mandatory Dimensions:简单说:所有查询维度的集合>必要维度。join条件、查询必须带上的条件,作为必要维度。(多个必要维度时,生成的维度组合可能是不包括必要维度组合本身的。在查询中出现了按照必要维度查询不了的情况【这里可能是kylin的一个bug,必要维度组合本身不产生维度,但是sql解析的时候认为产生了所以会匹配成功,然后报错,并且挡住了其他可能支持这个查询的cube的匹配】)多个必要维度可以用联合维度代替。如果维度组(聚合组)的维度包含必要维度所有列,则查询必要维度就可以进行,因为可以通过必要维度和其他维度组合后的结果来汇总必要维度的查询结果。

    C、 派生维度derived:把维度表的多个维度字段,不用当作维度构建;而是通过维度表的主键来查询,然后再通过维度表去找到维度。当维度表主键和维度字段不是一对一的时候,还需要二次聚合。这个能剪枝,但是影响查询效率。

    派生维度是针对维度表的,如果某张维度表有多个维度,如果该维度表一个或者多个列和维度表的主键是一一对应的,则可以将这些维度设置为派生维度。这样在Kylin内部会将其统一用维度表的主键来替换,以降低维度组合的数目。但查询效率会降低,因为Kylin在使用维度表主键进行聚合后,查询时需要再将主键转换为真正的维度列返回给用户。

    D、 层级维度Hierarchy Dimensions:指一系列具有层级关系的维度组成一个层级维度,设置了层级之后,对Cuboid增加了约束,低Level的维度一定要伴随高Level的维度出现,从而使维度组合大大减少。。比如校区、院系、专业、班级

    高基数维度,在groups中出现次数较多的维度。

  • sql与kylin概念对应关系:
sql kylin
select 语句中的函数中的字段 度量
非select语句中的字段和select语句中的直接使用的字段,如where、group by、 维度

举例:

select classname, sum(consume)
from consummer
where gradelevel = ''
group by classcode; 维度: classname、gradelevel、classcode, 其中classname在某些情况下可以设为派生维度。
度量:consume

普通用法与流程

hive建表与导入数据-->新建model-->根据model新建cube

DDL

  • 建外部表
----edu_grade_filter_r------
DROP TABLE IF EXISTS edu_grade_filter_r; create external table edu_grade_filter_r
(id BIGINT, outid string,name string,semester string, course_no string, course_name string, score string, course_natures string,
course_properties string, class_hour string,credit string, exam_natures string, school_code string, grade_level string,
faculty_code string, major_code string, class_code string, point string, course_properties_new string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE location '/jkd/edu_grade_filter_r'; -- load data 适合分区表的情况
-- load data inpath '/jkd/edu_grade/edu_grade_filter_r.txt.txt' into table edu_grade_filter_r;

model

  1. Data Model:表join
  2. Dimensions:必须要选,后面才能在cube中选维度。
  3. Measures:度量

cube

  1. 选维度时,从表一般选normal维度,不选derived派生维度
  2. Aggregation Groups-->include:组里的维度所有字段
  • 如果在多个分组中漏掉了某个维度,将导致维度膨胀,cube占用空间很大。
  1. model-->cube(action:build)-->job(monitor)。

如果构建成功,则job不能再重新跑,需要在cube处disabled,然后再build;如果有修改,则先purge(清除),再重新build。

  1. cube构建成功后,可以通过insight查看sql的结果。
cube操作说明

Drop:丢弃现有cube,条件:无Pending, Running, Error 状态的job.

Edit:编辑现有cube,条件:cube需处于disable状态。

Refresh:重建某已有时间段数据,针对于已build时间段的源数据发生了改变的情况。

Merge:手动触发merge操作。

Enable:使拥有至少一个有效segment的cube从disable变为enable状态。

Purge:清空所有该cube的数据。

Clone:克隆一个新的cube,可设置新的名字,其他相关配置与原cube相同。

Disable:使一个处于ready状态的cube变为Disable状态,查询不会从disable的cube中获取数据。

参考文献

  • Apache Kylin 权威指南

tips:本文属于自己学习和实践过程的记录,很多图和文字都粘贴自网上文章,没有注明引用请包涵!如有任何问题请留言或邮件通知,我会及时回复。

kylin实战(一)的更多相关文章

  1. kylin实战系列(一)

    kylin实战系列(一) 把之前kylin的实践小结一下,以备以后查看.

  2. 【Kylin实战】Hive复杂数据类型与视图

    1. 引言 在分析广告日志时,会有这样的多维分析需求: 曝光.点击用户分别有多少? 标签能覆盖多少广告用户? 各个标签(标注)类别能覆盖的曝光.点击在各个DSP上所覆盖的用户数 -- 广告数据与标签数 ...

  3. 【Kylin实战】邮件报表生成

    在cube build完成后,我的工作是写sql生成数据分析邮件报表.但是,问题是这种重复劳动效率低.易出错.浪费时间.还好Kylin提供RESTful API,可以将这种数据分析需求转换成HTTP请 ...

  4. CDH+Kylin三部曲之一:准备工作

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  5. kylin从入门到实战:实际案例

    版权申明:转载请注明出处.文章来源:http://bigdataer.net/?p=308 排版乱?请移步原文获得更好的阅读体验 前面两篇文章已经介绍了kylin的相关概念以及cube的一些原理,这篇 ...

  6. kylin入门到实战:cube详述

    版权申明:转载请注明出处. 文章来源:http://bigdataer.net/?p=306 排版乱?请移步原文获得更好的阅读体验 1.什么是cube? cube是所有dimession的组合,每一种 ...

  7. kylin入门到实战:入门

    版权申明:转载请注明出处.文章来源:http://bigdataer.net/?p=292 排版乱?请移步原文获得更好的阅读体验 1.概述 kylin是一款开源的分布式数据分析工具,基于hadoop之 ...

  8. 《基于Apache Kylin构建大数据分析平台》

    Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者 ...

  9. Kylin的cube模型

    1. 数据仓库的相关概念 OLAP 大部分数据库系统的主要任务是执行联机事务处理和查询处理,这种处理被称为OLTP(Online Transaction Processing, OLTP),面向的是顾 ...

随机推荐

  1. 关于js中this指向的问题

    this的绑定规则有4种 默认绑定 隐性绑定 显性绑定 new绑定 this绑定优先级 new 绑定 > 显性绑定 > 隐性绑定 > 默认绑定 1.如果函数被new 修饰 this绑 ...

  2. 第八周课程总结&实验报告(六)

    第八周课程总结 启动多线程售票(上课老师说要加入作业的部分) public class TestDemo { public static void main(StringD args) throws ...

  3. [bzoj2746][HEOI2012]旅行问题 _AC自动机_倍增

    [HEOI2012]旅行问题 题目链接:https://www.lydsy.com/JudgeOnline/problem.php?id=2746 题解: 这个是讲课时候的题. 讲课的时候都在想怎么后 ...

  4. Tcpdump移植

    摘要: tcpdump对网络上的数据包进行截获的包分析工具. tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析.它支持针对网络层.协议.主机.网络或端口的过滤,并提供and.or.n ...

  5. 使用Minikube运行一个本地单节点Kubernetes集群(阿里云)

    使用Minikube运行一个本地单节点Kubernetes集群中使用谷歌官方镜像由于某些原因导致镜像拉取失败以及很多人并没有代理无法开展相关实验. 因此本文使用阿里云提供的修改版Minikube创建一 ...

  6. python不同编码方式对应所占字节数

    不同编码方式对应所占字节数 ASCII码中,一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间.一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,换算为十进制. ...

  7. Jmeter的基础使用一安装、启动、关联、断言

    一.下载Jmeter,配置环境变量 下载完解压即可, 环境变量配置: -------在环境变量中添加新变量JMETER_HOME:D:\jmeter\apache-jmeter-4.0 ------- ...

  8. c# word excel text转html的方法

    首先是预览图片,这个功能很好实现,无非就是创建一个html页面,嵌套一个<img>,为了限制图片类型,可以定义一个允许预览类型数组作为限制: /// <summary> /// ...

  9. centos配置vsftpd服务2

    ftp搭建 一.搭建前提a.ssh服务已经开启,b.防火墙关闭,c.连网1.查看ssh和防火墙的状态 service sshd status service iptables status 2.开启s ...

  10. input框blur事件 ie问题

    在chrome和firefox里会返回 在ie却获取不到relatedTarget:可以通过document.activeElement获取到点击到哪个标签 注意document.activeElem ...