Kylin Flink Cube 引擎的前世今生】的更多相关文章

Apache Kylin™ 是一个开源的.分布式的分析型数据仓库,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的表. Kylin 的核心思想是”预计算“,将数据按照指定的维度和指标,预先计算出所有可能的查询结果,利用空间换时间来加速模式固定的 OLAP 查询. Kylin 的理论基础是 Cube 理论,每一种维度组合称之为 Cuboid,所有 Cuboid 的集合称之为 Cube.如下图,整个立方体称为 1 个 Cub…
1. 数据仓库的相关概念 OLAP 大部分数据库系统的主要任务是执行联机事务处理和查询处理,这种处理被称为OLTP(Online Transaction Processing, OLTP),面向的是顾客,诸如:办事员.DBA等.而数据仓库主要面向知识工人(如经理.主管等)提供数据分析处理,这种处理被称为OLAP(Online Analysis Processing).OLTP管理的是当前数据,比较琐碎,很难用于做决策.而OLAP管理的是大量历史数据,提供汇总与聚集机制,并在不同的维度.不同的粒度…
转自:http://www.cnblogs.com/en-heng/p/5239311.html 1. 数据仓库的相关概念 OLAP 大部分数据库系统的主要任务是执行联机事务处理和查询处理,这种处理被称为OLTP(Online Transaction Processing, OLTP),面向的是顾客,诸如:办事员.DBA等.而数据仓库主要面向知识工人(如经理.主管等)提供数据分析处理,这种处理被称为OLAP(Online Analysis Processing).OLTP管理的是当前数据,比较琐…
1 引入Spark引擎 Kylin v2开始引入了Spark引擎,可以在构建Cube步骤中替换MapReduce. 关于配置spark引擎的文档,下面给出官方链接以便查阅:http://kylin.apache.org/docs20/tutorial/cube_spark.html 以下是配置步骤:1.在kylin的安装目录下,新建目录hadoop_conf mkdir  $KYLIN_HOME/hadoop_conf 2.将core-site.xml,hdfs-site.xml,hbase-s…
前言 下面通过对kylin构建cube流程的分析来介绍cube优化思路. 创建hive中间表 kylin会在cube构建的第一步先构建一张hive的中间表,该表关联了所有的事实表和维度表,也就是一张宽表. 优化点: 1. hive表分区优化,在构建宽表的时候,kylin需要遍历hive表,事实表和维度表如果是分区表,那么会减少遍历时间 2. hive相关配置调整,join相关配置,mapreduce相关配置等 创建完成后,为了防止文件大小不一致的情况,kylin又基于hive做了一次重均衡操作,…
说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz 新一代Flink计算引擎 (1) Flink概述 目前开源大数据计算引擎有很多的选择,比如流处理有Storm.Samza.Flink.Spark等,批处理有Spark.Hive.Pig.Flink等.既支持流处理又支持批处理的计算引擎只有Apache Flink和Apache Spark. 虽然Spar…
1 前言 在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的格式必须是日期格式,表示日期的含义)设定分区字段,这样一个cube就可以进行多次build,每一次的build会生成一个segment,每一个segment对应着一个时间区间的cube,这些segment的时间区间是连续并且不重合的,对于拥有多个segment的cube可以执行merge,相当于将一…
在安装好kylin之后我直接去访问web监控页面发现能够进去,也没有去看日志.然后在运行官方带的例子去bulid cube时去发现状态一直是pending而不是runing.这个时候才去查看日志: 2017-01-18 09:54:49,236 INFO [localhost-startStop-1] web.DefaultSecurityFilterChain:28 : Creating filter chain: org.springframework.security.web.util.A…
通常是用于增量 代码如下: package com.dlht.kylinDemo; import java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.net.HttpURLConnection; import java.ne…
1. 首先要创建 Project 2. 再把Hive 表加载进来: 3. 创建model 3.1. 首先选择或者创建一个project   3.2.创建一个新modle   3.3. 选择数据库   3.4 选择dimension (需要用到的列)   3.5. 选择 measure 用作过滤,聚合 6     4.  创建cube 4.1.选择model   4.2.输入cube名称 自动生成dimension:   全选:   这里没有用到聚合,所以直接到下一步:       4.3. bu…