Kylin工作原理、体系架构

核心思想：预计算。

　　对多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube，并存在HBase中，供查询时直接访问

　　将高复杂度的聚合运算、多表连接……操作转换成对预计算结果的查询。决定了Kylin拥有很好的快速查询、高并发能力

　　理论基础：空间换时间

Cuboid：Kylin中将维度任意组合成为一个Cuboid

Cube：Kylin中将所有维度组合成为一个Cube，即包含所有的Cubeid

　　为了更好地使用Hadoop大数据环境，Kylin从通常用来做数据仓库的HIve中读取源数据，使用Mapreduce作为Cube构建的引擎，并将于计算结果保存在HBase中，对外暴露Restful API/JEBC/ODBC的查询接口。

　　Kylin支持标准的ANSI SQL,所以可以和常用分析工具（Tableau、Excel）进行无缝对接

restful api：

　　符合REST架构设计的API。

　　RESTful架构，就是目前最流行的一种互联网软件架构。它结构清晰、符合标准、易于理解、扩展方便，所以正得到越来越多网站的采用

　　REST，即Representational State Transfer的缩写

　　如果一个架构符合REST原则，就称它为RESTful架构

　　什么是RESTful架构：

　　（1）每一个URI代表一种资源；

　　（2）客户端和服务器之间，传递这种资源的某种表现层；

　　（3）客户端通过四个HTTP动词，对服务器端资源进行操作，实现"表现层状态转化"。

JDBC

　　（Java DataBase Connectivity,java数据库连接）是一种用于执行SQL语句的Java API，可以为多种关系数据库提供统一访问，它由一组用Java语言编写的类和接口组成。

　　JDBC提供了一种基准，据此可以构建更高级的工具和接口，使数据库开发人员能够编写数据库应用程序

ODBC

　　开放数据库连接（Open Database Connectivity，ODBC）是微软公司开放服务结构（WOSA，Windows Open Services Architecture）中有关数据库的一个组成部分，它建立了一组规范，并提供了一组对数据库访问的标准API（应用程序编程接口）。

　　这些API利用SQL来完成其大部分任务。ODBC本身也提供了对SQL语言的支持，用户可以直接将SQL语句送给ODBC。

　　开放数据库互连（ODBC）是Microsoft提出的数据库访问接口标准。

　　开放数据库互连定义了访问数据库API的一个规范，这些API独立于不同厂商的DBMS，也独立于具体的编程语言（但是Microsoft的ODBC文档是用C语言描述的，许多实际的ODBC驱动程序也是用C语言写的。）

　　ODBC规范后来被X/OPEN和ISO/IEC采纳，作为SQL标准的一部分，具体内容可以参考《ISO/IEC 9075-3:1995 (E) Call-Level Interface (SQL/CLI)》等相关的标准文件。

ANSI SQL

　　“美国国家标准化组织(ANSI)”是一个核准多种行业标准的组织。

　　SQL作为关系型数据库所使用的标准语言，最初是基于IBM的实现在1986年被批准的。

　　1987年，“国际标准化组织(ISO)”把ANSI SQL作为国际标准。

体系架构：

　　Kylin是一个MOLAP（多维在线联机分析处理）系统，将Hive中的数据进行预计算，利用Hadoop的Mapreduce分布式计算框架来实现

　　Kylin获取的表是星型模型结构的。目前建模时，只支持一张事实表，多张维表。

　　如果业务需求比较复杂，就要考虑在Hive中进行进一步处理。（比如生成一张大的宽表，或者采用View代替）

　　HBase：Kylin中用来存储OLAP分析的Cube数据的地方，实现多维数据集的交互式查询

Cube构建

　　Layer Cubing：按照dimension数量从大到小的顺序，从Base Cuboid开始，依次基于上一层Cubeid的结果进行再聚合。每一层的计算都是一个单独的MapReduce任务

　　　　逐层算法，启动N+1轮MapReduce计算：

　　　　　　第一轮，读取原始数据RawData，去掉不相关的列，只保留相关的列。同时对维度列进行压缩编码（此处，计算出ABCD组合，即base cuboid）

　　　　　　此后每一轮MapReduce，输入是上一轮的输出，以重用之前的计算结果，去掉要聚合的维度，算出新的Cuboid，直到最后算出所有的Cubeid

　　　　1.5.x开始引入Fast（in-mem） cubing算法，利用Mapper端计算先完成大部分聚合，再将聚合后的结果交给Reducer，从而降低对网络瓶颈的压力。

　　　　MapReduce的计算结果最终保存到HBase中，HBase中每行记录的Rowkey由dimention组成，measure会保存再Column family中。为了减少存储代价，会对dimension和measure进行编码。

Kylin的Sql查询

　　Cube构建完成后，可以查询维度对应的度量值了。

　　查询时，SQL语句被SQL解析器翻译成一个解析计划，从这个计划可以准确知道用户要查哪些表，怎样join起来，有哪些过滤条件。Kylin用这个计划去匹配找寻到合适的Cube

　　如果有Cube命中，这个计划会发送到存储引擎，翻译成对存储（默认HBase）相应的Scan操作

　　　group by、过滤条件的列，用来找到Cuboid，过滤条件会被转换成Scan的开始、结束值，以缩小Scan的范围

　　　Scan的result、Rowkey会被反向解码成各个dimension的值，Value会被解码成Metrics值，同时利用HBase列存储的特性，可以保证Kylin有良好的快速响应、高并发

Kylin的特性、生态圈

　　1.可扩展、超快OLAP引擎

　　2.Hadoop ANSI SQL 接口

　　3.交互式查询能力

　　4.多维立方体MOLAP Cube

　　5.与BI工具（Tableau）无缝整合

　　6.其他特性

LDAP:

　　LDAP是轻量目录访问协议，英文全称是Lightweight Directory Access Protocol，一般都简称为LDAP。

　　它是基于X.500标准的，但是简单多了并且可以根据需要定制。与X.500不同，LDAP支持TCP/IP，这对访问Internet是必须的。

　　LDAP的核心规范在RFC中都有定义，所有与LDAP相关的RFC都可以在LDAPman RFC网页中找到。

　　LDAP目录以树状的层次结构来存储数据。如果你对自顶向下的DNS树或UNIX文件的目录树比较熟悉，也就很容易掌握LDAP目录树这个概念了。就象DNS的主机名那样，

　　LDAP目录记录的标识名（Distinguished Name，简称DN）是用来读取单个记录，以及回溯到树的顶部。

Kylin生态圈

ETL: Extract-Transform-Load

　　用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。

　　ETL一词较常用在数据仓库，但其对象并不限于数据仓库。

　　ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

Kylin工作原理、体系架构的更多相关文章

zabbix监控的基础概念、工作原理及架构（一）
zabbix监控的基础概念.工作原理及架构转载于网络一.什么是zabbix及优缺点 Zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供灵活的通知机制以让系统管理员快速定位/解决存在的 ...
zabbix监控的基础概念、工作原理及架构
一.什么是zabbix及优缺点(对比cacti和nagios) Zabbix能监视各种网络参数,保证服务器系统的安全运营:并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题.是一个基于WE ...
【转】 ISP概述、工作原理及架构
1.概述 ISP全称Image Signal Processing,即图像信号处理.主要用来对前端图像传感器输出信号处理的单元,以匹配不同厂商的图象传感器. ISP 通过一系列数字图像处理算法完成对数 ...
CSI 工作原理与JuiceFS CSI Driver 的架构设计详解
容器存储接口(Container Storage Interface)简称 CSI,CSI 建立了行业标准接口的规范,借助 CSI 容器编排系统(CO)可以将任意存储系统暴露给自己的容器工作负载.Ju ...
《浏览器工作原理与实践》<01>Chrome架构：仅仅打开了1个页面，为什么有4个进程？
无论你是想要设计高性能 Web 应用,还是要优化现有的 Web 应用,你都需要了解浏览器中的网络流程.页面渲染过程,JavaScript 执行流程,以及 Web 安全理论,而这些功能是分散在浏览器的各 ...
CPU的内部架构和工作原理（转，相当不错）
http://blog.chinaunix.net/uid-23069658-id-3563960.html 一直以来,总以为CPU内部真是如当年学习<计算机组成原理>时书上所介绍的那样, ...
CPU的内部架构和工作原理
一直以来,总以为CPU内部真是如当年学习<计算机组成原理>时书上所介绍的那样,是各种逻辑门器件的组合.当看到纳米技术时就想,真的可以把那些器件做的那么小么?直到看了Intel CPU制作流 ...
Tomcat 系统架构与设计模式，第 1 部分: 工作原理（转载）
简介: 这个分为两个部分的系列文章将研究 Apache Tomcat 的系统架构以及其运用的很多经典设计模式.本文是第 1 部分,将主要从 Tomcat 如何分发请求.如何处理多用户同时请求,还有它的 ...
Tomcat 系统架构与设计模式，第 1 部分: 工作原理
简介: 这个分为两个部分的系列文章将研究 Apache Tomcat 的系统架构以及其运用的很多经典设计模式.本文是第 1 部分,将主要从 Tomcat 如何分发请求.如何处理多用户同时请求,还有它的 ...

随机推荐

bash shell 编程练习
原始文件: find /etc -name passwd 2>&1 | tee ee.log 1. cat -n 把 e.log 的文档内容加上行号后输入 e2.log 这个文档里: x ...
【javascript】获取格式化时间
function getDate() { var myDate = new Date(); var month = myDate.getMonth() + 1; var day = myDate.ge ...
Mysql相关技术细节整理
一.错误日志相关 1.mysql错误日志所在位置 windows下,错误日志文件一般在安装目录下的data目录下.扩展名是.err的文件,也可以打开安装目录下的my.ini文件检查一下linux下,错 ...
STO（Security Token Offering）证券型通证、代币发行介绍
STO(Security Token Offering)证券型通证.代币发行介绍:STO(Security Token Offering)是一个新的融资概念.通过证券化的通证进行融资.早在2017年年 ...
Python智能检测编码并转码
#安装包工具 $pip3 install chardet #直接打开文件,中文显示乱码 >>> import chardet >>> f = open('test. ...
scrapy_novel_python
# _*_ coding:UTF _8_ from bs4 import BeautifulSoup import requests,sys class downloader(object): def ...
Torch或Numpy
1.什么是NumpyNumpy系统是Python的一种开源的数值计算扩展,用python实现的科学计算包.这种工具可用来存储和处理大型矩阵,包括强大的N维数组对象Array,比较成熟的函数库等.num ...
在Vmware中安装CentOS7
想要安装linux系统,在电脑上先装一个虚拟机,当然装双系统也是可以的.首先准备材料,3步:1.从CentOS的官网上下载CentOS7,DVD ISO版本,大概4G左右.名称:CentOS-7-x8 ...
关于functools模块的wraps装饰器用途
测试环境:Python3.6.2 + win10 + Pycharm2017.3 装饰器之functools模块的wraps的用途: 首先我们先写一个装饰器 # 探索functools模块wraps ...
P3302 [SDOI2013]森林（主席树+启发式合并）
P3302 [SDOI2013]森林主席树+启发式合并 (我以前的主席树板子是错的.......坑了我老久TAT) 第k小问题显然是主席树. 我们对每个点维护一棵包含其子树所有节点的主席树询问(x ...

Kylin工作原理、体系架构

Kylin工作原理、体系架构的更多相关文章

随机推荐

热门专题