RDBMS:

关系数据库管理系统(Relational Database Management System),是将数据组织为相关的行和列的系统,而管理关系数据库的计算机软件就是关系数据库管理系统,

常用的数据库软件有OracleSQL Server等。

机分析处理OLAP:

是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。

它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。

其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;

A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部 分,并以用户所希望的方式给出报告;

M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;

I是信息性(Information),指能及时获得信息,并且管理大容量信息。

Multidimension OLAP,简称MOLAP

是Arbor Software严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。

代表产品有Hyperion(原Arbor Software) Essbase、Showcase Strategy等。

事实表:

用来记录具体事件的,包含了每个事件的具体要素,以及具体发生的事情。

包含:记录整个事件的信息,包含的关进信息,可能会用关键标记号(唯一标识符==主键,外键)来表示

维表:

对事实表中事件的要素的描述信息

包含关键标记的具体含义

共享维度:表示多个事实之间的关系

星型模型:

一个或多个fact table和一组dimension table组成。

所有dimention table都直接连接到fact table上

每个dimention table都有一个维作为主键

所有这些维的主键组合成事实表的主键

事实表的非主键属性(非维度),称为fact。一般为数值和其他可以计算的数据

维,大都是文字、事件……类型的数据

按照不同的维(事实表主键的部分||全部)来对这些事实数据进行求和、求平均、计数、百分比的聚集运算》》可以从不同角度,通过数字来分析业务主题的情况

缺点:一种非正规化的结构,多位数据集的每一个维度,都直接与事实表相连,不存在渐变维度,所以数据有一定的冗余

示例:一张商品销售事实表、五张维表组成

  维表:维的具体描述信息

    信息:一般可以分层的。比如:时间维的年月日、地域维的省市县……这类分层的信息,为了满足事实表中的度量可以在不同的粒度上完成聚合。例如:2016年的商品销售额,来自上海市的销售额

  事实表:维属性只是一个关联到维表的键,并不记录具体的信息

    度量:一般都会记录事件相应的数值。产品的销售数量、销售金额……

    主要包含两方面的信息:维、度量。

    维:的具体描述信息在维表,事实表中维属性只是关联到维表的键,不记录具体的信息

雪花型模型

有一个||多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时。

对星型模型的扩展,对星型模型的维表进一步层次化。原有的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,这些被分解的表都连接到主维度表而不是事实表

优点:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。去除了数据冗余

缺点:在进行事实表、维表之间的连接查询,效率比星型模型低。

  在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率

OLAP:on-line analytical processing,联机分析处理

基于数据仓库多维模型的基础上,实现的面向分析的各类操作的集合

按照存储器的数据存储格式分类:

  1.ROLAP:ralational OLAP,关系OLAP

    多维数据存储在关系数据库中。根据应用的需要,有选择地定义一批实视图(应用频率高、计算量比较大的查询)作为表,存储在关系型数据库中,优先利用已经计算好的实视图来生成查询结果。

    优化:并行存储、并行查询、并行数据管理、基于成本的查询优化,位图索引、SQL的OLAP扩展……

    通过一些软件工具、中间软件实现。物理层仍采用关系数据库的存储结构,称为虚拟OLAP(virtualOLAP)

  2.MOLAP:multidimension OLAP,多维OLAP

    多维数据物理上存储维多维数组的形式,形成“立方体的”的结构:维的属性被映射成多维数组的下标值、下标范围,而汇总数据作为多维数组的值存储在数组的单元中

    采用了新的存储结构,从物理层实现起。称为物理OLAP(physicalOLAP)

  3.HOLAP:Hybrid OLAP,混合型OLAP

    基于混合数据组织的OLAP实现,具有更好的灵活性

    特点:将明细数据保留在关系型数据库的事实表中,但聚合后的数据保存在Cube中,聚合时需要比ROLAP更多的时间,查询效率比ROLAP高,但低于MOLAP

基本操作:

  1.查询:select、聚合函数(sum、count、avg……)

  2.多维分析:

  

    

OLTP:on-line transaction processing,联机事务处理

数据立方体:Data Cube

允许多维对数据建模、观察。由维、事实定义

从表方面看,数据立方体时三维的,但是多维模型不仅限于三维模型,可组合更多的模型

生成Cube的过程中,将所有的维度dimensions组合,dimensions的不同组合,在apache kylin中称为cuboid。(包含N各dimensions的cube由2的n次方个cuboid)

kylin3的更多相关文章

  1. 环境篇:Kylin3.0.1集成CDH6.2.0

    环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析( ...

  2. Kylin on Parquet 介绍和快速上手

    Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟,但是存在着一定的局限性.Kylin 查询节点当前主要的计算是在单机节点完成的,存在单点问题.而且由于 HBa ...

  3. kylin streaming原理介绍与特点浅析

    目录 前言 kylin streaming设计和原理 架构介绍 streaming coordinator streaming receiver cluster kylin streaming数据构建 ...

随机推荐

  1. Python大神成长之路: 第二次学习记录

    数据类型          数据操作 bytes 类型 "".encode() 编码-->二进制 "".decode() 解码 判断字符串里的字符是否全为 ...

  2. 【2017-03-13】Tsql 数学函数、字符串函数、转换函数、时间日期函数

    一.数学函数(针对值类型操作) 1.ceiling():取上限 只要小数点后有数字大于0,整数位自动进1 2.floor():取下限 将小数点位舍去,不管小数点位大小 3.round(四舍五入的值,保 ...

  3. 输入输出无依赖型函数的GroovySpock单测模板的自动生成工具(上)

    目标 在<使用Groovy+Spock轻松写出更简洁的单测> 一文中,讲解了如何使用 Groovy + Spock 写出简洁易懂的单测. 对于相对简单的无外部服务依赖型函数,通常可以使用 ...

  4. android studio 添加get,set方法快捷方式

    android studio 添加get,set方法快捷方式

  5. 远程服务调用RPC框架介绍,微服务架构介绍和RPC框架对比,dubbo、SpringClound对比

    远程服务调用RPC框架介绍,微服务架构介绍和RPC框架对比,dubbo.SpringClound对比 远程服务调用RPC框架介绍,RPC简单的来说就是像调用本地服务一样调用远程服务. 分布式RPC需要 ...

  6. JDBC-day02

    JDBC:数据库连接  java  database connectivity ###properties 属性对象,用于读取*.properties属性配置文件中的数据 -为什么使用:之前写法是把数 ...

  7. [转载]Oracle PL/SQL之LOOP循环控制语句

    在PL/SQL中可以使用LOOP语句对数据进行循环处理,利用该语句可以循环执行指定的语句序列.常用的LOOP循环语句包含3种形式:基本的LOOP.WHILE...LOOP和FOR...LOOP. LO ...

  8. CentOS7 重启网卡Failed to start LSB: Bring up/down networking.解决方法

    环境:MAC PD虚拟机安装centos7 修改完网卡配置,重启网络服务报错 使用提示命令查看:systemctl status network.service 发现报错为Failed to star ...

  9. WinCHM 制作开发知识库,So easy!!!

    开发过程中可能需要一些团队需要相互参照的东西,如前后台开发中的接口定义,团队开发规范,公用的类库,开发FAQ等 ,可以考虑用WinCHM这种工具制作开发知识库,然后发布至一Web服务器上,这样开发人员 ...

  10. Cookie,Session,正则表达式

    一.Cookie和Session基础知识 Cookie:客户端本地存储的键值对 Http访问是不记录状态的,所以要借助session和cookie来保存访问状态  当你在浏览网站的时候,WEB 服务器 ...