Hadoop - Kylin On OLAP】的更多相关文章

1.概述 Apache Kylin是一个开源的分布式分析引擎,提供SQL接口并且用于OLAP业务于Hadoop的大数据集上,该项目由eBay贡献于Apache. 2.What is Kylin 在使用一种模型,我们得知道她是干什么的,那么首先来看看Kylin的特性,其内容如下所示: 可扩展超快的OLAP引擎:Kylin是为减少在Hadoop上百亿级别数据查询延迟而设计的. Hadoop ANSI SQL接口:Kylin为Hadoop提供标准的SQL,其支持大部分查询功能. 出色的交互式查询能力:…
数据处理与联机分析处理 ( OLAP ) 联机分析处理是那些为了支持商业智能,报表和数据挖掘与探索等业务而开展的工作.这类工作的样例有零售商按地区和季度两个维度计算门店销售额,银行按语言和月份两个维度计算手机银行装机量,设备制造商定位有哪些零部件的故障率比期望值高.以及医院研究有哪些事件会引起高危婴儿紧张等. 假设原始数据来源于 OLTP 系统.典型的做法是将这些数据复制到 OLAP 数据库中,再进行这类"离线"分析任务的处理,这么做有非常多原因.但考虑最多的还是性能因素. 如果一下,…
关于Kylin的介绍和使用请参考之前的文章 <分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例> Kylin对外提供的是SQL查询接口,基于Kylin构建OLAP多维分析系统,第一种方案是针对业务,定制开发一个前端界面,将界面上用户的选择和操作,翻译成SQL,提交给Kylin查询.另一种方案则是将Kylin与BI工具整合起来,借助BI工具,对Kylin中的Cube进行查询分析.Kylin本身对于BI工具Tableau可以非常好的整合使用,我自己下载了Tableau…
问题导读 1. Centos7如何安装配置? 2. linux网络配置如何进行? 3. linux环境下java 如何安装? 4. linux环境下SSH免密码登录如何配置? 5. linux环境下Hadoop2.7 如何安装? 6. linux环境下Mysql 如何安装? 7. linux环境下Hive 如何安装? 8. linux环境下Zookeeper 如何安装? 9. linux环境下Kafka 如何安装? 10. linux环境下Hbase如何安装? 11. linux环境下KYLIN…
由eBay开源的一个大数据OLAP框架,2014年11月加入了Apache,项目名字也改成了"Apache Kylin",Apache Kylin是唯一来自中国的Apache顶级开源项目,定位于在Hadoop平台之上实现传统数据仓库,商业智能的能力,提供交互式的,多维分析能力,并提供在传统数据仓库技术所不能做到的超大规模数据集的快速查询,并使用普通的PC硬件,而无需采购专用的,私有的一体机或者高端存储等 kylin是一个MOLAP系统,通过预计算的方式缓存了所有 需要查询的的数据结果,…
一.工具准备 zookeeper3.4.6 (hadoop.hbase 管理工具) Hadoop. Hbase1.1.4 Kylin1.5.0-HBase1.1.3 Jdk1.7.80 Hive 二.虚拟主机 192.168.200.165 master1 192.168.200.166 master2 192.168.200.167 slave1 192.168.200.168 slave2 三.安装mysql 查看是否安装了mysql(master1) [root@master1 ~]# p…
1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列.涉及的内容有以下几点: 分布式文件系统 分布式编程模型 NoSQL 数据库 SQL-On-Hadoop 数据采集 编程服务中间件 调度系统 系统部署 数据可视化 2.内容 2.1 分布式文件系统 2.1.1 Apache HDFS 在分布式文件系统当中,首先为…
本文转载自:[技术帖]Apache Kylin 2.0为大数据带来交互式的BI 编者注:Kyligence的联合创始人兼CEO Luke Han在上做题为“”的演讲. 基于Hadoop的SQL一直在被持续地改进,但是一个查询等几分钟到几小时还是非常正常.在这篇博文里,将会介绍开源的分布式分析引擎Apache Kylin,尤其会重点介绍它是如何以数量级加速大数据查询,以及在2.0版里面为交互式BI所提供的新特性,包括对雪花模型的支持和流式建立数据立方. Apache Kylin是什么? Kylin…
Big Data Era: 1.More and more data becoming available on Hadoop2.Limitations in existing Business Intelligence (BI) Tools Limited support for Hadoop Data size growing exponentially High latency of interactive queries Scale-Up architecture3.Cha…
现如今,大数据.数据科学和机器学习不仅是技术圈的热门话题,也是当今社会的重要组成.数据就在每个人身边,同时每天正以惊人的速度快速增长,据福布斯报道:到 2025 年,每年将产生大约 175 个 Zettabytes 的数据量. 目前我们所熟知的行业都越来越依赖于对大数据的高级处理和分析,如金融.医疗保健.农业.能源.媒体.教育等所有重要的社会发展行业,然而这些庞大的数据集让数据分析.数据挖掘.机器学习和数据科学面临了巨大的挑战. 数据科学家和分析师在尝试对于海量数据的分析时会面临数据处理流程复杂…
亲爱的各位社区朋友: Apache Kylin 在 2014 年 10 月开源并加入 Apache 软件基金会的孵化器,一年后从孵化器毕业成为 Apache 顶级项目.从第一天起,Kylin 的标语是「Extreme OLAP Engine for Big Data」.五年来,Kylin 已经成为了大数据版图中一个不可或缺的角色,帮助了全球上千家企业进行高效的大数据分析. 经过五年的发展,如今回头看,我们发现 Kylin 已经不仅仅是一个 OLAP 分析引擎.它的完整能力已经被被广大社区用户证实…
Apache Kylin™ 是一个开源的.分布式的分析型数据仓库,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的表. Kylin 的核心思想是”预计算“,将数据按照指定的维度和指标,预先计算出所有可能的查询结果,利用空间换时间来加速模式固定的 OLAP 查询. Kylin 的理论基础是 Cube 理论,每一种维度组合称之为 Cuboid,所有 Cuboid 的集合称之为 Cube.如下图,整个立方体称为 1 个 Cub…
一.伪分布式安装kylin 2018年4月15日 15:06 安装需要的环境 1. hadoop集群环境:由于安装的是CDH5.14.0的版本,所以相关组件都是跟5.14.0相关 2. spark采用的是2.2.1版本,是根据hadoop2.6.0进行编译的 3. kylin采用的是2.3.1,根据cdh5.7进行编译的 安装过程 启动hadoop集群以及hiveserver2和metastore服务(否则kylin无法访问hive的元数据) nohup hive --service hives…
0x01 Kylin安装环境 Kylin依赖于hadoop大数据平台,安装部署之前确认,大数据平台已经安装Hadoop, HBase, Hive. 1.1 了解kylin的两种二进制包 预打包的二进制安装包:apache-kylin-1.6.0-bin.tar.gz 特别二进制包:apache-kylin-1.6.0-HBase1.x-bin.tar.gz 说明:特别二进制包是一个在HBase 1.1+环境上编译的Kylin快照二进制包:安装它需要HBase 1.1.3或更高版本,否则之前版本中…
一.系统环境 kylin的安装配置并不像官方文档中描述的那样简单,复杂的原因在于hadoop,hive,hbase,kylin的版本一定要兼容,不然就会出现各种奇怪的错误.以下各软件版本可以成功运行kylin. os : Ubuntu 16.04 LTS 64bit jdk : 1.8.0_161 hadoop : mysql : hive : hbase: -hadoop2 kylin: 1.5.4.1 以上版本软件在这里下载. 安装kylin之前,要先安装hadoop,hive,hbase …
一. 部署读写分离的契机 目前公司整体项目稳定运行在CDH5.6版本上,与其搭配的Hbase1.0.0无法正确运行Kylin,原因是Kylin只满足Hbase1.1.x+版本.解决方案如下 1. 升级整体CDH版本,从而获得高版本Hbase(方案风险太大) 2. 把Hbase从CDH单独剥离出来,用原生的Hbase高版本替代(方案缺点是管理Hbase不方便,原有的应用难迁移) 3. Kylin读写分离(经验证,CDH5.6的Hbase支持Kylin建CUBE,但无法读(api不兼容),所以只需在…
摘要:由于目标和现实的错位,对很多用户来讲,Hadoop成了一个在技术.应用和成本上都很沉重的产品. 本文分享自华为云社区<Hadoop Spark太重,esProc SPL很轻>,作者:石臻臻的杂货铺. 随着大数据时代的来临,数据量不断增长,传统小机上跑数据库的模式扩容困难且成本高昂,难以支撑业务发展.很多用户开始转向分布式计算路线,用多台廉价的PC服务器组成集群来完成大数据计算任务.Hadoop/Spark就是其中重要的软件技术,由于开源免费而广受欢迎.经过多年的应用和发展,Hadoop已…
https://mp.weixin.qq.com/s/KPTM02-ICt72_7ZdRZIHBA 苏宁基于Spark Streaming的实时日志分析系统实践 原创: AI+落地实践 AI前线 2018-03-07 前言 目前业界基于 Hadoop 技术栈的底层计算平台越发稳定成熟,计算能力不再成为主要瓶颈. 多样化的数据.复杂的业务分析需求.系统稳定性.数据可靠性, 这些软性要求, 逐渐成为日志分析系统面对的主要问题.2018 年线上线下融合已成大势,苏宁易购提出并践行双线融合模式,提出了智…
1. 概述 kylin 是 OLAP 引擎,采用多维立方体预计算技术,可将大数据的 SQL 查询速度提升到亚秒级别. 需求: 虽然像 spark,hive 等使用 MPP 大规模并行处理和列式存储的方式,可以将 Hadoop 的 SQL查询提高到了分钟级别, 但是仍然不能满足数据分析师的要求.在面对超大规模的数据集时,分析师不要讲更多的精力花在等待查询结果上, 而不是更加重要的建立领域模型上. kylin 就是要打破查询时间随着数据量成线性增长的规律,采用的思路就是 “预计算” 它会尽量的预先计…
转:http://blog.itpub.net/30089851/viewspace-2121221/ 微视频链接: Apache Kylin初识      1.版本(当前实验版本组合,版本一定要兼容,否则各种问题)Hadoop2.7.2+HBase1.1.5+Hive2.0.0kylin-1.5.2.1    (apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz) 2.Hadoop环境编译以支持Snappy解压缩库重新编译hadoop-2.7.2-src的nati…
星型数据仓库olap工具kylin介绍 数据仓库是目前企业级BI分析的重要平台,尤其在互联网公司,每天都会产生数以百G的日志,如何从这些日志中发现数据的规律很重要. 数据仓库是数据分析的重要工具, 每个大公司都花费数百万每年的资金进行数据仓库的运维. 本文介绍一个基于hadoop的数据仓库, 它基于hadoop(HIVE, HBASE)水平扩展的特性, 客服传统olap受限于关系型数据库数据容量的问题. Kylin是ebay推出的olap星型数据仓库的开源实现. 首先请安装Kylin, 和它的运…
本文转载自:https://www.cnblogs.com/hsydj/p/4515057.html 星型数据仓库olap工具kylin介绍 星型数据仓库olap工具kylin介绍 数据仓库是目前企业级BI分析的重要平台,尤其在互联网公司,每天都会产生数以百G的日志,如何从这些日志中发现数据的规律很重要. 数据仓库是数据分析的重要工具, 每个大公司都花费数百万每年的资金进行数据仓库的运维. 本文介绍一个基于hadoop的数据仓库, 它基于hadoop(HIVE, HBASE)水平扩展的特性, 客…
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求: 支持额外功能和特性的插件: 与调度系统,ETL,监控等生命周期管理系统的整合: 在Kylin核心之上扩展的第三方用户界面: 官网地址:http:/…
Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap.Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求: 支持额外功能和特性的…
转:http://blog.csdn.net/yu616568/article/details/48103415 Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOLAP系统,主要用于支持大数据生态圈的数据分析 业务,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅支持hbase),这段时间对mondrian和kylin都进行了 使用,发现这两个系统是时间和空间的一个权衡吧,mondrian是一个ROLAP系统,所有的查询可以通过实时的…
本文转自:http://blog.csdn.net/yu616568/article/details/48103415 ,如有侵犯,立刻删除.  Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOLAP系统,主要用于支持大数据生态圈的数据分析业务,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅支持hbase),这段时间对mondrian和kylin都进行了使用,发现这两个系统是时间和空间的一个权衡吧,mondrian是一个ROLAP系…
OLAPCube是一种典型的多维数据分析技术,Cube本身可以认为是不同维度数据组成的dataset,一个OLAP Cube 可以拥有多个维度(Dimension),以及多个事实(Factor Measure).用户通过OLAP工具从多个角度来进行数据的多维分析.通常认为OLAP包括三种基本的分析操作:上卷(rollup).下钻(drilldown).切片切块(slicingand dicing),原始数据经过聚合以及整理后变成一个或多个维度的视图. ROLAP 以关系模型的方式存储用作多维分析…
异常: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkFsPermission(DefaultAuthoriza…
1.基于hive.hadoop的预先计算. 2.cube存储在HBASE里面.利用HBase的列存储,实现MOLAP 3.在cube上做数据分析,kylin实现标准的SQL,实现查询HBase 所以说,kylin是一种与ROLAP类似的解决方案,都是数据安装纬度.度量预先聚合,只不过一个存储成ROLAP.一个存储成MOLAP. 与之相反: presto.impla则是适时的交互式查询,不存在预先计算的模式,实时性比较高.…
安装环境:ubuntu kylin 14.04   haoop-1.2.1   hadoop下载地址:http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/ 1.安装JDK,这里要注意的是:要想在hadoop中使用,则需要在hadoop下输入命令:source  /etc/profile 来实现,然后用java -version 测试看看是否生效了. 2.创建hadoop用户和用户组(切换到root) 创建hadoop用户组   sudo ad…