kylin&CDH理论基础】的更多相关文章

Kylin安装 从官网下载 apache-kylin-2.0.0-bin-cdh57.tar.gz 放到每台需要安装kylin 服务的机器 [hadoop@hadoop3 cdh5.12.0]$ sudo tar -zxvf apache-kylin-2.0.0-bin-cdh57.tar.gz -C /opt/ [hadoop@hadoop3 opt]$ sudo chown -R hdfs:hdfs /opt/apache-kylin-2.0.0-bin/ [hadoop@hadoop3 a…
CDH:Cloudera‘s Distribution,including Apache Hadoop. Hadoop众多分支中的一种,可直接用于成产环境 CM:Cloudera Manager…
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 本篇概览 本文是<CDH+Kylin三部曲>系列的第二篇,上一篇<CDH+Kylin三部曲之一:准备工作>已将所需的机器和文件准备完毕,可以部署CDH和Kylin了: 执行ansible脚本部署CDH和Kylin(ansible电脑) 进入ansible电脑的~/playbook…
http://kylin.apache.org/docs/index.html https://www.infoq.cn/article/vOrjsJCgVAVPim5hsj6p Kylin 的核心思想是预计算,将数据按照指定的维度和指标,预先计算出所有可能的查询结果,利用空间换时间来加速查询模式固定的 OLAP 查询 Kylin 的理论基础是 Cube 理论,每一种维度组合称之为 Cuboid,所有 Cuboid 的集合是 Cube 单维度组成的Cuboid,称为base cuboid,如图中…
Apache Kylin™ 是一个开源的.分布式的分析型数据仓库,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的表. Kylin 的核心思想是”预计算“,将数据按照指定的维度和指标,预先计算出所有可能的查询结果,利用空间换时间来加速模式固定的 OLAP 查询. Kylin 的理论基础是 Cube 理论,每一种维度组合称之为 Cuboid,所有 Cuboid 的集合称之为 Cube.如下图,整个立方体称为 1 个 Cub…
1. 概述 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. 2. 内容 在集成Kylin到CDH Hadoop环境中时,发现新版本Kylin-2.2.0无法集成到CDH Hadoop.环境信息如下: Hadoop:CDH-5.4.2,Hadoop-2.6 Hive:Hive-2.1.1 HBase:CDH-5.4.2,HBas…
一. 部署读写分离的契机 目前公司整体项目稳定运行在CDH5.6版本上,与其搭配的Hbase1.0.0无法正确运行Kylin,原因是Kylin只满足Hbase1.1.x+版本.解决方案如下 1. 升级整体CDH版本,从而获得高版本Hbase(方案风险太大) 2. 把Hbase从CDH单独剥离出来,用原生的Hbase高版本替代(方案缺点是管理Hbase不方便,原有的应用难迁移) 3. Kylin读写分离(经验证,CDH5.6的Hbase支持Kylin建CUBE,但无法读(api不兼容),所以只需在…
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 关于<CDH+Kylin三部曲>系列 本文是<CDH+Kylin三部曲>的第一篇,整个系列由以下三篇组成: 准备工作:搭建CDH+Kylin环境前,将所有硬件.软件资源准备好 部署和设置:部署CDH和Kylin,再做相关设置 Kylin实战:在搭好的环境上运行Kylin官方dem…
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 本文是<CDH+Kylin三部曲>系列的终篇,先简单回顾前面的内容: <CDH+Kylin三部曲之一:准备工作>:准备好机器.脚本.安装包: <CDH+Kylin三部曲之二:部署和设置>:完成CDH和Kylin部署,并在管理页面做好相关的设置: 现在Hadoop.Ky…
1.即席查询 一.Presto 大数据量.秒级.多数据源的查询引擎[支持各种数据源work的内存级查询] 由coordinator和多个work构成,work对应不同数据源Catalog 特点:基于内存运算,无需map reduce,但连查表可能会产生大量临时数据 安装:server.client.可视化client 优化:列式.Snappy压缩.SQL优化 二.Druid 适用于:按照时间作为索引分片.单表的实时查询与存储系统[按时间和不同维度对各种指标聚合,segment存] 包含:时间列.…