Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿

武汉市云升科技发展有限公司董事长,《智慧城市—大数据、物联网和云计算之应用》作者杨正洪

万达网络科技集团大数据中心副总经理,《Spark高级数据分析》中文版译者龚少成

数据架构师,IT脱口秀(清风那个吹)创始人,《开源大数据分析引擎Impala实战》作者贾传青

等等业内专家联合推荐

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay公司开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

本书分为21章,详细讲解Apache Kylin概念、安装、配置、部署,让读者对Apache Kylin构建大数据分析平台有一个感性认识。同时,本书从应用角度,结合Dome和实例介绍了用于多维分析的Cube算法的创建、配置与优化。最后还介绍了Kyligence公司发布KAP大数据分析平台,对读者有极大的参考价值。

本书适合大数据技术初学者、大数据分析人员、大数据架构师等,也适合用于高等院校和培训学校相关专业师生教学参考。

第一部分  Apache Kylin基础部分

第1章  Apache Kylin前世今生 3

1.1  Apache Kylin的背景 3

1.2  Apache Kylin的应用场景 3

1.3  Apache Kylin的发展历程 4

第2章  Apache Kylin前奏 7

2.1  事实表和维表 7

2.2  星型模型和雪花型模型 7

2.2.1  星型模型 7

2.2.2  雪花型模型 8

2.2.3  星型模型示例 8

2.3  OLAP 9

2.3.1  OLAP分类 9

2.3.2  OLAP的基本操作 10

2.4  数据立方体(Data Cube) 11

第3章  Apache Kylin 工作原理和体系架构 12

3.1  Kylin工作原理 12

3.2  Kylin体系架构 13

3.3  Kylin中的核心部分:Cube构建 15

3.4  Kylin的SQL查询 16

3.5  Kylin的特性和生态圈 16

第4章  搭建CDH大数据平台 18

4.1  系统环境和安装包 19

4.1.1  系统环境 19

4.1.2  安装包的下载 20

4.2  准备工作:系统环境搭建 21

4.2.1  网络配置(CDH集群所有节点) 21

4.2.2  打通SSH,设置ssh无密码登录(所有节点) 21

4.3  正式安装CDH:准备工作 29

4.4  正式安装CDH5:安装配置 30

4.4.1  CDH5的安装配置 30

4.4.2  对Hive、HBase执行简单操作 39

第5章  使用Kylin构建企业大数据分析平台的4种部署方式 41

5.1  Kylin部署的架构 41

5.2  Kylin的四种典型部署方式 42

第6章  单独为Kylin部署HBase集群 44

第7章  部署Kylin集群环境 58

7.1  部署Kylin的先决条件 58

7.2  部署Kylin集群环境 61

7.3  为Kylin集群搭建负载均衡器 70

7.3.1  搭建Nginx环境 70

7.3.2  配置Nginx实现Kylin的负载均衡 73

第二部分  Apache Kylin 进阶部分

第8章  Demo案例实战 77

8.1  Sample Cube案例描述 77

8.2  Sample Cube案例实战 78

8.2.1  准备数据 78

8.2.2  构建Cube 81

第9章  多维分析的Cube创建实战 89

9.1  Cube模型 89

9.2  创建Cube的流程 90

9.2.1  步骤一:Hive中事实表,以及多张维表的处理 90

9.2.2  步骤二:Kylin中建立项目(Project) 95

9.2.3  步骤三:Kylin中建立数据源(Data Source) 95

9.2.4  步骤四:Kylin中建立数据模型(Model) 98

9.2.5  步骤五:Kylin中建立Cube 104

9.2.6  步骤六:Build Cube 114

9.2.7  步骤七:查询Cube 118

第10章  Build Cube的来龙去脉 120

10.1  流程分析 120

10.2  小结 134

第三部分  Apache Kylin 高级部分

第11章  Cube优化 137

第12章  备份Kylin的Metadata 142

12.1  Kylin的元数据 142

12.2  备份元数据 143

12.3  恢复元数据 146

第13章  使用Hive视图 147

13.1  使用Hive视图 147

13.2  使用视图实战 149

第14章  Kylin的垃圾清理 153

14.1  清理元数据 153

14.2  清理存储器数据 154

第15章  JDBC访问方式 157

第16章  通过RESTful访问Kylin 161

第17章  Kylin版本之间升级 179

17.1  从1.5.2升级到最新版本1.5.3 179

17.2  从1.5.1升级到1.5.2版本 180

17.3  从Kylin 1.5.2.1升级到Kylin 1.5.3实战 181

17.4  补充内容 187

第18章  大数据可视化实践 189

18.1  可视化工具简述 189

18.2  安装Kylin ODBC驱动 190

18.3  通过Excel访问Kylin 192

18.4  通过Power BI访问Kylin 194

18.4.1  安装配置Power BI 194

18.4.2  实战操作 198

18.5  通过Tableau访问Kylin 199

18.6  Kylin   Mondrian  Saiku 205

18.7  实战演练:通过Saiku访问Kylin 211

18.7.1  第一个Schema例子:myproject_pvuv_cube的演示 211

18.7.2  第二个Schema例子:kylin_sales_cube的演示 219

18.7.3  Saiku使用的一些问题 223

18.8  通过Apache Zepplin访问Kylin 229

18.9  通过Kylin的“Insight”查询 232

第19章  使用Streaming Table 构建准实时Cube 236

第20章  快速数据立方算法 251

20.1  快速数据立方算法概述 251

20.2  快速数据立方算法优点和缺点 253

20.3  获取Fast Cubing算法的优势 254

第四部分  Apache Kylin的扩展部分

第21章  大数据智能分析平台KAP 257

21.1  大数据智能分析平台KAP概述 257

21.2  KAP的安装部署 259

 

《基于Apache Kylin构建大数据分析平台》的更多相关文章

  1. 简单物联网:外网访问内网路由器下树莓派Flask服务器

    最近做一个小东西,大概过程就是想在教室,宿舍控制实验室的一些设备. 已经在树莓上搭了一个轻量的flask服务器,在实验室的路由器下,任何设备都是可以访问的:但是有一些限制条件,比如我想在宿舍控制我种花 ...

  2. 利用ssh反向代理以及autossh实现从外网连接内网服务器

    前言 最近遇到这样一个问题,我在实验室架设了一台服务器,给师弟或者小伙伴练习Linux用,然后平时在实验室这边直接连接是没有问题的,都是内网嘛.但是回到宿舍问题出来了,使用校园网的童鞋还是能连接上,使 ...

  3. 外网访问内网Docker容器

    外网访问内网Docker容器 本地安装了Docker容器,只能在局域网内访问,怎样从外网也能访问本地Docker容器? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Docker容器 ...

  4. 外网访问内网SpringBoot

    外网访问内网SpringBoot 本地安装了SpringBoot,只能在局域网内访问,怎样从外网也能访问本地SpringBoot? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装Java 1 ...

  5. 外网访问内网Elasticsearch WEB

    外网访问内网Elasticsearch WEB 本地安装了Elasticsearch,只能在局域网内访问其WEB,怎样从外网也能访问本地Elasticsearch? 本文将介绍具体的实现步骤. 1. ...

  6. 怎样从外网访问内网Rails

    外网访问内网Rails 本地安装了Rails,只能在局域网内访问,怎样从外网也能访问本地Rails? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Rails 默认安装的Rails端口 ...

  7. 怎样从外网访问内网Memcached数据库

    外网访问内网Memcached数据库 本地安装了Memcached数据库,只能在局域网内访问,怎样从外网也能访问本地Memcached数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装 ...

  8. 怎样从外网访问内网CouchDB数据库

    外网访问内网CouchDB数据库 本地安装了CouchDB数据库,只能在局域网内访问,怎样从外网也能访问本地CouchDB数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Cou ...

  9. 怎样从外网访问内网DB2数据库

    外网访问内网DB2数据库 本地安装了DB2数据库,只能在局域网内访问,怎样从外网也能访问本地DB2数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动DB2数据库 默认安装的DB2 ...

  10. 怎样从外网访问内网OpenLDAP数据库

    外网访问内网OpenLDAP数据库 本地安装了OpenLDAP数据库,只能在局域网内访问,怎样从外网也能访问本地OpenLDAP数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动 ...

随机推荐

  1. SVN提交时响应很慢,我是这样解决的。

    现象:使用TortoiseSVN提交文件时,弹出提交窗口,要等待30秒的样子,才开始工作,开始提交文件后速度还是很快的. 解决后提交文件几乎是秒杀. 解决办法 (我的电脑可以了,但还是有些同事的电脑没 ...

  2. java关键字 super 和 this

    简单粗暴的说就是: super: 是指父类,想要在子类方法中调用父类的实例变量或方法可以通过super 来访问 this:是指当前类,想要访问当前类的实例变量和方法可以使用this,同时可以省略

  3. 今天无意发现jquery的一个以前的误导

    本文提供即刻提升你的脚本性能的十个步骤.不用担心,这并不是什么高深的技巧.人人皆可运用!这些技巧包括: 使用最新版本 合并.最小化脚本 用for替代each 用ID替代class选择器 给选择器指定前 ...

  4. CentOS搭建GitLab服务器

    以下为CentOS7下安装GitLab7.4.3的全部流程 1.切换到root用户su root2.下载并安装GitLabcurl -O https://downloads-packages.s3.a ...

  5. Upnp资料整理

    系统,软件和路由器都要打开upnp功能. windows7下,分别启动 function discovery resources publication; Upnp device host; SSDp ...

  6. NCreport报表控件教程:设计页眉和页脚

    一.设计页眉 一般来说页眉部分一般是用于包含标题的内容, 首先我们会添加列标签到页眉部分,标签都是简单的文本,标签项一般是用于在报表上显示一些描述信息,标签都是静态项,所以它们的值不会有变化. 添加标 ...

  7. C# Socket编程笔记

    1.按惯例先来介绍下socket      Windows中的很多东西都是从Unix领域借鉴过来的,Socket也是一样.在Unix中,socket代表了一种文件描述符(在Unix中一切都是以文件为单 ...

  8. CSS3样式

    1.边框 div{border:2px solid;border-radius:25px;-moz-border-radius:25px; /* Old Firefox */} border-radi ...

  9. window 下 xampp 上 安装memcached

    1.下载memcache 的window 稳定版,解压到xampp 目下;比如D:\xampp\memcached 2. 打开cmd 命令界面 输入 D:\xampp\memcached\ memca ...

  10. Java课程设计——扫雷(winmine)

    因为是我的课程设计,要是有冲突就不好了,转载注明出处!!! 程序很简单,毕竟我是搞acm的,我就只介绍一下闪光点. 中心空白搜索的时候,我用的DFS: 有一点是要注意的,就是JFrame不支持重画,还 ...