一、安装准备

1、操作系统 Centos 7.x

2、时间问题

集群内所有节点时间一定要同步。

NTP、Chrony

3、用户

创建hadoop组和hadoop用户,并做ssh免密码登录

4、Hadoop HA集群

Hadoop 2.7.

5、HBase

hbase .x

6、Hive

Hive 1.2.,使用  mysql 存放元数据

7、准备目录

# mkdir /install

# cd /install

# chown -R hadoop:hadoop /install

8、kylin

kylin 1.6. 这个版本支持hbase1.x版本

apache-kylin-1.6.-HBase1.1.3-bin.tar.gz

$ tar xf apache-kylin-1.6.-hbase1.x-bin.tar.gz  -C  /install

$ cd /install

$ mv apache-kylin-1.6.-bin/ kylin

#代表在root用户下

$代表普通用户

二、环境变量配置

部署每个节点

hadoop用户的 .bashrc

export HADOOPROOT=/install

export HADOOP_HOME=$HADOOPROOT/hadoop

export ZOOKEEPER_HOME=$HADOOPROOT/zookeeper

export HBASE_HOME=$HADOOPROOT/hbase

export HIVE_HOME=$HADOOPROOT/hive1.

export HCAT_HOME=$HIVE_HOME/hcatalog

export KYLIN_HOME=$HADOOPROOT/kylin

export CATALINA_HOME=$KYLIN_HOME/tomcat

export hive_dependency=$HIVE_HOME/conf:$HIVE_HOME/lib/*:$HCAT_HOME/share/hcatalog/hive-hcatalog-core-1.2.1.jar

PATH=$PATH:$HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin

PATH=$PATH:$HBASE_HOME/bin:$FLUME_HOME/bin:$HIVE_HOME/bin:$HCAT_HOME/bin

PATH=$PATH:$CATALINA_HOME/bin:$KYLIN_HOME/bin

export PATH

基本的配置已经做好了,安装从以下步骤开始

三、配置kylin

修改bin/kylin.sh

export KYLIN_HOME=/install/kylin

export HBASE_CLASSPATH_PREFIX=${tomcat_root}/bin/bootstrap.jar:${tomcat_root}/bin/tomcat-juli.jar:${tomcat_root}/lib/*:$hive_dependency:$HBASE_CLASSPATH_PREFIX

压缩问题

关于压缩的问题

本次不是用snappy,如果需要事先重新编译Hadoop源码,使得native库支持snappy

使用snappy能够实现一个适合的压缩比,使得这个运算的中间结果和最终结果都能占用较小的存储空间

1、 kylin.properties

)设置Rest Server

kylin.rest.servers=192.168.56.201:

默认为PST,修改为中国时间

kylin.rest.timezone=GMT+

2)不启用压缩,注释即可

#kylin.hbase.default.compression.codec=snappy(注释掉或者设置为None)

3)定义kylin用于MR jobs的job.jar包和hbase的协处理jar包,用于提升性能(添加项)。

kylin.job.jar=/installsoftware/ kylin-1.6./lib /kylin-job-1.6..jar

kylin.coprocessor.local.jar=/installsoftware/ kylin-1.6./lib/kylin-coprocessor-1.6..jar

2、kylin_job_conf.xml

不使用压缩

mapreduce.map.output.compress设置为false

mapreduce.output.fileoutputformat.compress 设置为false

3、kylin_hive_conf.xml

不使用压缩

hive.exec.compress.output 设置为false

四、启动服务

Kylin工作原理图

支撑服务启动

1、首先看一下时间是否同步

、启动3个节点的ZooKeeper

zkServer.sh start

start-dfs.sh

start-yarn.sh

或者start-all.sh

mr-jobhistory-daemon.sh start historyserver要到所有NM上启动,可以写成脚本

start-hbase.sh
> list

这里可以启动hive客户端看看

$ hive

> show tables;

检查

1、检查基础的服务

Hadoop、HBase、Hive、环境变量、工作目录

2、hive依赖检查

find-hive-dependency.sh

3、hbase依赖检查

find-hbase-dependency.sh

启动kylin

bin/kylin.sh start

停止过程

bin/kylin.sh stop

stop-hbase.sh

mr-jobhistory-daemon.sh stop historyserver

stop-yarn.sh

stop-dfs.sh

zkServer.sh stop

可以写成脚本

五、登录

http://node1:7070/kylin

ADMIN/KYLIN登录

六、样例数据测试

启动kylin后,运行bin/sample.sh

查看sample.sh脚本内容

实际上操作的是sample_cube目录下的数据和脚本

重启kylin服务

看看hive和hbase

Hive中kylin的元数据信息

默认有一个Cube定义,需要Build。

Monitor中监视整个构建过程

Cube构建成功后状态会变成Ready状态

构建Cube过程根据集群性能的不同而不同

七、查询时间对比

测试语句

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers from kylin_sales group by part_dt order by part_dt;

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers from kylin_sales where part_dt<'2013-01-01' group by part_dt order by part_dt;

hive执行时间

Time taken: 168.643 seconds, Fetched:  row(s)

kylin中

第一次 .33S

第二次 .38s

第三次 .33s

第四次 .34s

看来有缓存

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers from kylin_sales group by part_dt having sum(price)> order by part_dt

到此Kylin的前期安装部署已经完毕

Kylin安装部署的更多相关文章

  1. Apache Kylin安装部署

    0x01 Kylin安装环境 Kylin依赖于hadoop大数据平台,安装部署之前确认,大数据平台已经安装Hadoop, HBase, Hive. 1.1 了解kylin的两种二进制包 预打包的二进制 ...

  2. 分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例【转】

    Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap.Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的 ...

  3. kylin 系列(一)安装部署

    kylin 系列(一)安装部署 一.环境说明 1.1 版本选择 cdh 版本下载地址:http://archive.cloudera.com/cdh5/cdh/5/ 软件名称 版本 JDK 1.8 H ...

  4. Ranger安装部署

    1. 概述 Apache Ranger是大数据领域的一个集中式安全管理框架,目的是通过制定策略(policies)实现对Hadoop组件的集中式安全管理.用户可以通过Ranger实现对集群中数据的安全 ...

  5. Apache Ranger 编译安装部署

    1. 概述 Apache Ranger是大数据领域的一个集中式安全管理框架,目的是通过制定策略(policies)实现对Hadoop组件的集中式安全管理.用户可以通过Ranger实现对集群中数据的安全 ...

  6. Oracle安装部署,版本升级,应用补丁快速参考

    一.Oracle安装部署 1.1 单机环境 1.2 Oracle RAC环境 1.3 Oracle DataGuard环境 1.4 主机双机 1.5 客户端部署 二.Oracle版本升级 2.1 单机 ...

  7. KVM安装部署

    KVM安装部署 公司开始部署KVM,KVM的全称是kernel base virtual machine,对KVM虚拟化技术研究了一段时间, KVM是基于硬件的完全虚拟化,跟vmware.xen.hy ...

  8. Linux平台oracle 11g单实例 + ASM存储 安装部署 快速参考

    操作环境:Citrix虚拟化环境中申请一个Linux6.4主机(模板)目标:创建单机11g + ASM存储 数据库 1. 主机准备 2. 创建ORACLE 用户和组成员 3. 创建以下目录并赋予对应权 ...

  9. 分布式文件系统 - FastDFS 在 CentOS 下配置安装部署

    少啰嗦,直接装 看过上一篇分布式文件系统 - FastDFS 简单了解一下的朋友应该知道,本次安装是使用目前余庆老师开源的最新 V5.05 版本,是余庆老师放在 Github 上的,和目前你能在网络上 ...

随机推荐

  1. Linux线程编程之生产者消费者问题

    前言 本文基于顺序循环队列,给出Linux生产者/消费者问题的多线程示例,并讨论编程时需要注意的事项.文中涉及的代码运行环境如下: 本文假定读者已具备线程同步的基础知识. 一  顺序表循环队列 1.1 ...

  2. jquery.sparkline.js简介

    jQuery线状图插件Sparkline 官网地址:http://omnipotent.net/jquery.sparkline/ 文档地址:http://omnipotent.net/jquery. ...

  3. 云计算设计模式(六)——命令和查询职责分离(CQRS)模式

    云计算设计模式(六)——命令和查询职责分离(CQRS)模式 隔离,通过使用不同的接口,从操作读取数据更新数据的操作.这种模式可以最大限度地提高性能,可扩展性和安全性;支持系统在通过较高的灵活性,时间的 ...

  4. 【linux系列】压缩和解压缩tar

    tar -c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件 这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个.下面的 ...

  5. dos 下如何查看环境变量

    使用命令:echo %path%

  6. Android手机资料拷贝导出工具 --- 91手机助手

    http://zs.91.com/

  7. vue生成路由实例

    一.vue路由https://router.vuejs.org/zh-cn/1.bower下载vue-routervue的里的链接 <router-link to="/home&quo ...

  8. 安装Windows Server 2012 R2提示"unable to create a new system partition or locate an existing system partition"解决方法

    重新安装Windows Server 2012 R2,把原来SSD分区全部格式化重建,用U盘启动安装时提示如下: "Setup was unable to create a new syst ...

  9. linux定时任务cron配置说明

    实现linux定时任务有:cron.anacron.at,使用最多的是cron任务 名词解释 cron--服务名:crond--linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与 ...

  10. 9.5Django

    2018-9-5 15:23:00 配置数据库信息  setting MySQLdb 不支持python3 创建表 pycharm 连接数据库 好强大的赶脚