1.简介

  kylin的设计思想是空间换时间,将hive上的大表的维度全部排列组合计算也将度量提前计算然后存入HBase库,这个步骤在kylin中称之为build cube。

在查询的时候已经建立cube的hive表会直接访问HBase的scan来拿出结果,对于度量则可以直接get即可。由于数据量的膨胀关系,数据的维度需要控制在15个以下。另外由于是预计算结果所以数据

在确定列等信息后不能修改,不能修改表结构。

2.环境说明

  hadoop CDH5.4.2 ----- 需要打上MAPREDUCE-6213补丁

  HBase CDH5.7.0--------kylin只支持HBase1.1.0以上的版本

  Hive apache-hive-2.0.1

3.安装步骤

  1.下载kylin:

    http://kylin.apache.org/cn/download/

  2.下载tomcat:

    http://tomcat.apache.org/

    (以上版本需要根据自己的需要选择,本次使用的是 apache-kylin-1.6.0-cdh5.7 和 apache-tomcat-8.5.11)

  3.设定环境变量:

  export CATALINA_HOME=/Users/apple/Desktop/software/apache-tomcat-8.5.
  export KYLIN_HOME=/Users/apple/Desktop/hadoop2/apachesrc/kylin/bin/apache-kylin-1.6.-cdh5.-bin

  4.修改配置文件kylin.properties,增加如下两项目:

kylin.job.jar=/Users/apple/Desktop/hadoop2/apachesrc/kylin/bin/apache-kylin-1.6.-cdh5.-bin/lib/kylin-job-1.6..jar
kylin.coprocessor.local.jar=/Users/apple/Desktop/hadoop2/apachesrc/kylin/bin/apache-kylin-1.6.-cdh5.-bin/lib/kylin-coprocessor-1.6..jar

  需要将kylin.coprocessor.local.jar指定的jar包放到hbase集群的lib下。

  5.  kylin依赖的服务需要在kylin本地安装服务器上有拷贝(可以不起服务),同时需要如下进行环境变量的设定:这样kylin可以连接hive hbase以及hadoop集群。

export HIVE_HOME=/Users/apple/Desktop/hadoop2/apachesrc/hive/2.0./bin/apache-hive-2.0.-bin
export HIVE_CONF_DIR=/Users/apple/Desktop/hadoop2/apachesrc/hive/2.0./bin/config
export HCAT_HOME=$HIVE_HOME/hcatalog
export HIVE_CONF=/Users/apple/Desktop/hadoop2/apachesrc/hive/2.0./bin/config
export HADOOP_HOME=/Users/apple/Desktop/hadoop2/cdh/hadoop/bin/hadoop-2.6.-cdh5.4.2
export HADOOP_CONF_DIR=/Users/apple/Desktop/hadoop2/cdh/hadoop/bin/config
#export YARN_HOME=$HADOOP_HOME
#export YARN_CONF_DIR=$HADOOP_CONF_DIR
#export HBASE_HOME=/Users/apple/Desktop/hadoop2/cdh/hbase/bin/hbase-1.0.-cdh5.4.2
export HBASE_HOME=/Users/apple/Desktop/hadoop2/cdh/hbase/bin/hbase-1.2.-cdh5.7.0
export HBASE_CONF_DIR=/Users/apple/Desktop/hadoop2/cdh/hbase/bin/config
export PATH=$HIVE_HOME/bin:$HBASE_HOME/bin:$KYLIN_HOME/bin:$HCAT_HOME/bin:$CATALINA_HOME/bin:$SBT_HOME/bin:$MAVEN_HOME/bin:$PROTOBUF_HOME/bin:$JAVA_HOME/bin:$ANT_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

  6. 需要开启hive的远程thrift的metastare服务,kylin在sync hive表元数据的时候需要连接这个服务。

nohup hive --service metastore -p  &

  7. 启动kylin

     kylin.sh start

   启动过程中会对依赖的服务进行连通性的检查:

if [ -z "$KYLIN_HOME" ]
then
echo 'please make sure KYLIN_HOME has been set'
exit
else
echo "KYLIN_HOME is set to ${KYLIN_HOME}"
fi if [ -z "$(command -v hbase version)" ]
then
echo "Please make sure the user has the privilege to run hbase shell"
exit
fi if [ -z "$(command -v hive --version)" ]
then
echo "Please make sure the user has the privilege to run hive shell"
exit
fi if [ -z "$(command -v hadoop version)" ]
then
echo "Please make sure the user has the privilege to run hadoop shell"
exit
fi

 

  8.  默认用户名/密码 ADMIN / KYLIN

4.简单使用

  一般使用步骤为:0.登录->1.建立项目->2.同步hive表元数据(事实表)->3.在事实表基础上建立模型->4.在模型基础上建立cube->5.build cube->通过cube查询

  0.登录kylin

  1.建立项目:

  

  2.同步hive表元数据(事实表)

  

  3.基于hive事实表进行模型的建立

  说明:

    1.选择模型基于的事实表

    2.选择事实表中那些对于那些维度进行建模,被选维度会被用于cube的计算。

    3.选择事实表中那些度量进行建模,被选度量在计算cube的时候直接进行预计算结果。

    4.选择事实表中的分区信息以及数据过滤,数据过滤条件中不能有时间或者分区字段的过滤,这样会影响增量刷cube(因为增量是基于时间的(或者说分区)进行的)

  4.基于模型建立cube

     

    说明:

      1.新建cube的时候选择基于model

      2.选择要创建的维度信息

      3.选择哪些度量需要做聚合计算,以及做什么聚合计算

      4.选择增量刷新cube的定时任务,以及此模型开始的分区信息

      5.当设定完毕保存后产生cube任务,点击build

      6.通过监控页面可以查看到当前cube任务的运行信息,主要通过MR计算得出立方体结构数据,然后将这些数据通过bulkload到HBase,最后做清理动作

5.查询(页面)

    当cube创建完毕后可以通过jdbc链接或者直接通过查询页面进行查询,只有已经建立了cube的事实表才能做查询。

    

6.查询(jdbc)

  驱动请在此下载:https://javalibs.com/artifact/org.apache.kylin/kylin-jdbc

  样例代码:

  

import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.Properties; import org.apache.kylin.jdbc.Driver; public class JdbcMain { public static void main(String[] args) throws SQLException, InstantiationException, IllegalAccessException, ClassNotFoundException {
Driver driver = (Driver) Class.forName("org.apache.kylin.jdbc.Driver").newInstance();
Properties info = new Properties();
// 登录web的密码,更多用户可以被设定 也可以链接ldap连接到内部账户服务
info.put("user", "ADMIN");
info.put("password", "KYLIN");
// test 为工程名,指明此链接去哪一个工程下去查询
Connection conn = driver.connect("jdbc:kylin://applexf.local:7070/test", info);
Statement state = conn.createStatement();
ResultSet resultSet = state.executeQuery("select * from TABLEFORKYLIN");
while (resultSet.next()) {
System.out.print(resultSet.getString(1) + " ");
System.out.print(resultSet.getString(2) + " ");
System.out.print(resultSet.getString(3) + "\n");
}
} }

  结果:

  

  

附录:

  1. 参考https://my.oschina.net/aibati2008/blog/745389来使用

完毕。






【会装】kylin的安装(填坑)和简单使用的更多相关文章

  1. ubuntu 14.04中安装 ruby on rails 环境(填坑版) 呕血推荐

    环境:在win7 上Vmware虚拟机环境中安装的ubuntu 14.04 开发相关: ruby 2.2.0 rails 4.2.0 sublime text 3 本文说明:所有的命令均在$ 之后,若 ...

  2. CentOS7.3利用kubeadm安装kubernetes1.7.3完整版(官方文档填坑篇)

    安装前记: 近来容器对企业来说已经不是什么陌生的概念,Kubernetes作为Google开源的容器运行平台,受到了大家的热捧.搭建一套完整的kubernetes平台,也成为试用这套平台必须迈过的坎儿 ...

  3. windows下jenkins常见问题填坑

    没有什么高深的东西,1 2天的时间大多数人都能自己摸索出来,这里将自己遇到过的问题分享出来避免其他同学再一次挖坑. 目录 1. 主从节点 2. Nuget自动包还原 3. powershell部署 4 ...

  4. 【过程改进】 windows下jenkins常见问题填坑

    没有什么高深的东西,1 2天的时间大多数人都能自己摸索出来,这里将自己遇到过的问题分享出来避免其他同学再一次挖坑. 目录 1. 主从节点 2. Nuget自动包还原 3. powershell部署 4 ...

  5. 持续集成 windows下jenkins常见问题填坑

    [过程改进]持续集成 windows下jenkins常见问题填坑 没有什么高深的东西,1 2天的时间大多数人都能自己摸索出来,这里将自己遇到过的问题分享出来避免其他同学再一次挖坑. 目录 1. 主从节 ...

  6. Cloudera Manager 5.9 和 CDH 5.9 离线安装指南及个人采坑填坑记

    公司的CDH早就装好了,一直想自己装一个玩玩,最近组了台电脑,笔记本就淘汰下来了,加上之前的,一共3台,就在X宝上买了CPU和内存升级了下笔记本,就自己组了个集群. 话说,好想去捡垃圾,捡台8核16线 ...

  7. Hexo博客skapp主题部署填坑指南

    相信大家都很喜欢 hexo skapp 的主题,由于作者采用结巴分词,加上需要依赖各种各样的环境 所以可能大家踩过很多坑,也许每个人踩得坑不一样,这里使用 Docker 容器 centos 来部署, ...

  8. Android—基于微信开放平台v3SDK,开发微信支付填坑。

    接触微信支付之前听说过这是一个坑,,,心里已经有了准备...我以为我没准跳坑出不来了,没有想到我填上了,调用成功之后我感觉公司所有的同事都是漂亮的,隔着北京的大雾霾我仿佛看见了太阳~~~好了,装逼结束 ...

  9. 解决Ubuntu Kylin 1610安装ANSYS17.2的NVIDIA显卡驱动问题

    Ubuntu Kylin 1610在安装完毕后,会自动安装显卡驱动,对于一般的图形图像使用来说自然不会有太大的问题,但是对于ANSYS17.2的一些模块,还是会出现问题.一个比较常见的问题就是Open ...

随机推荐

  1. ping: unknown host 解决办法

    如果ping命令返回如下错误,那主要的可能性就是系统的DNS设置有误. [root@CentOS5 ~]# ping www.sina.com.cn ping: unknown host www.si ...

  2. Spark集群基础概念 与 spark架构原理

    一.Spark集群基础概念 将DAG划分为多个stage阶段,遵循以下原则: 1.将尽可能多的窄依赖关系的RDD划为同一个stage阶段. 2.当遇到shuffle操作,就意味着上一个stage阶段结 ...

  3. [NOI2008]糖果雨

    bzoj1062[Noi2008]糖果雨 首先给出的颜色没有用. 估计要用数据结构.而线段难以维护. 考虑把线段变成点 T是单增的. 所以询问的时候,存在的线段都可能贡献答案. 那些线段的位置如果可以 ...

  4. DES算法和MAC算法总结

    需要用到的工具类,代码如下: import java.io.UnsupportedEncodingException; import java.nio.ByteBuffer; import java. ...

  5. TCP粘包处理

    TCP(transport control protocol,传输控制协议)是面向连接的,面向流的,提供高可靠性服务.收发两端(客户端和服务器端)都要有一一成对的socket, 因此,发送端为了将多个 ...

  6. C语言 ------ #undef 的使用

    #undef 是在后面取消以前定义的宏定义 该指令的形式为 #undef 标识符 其中,标识符是一个宏名称.如果标识符当前没有被定义成一个宏名称,那么就会忽略该指令. 一旦定义预处理器标识符,它将保持 ...

  7. 前端PHP入门-034-Session技术-掌握级别

    而Session是通过将数据保存在服务器端来实现保持连接的.我们通过一个例子来了解session的机制. 我们去饮料店买饮料,下单以后服务员会给我们一个号码牌,然后你走到一旁,服务员并不认识你是谁,如 ...

  8. 前端PHP入门-022-重点日期函数之获取本地化时间戳函数.md

      在实际的工作中我们还需要经常用到指定某个时间生成 例如:需要找到昨天到今天此时此刻的注册用户. 我们需要做两件事情: 得到当前的时间unix时间戳.用time()函数就可以直接搞定 那么昨天指定时 ...

  9. Error : getaddrinfo ENOTFOUND registry.npmjs.org registry.npmjs.org:443

    环境 阿里云 centos7 node v8.11.3 npm 5.6.0 错误 npm update 解决 ping registry.npmjs.org 发现https://registry.np ...

  10. Codeforces 797 D. Broken BST

    D. Broken BST http://codeforces.com/problemset/problem/797/D time limit per test 1 second memory lim ...