Apache Kylin(二)在EMR上搭建Kylin
EMR上搭建kylin
1. 启动EMR集群
根据官网说明:
http://kylin.apache.org/docs21/install/kylin_aws_emr.html
启动EMR时,若是 hbase 数据存储在 s3 ,则需指定以下配置:
[ {
"Classification": "hbase-site",
"Properties": {
"hbase.rpc.timeout": "3600000",
"hbase.rootdir": "s3://yourbucket/EMRROOT"
}
},
{
"Classification": "hbase",
"Properties": {
"hbase.emr.storageMode": "s3"
}
}
]
如果使用 s3 作为 HBase 的存储,则需要增加 hbase.rpc.timeout 的时间。因为bulk load 到s3 是一个copy 操作,如果数据量很大的话,HBase region server 需要更多的时间完成(相较于HDFS)。
2. 安装kylin
sudo mkdir /usr/local/kylin
sudo chown hadoop /usr/local/kylin
cd /usr/local/kylin/
wget https://mirror.bit.edu.cn/apache/kylin/apache-kylin-2.6.5/apache-kylin-2.6.5-bin-hbase1x.tar.gz
tar -zxvf apache-kylin-2.6.5-bin-hbase1x.tar.gz
3. 配置 Kylin
从 /etc/hbase/conf/hbase-site.xml 中复制以下配置:
<property>
<name>hbase.zookeeper.quorum</name>
<value>ip-10-0-3-107.cn-north-1.compute.internal</value>
</property>
并填充到kylin_job_conf.xml 中。
EMR 推荐使用 HDFS 作为临时/中间文件存储,S3仅用作初始输入数据以及最终输出结果的存储。Kylin中有个配置 hdfs-working-dir,用于存放中间数据如Cube building、cuboid files,以及一些元数据文件(例如字典、以及表的snapshots,这些都不适合放在 HBase中);所以最好是为HDFS配置HDFS。
如果使用 HDFS 作为 Kylin 的工作目录,我们直接使用Kylin的默认配置即可。在 kylin.properties 中,有以下配置:
kylin.env.hdfs-working-dir=/kylin
在我们关闭集群前,务必要备份 /kylin 目录下的数据(在HDFS上)到 S3,使用 s3-dist-cp即可。否则可能会丢失数据并且在之后无法恢复集群。
而如果要使用 S3 作为 “kylin.env.hdfs-working-dir”,则需要修改kylin.properties 中的以下配置:
kylin.env.hdfs-working-dir=s3://your_bucket/kylin
kylin.storage.hbase.cluster-fs=s3://your_bucket
kylin.source.hive.redistribute-flat-table=false
这样中间临时文件以及HFile会都写入到S3,build 的性能也会慢于 HDFS。
4. Hadoop 配置
为了在 S3 上有更好的性能以及避免一些数据一致性的问题,有些Hadoop 配置需要修改:
<property>
<name>io.file.buffer.size</name>
<value>65536</value>
</property>
<property>
<name>mapred.map.tasks.speculative.execution</name>
<value>false</value>
</property>
<property>
<name>mapred.reduce.tasks.speculative.execution</name>
<value>false</value>
</property>
<property>
<name>mapreduce.map.speculative</name>
<value>false</value>
</property>
<property>
<name>mapreduce.reduce.speculative</name>
<value>false</value>
</property>
主要是加大 io buffer,以及关闭 speculative 执行。
如果kylin 的 hdfs 工作目录不存在的话,首先创建这个工作目录:
hadoop fs -mkdir /kylin
若是工作目录在 s3 的话,则:
hadoop fs -mkdir s3://your_bucket/kylin
5. 启动 Kylin
启动方式与 Hadoop 方式基本一样:
export KYLIN_HOME=/usr/local/kylin/apache-kylin-3.0.1-bin-hbase1x
$KYLIN_HOME/bin/sample.sh
$KYLIN_HOME/bin/kylin.sh start
如果期间出现了类似 spark home 不存在的报错,则执行以下命令:
export SPARK_HOME=${SPARK_HOME:-/usr/lib/spark}
Kylin 的 web 服务端口启动在 7070,所以需要将主节点安全组的 7070 端口对访问客户端 ip 开放。
登录后的界面为:

Apache Kylin(二)在EMR上搭建Kylin的更多相关文章
- AWS EMR上搭建HBase环境
0. 概述 AWS的EMR服务为客户提供的托管 Hadoop 框架可以让您轻松.快 速.经济高效地在多个动态可扩展的 Amazon EC2 实例之间分发和处理 大量数据.您还可以运行其他常用的分发框架 ...
- 在centos 7云服务器上搭建Apache服务器并访问到你的网站
网站是指在互联网上根据一定的规则,用HTML等语言制作的网页的集合.网站的目的是用来展示一些信息,如果是个人网站则是为了展示自己的一些想被人知道的东西,例如自己的一些作品,又或者是通过网站来达到盈利的 ...
- 在一台服务器上搭建多个网站的方法(Apache版)
Apache的配置文件一般放置在/etc/httpd/conf文件夹下,httpd.conf是它的主配置文件,在进行配置时可以将虚拟主机的配置文件单独配置,如取名为vhost.conf,然后再http ...
- Mac OS X上搭建Apache、PHP、MySQL的Web服务器
mac OS 系统太帅了,安装php的环境如此简单,大赞一个! 转载自http://jingyan.baidu.com/article/39810a23e1939fb636fda6a9.html 在M ...
- 以太坊开发(二)使用Ganache CLI在私有链上搭建智能合约
以太坊开发(二)使用Ganache CLI在私有链上搭建智能合约 在上一篇文章中,我们使用Truffle自带的客户端Truffle Develop,在私有链上搭建并运行了官方提供的WebPack智能合 ...
- 在Mac上搭建带ssl协议和域名指向的Apache服务器
顾名思义,就是要在苹果电脑上搭建 Apache 服务器,并且支持 https 协议,能用指定域名访问(有些开发调试需要注册域名,比如调试微信JS-SDK),当然最好能在手机端进行调试.首先,Mac 系 ...
- Apache+MySQL+PHP开发环境的搭建(二)
通过自主选择相应的apache,mysql,php等软件,根据自己的应用开发需求进行安装.此方法搭建的环境自主性较强,搭建过程较为复杂,繁琐. 1.所需软件: Apache: http-2.2.22- ...
- 从Python爬虫到SAE云和微信公众号:二、新浪SAE上搭建微信服务
目的:用PHP在SAE上搭建一个微信公众号的服务器. 1.申请一个SAE云账号 SAE申请地址:http://sae.sina.com.cn/ 可以使用微博账号登陆,SAE是新浪的云服务,时间也比较 ...
- mac上搭建appium+IOS自动化测试环境(二)
上一篇: mac上搭建appium+IOS自动化测试环境(一) 9.安装appium-xcuitest-driver依赖 进入WebDriverAgent安装目录,运行bootstrap 首先进入目录 ...
- JMeter--二、在Windows环境上搭建wordpress
为了学习使用JMeter,在Windows环境上搭建了wordpress. 使用JMeter录制或是编写登录worepress.编辑文章.删除文章的脚本. 首先了解一下wordpress是什么? Wo ...
随机推荐
- Kafka 监听器详解
Kafka 监听器详解 Kafka Assistant 是一款 Kafka GUI 管理工具--管理Broker,Topic,Group.查看消费详情.监控服务器状态.支持多种消息格式. 目录 Kaf ...
- .NET CORE 完美支持AOT 的 ORM SqlSugar 教程
1.AOT适合产场 Aot适合工具类型的项目使用,优点禁止反编 ,第一次启动快,业务型项目或者反射多的项目不适合用AOT AOT更新记录: 实实在在经过实践的AOT ORM 5.1.4.117 +支持 ...
- 【爬虫+情感判定+Top10高频词+词云图】"乌克兰"油管热评python舆情分析
目录 一.分析背景 二.整体思路 三.代码讲解 3.1 爬虫采集 3.2 情感判定 3.3 Top10高频词 3.4 词云图 四.得出结论 五.同步视频演示 六.附完整源码 一.分析背景 乌克兰局势这 ...
- Android Studio自强迫升级到4.2版本后调试Native项目时总是卡死问题
原文地址:https://www.zhaimaojun.top/Note/5464968 就在昨天,也就是2021年5月6号,Android Studio强迫用户升级到4.2版本, 原因就是jcent ...
- Nginx教程+笔记
Nginx 学习视频: 2020最新 Nginx教程全面讲解(Nginx快速上手) https://www.bilibili.com/video/BV1W54y1z7GM?t=553&p=14 ...
- go-admin 视频教程
https://cloud.189.cn/t/6JJ3uqreqyai (访问码:2xn5) 感谢 熊猫 同学 整理 失效了可以去B站看 https://www.bilibili.com/video/ ...
- python教程6.4-json序列化
序列化:dumps,编码,将python类型转成json对象 反序列化:loads,解码,将json对象转成python对象 pickle 模块提供了四个功能:dumps.loads.dump.loa ...
- python教程1.1:环境安装+代码编辑器安装
1.环境安装 打开官⽹ https://www.python.org/downloads/windows/ 下载中 下载后执⾏,点击下⼀步安装就⾏,注意选择添加Python到当前⽤户环境变量 2.代码 ...
- TCP协议分析工具TcpEngine V1.2.0使用教程
概述 目前主流的网络数据分析工具主要有两类,一类是http协议分析工具,如fiddler,这类工具擅长对字符串类型协议分析:另一类是原始网络数据包的监听分析,如Wireshark,这类工具擅长分析网络 ...
- 使用systemctl管理服务(nginx)
首先调整好路径信息,修改配置文件vim /usr/lib/systemd/system/nginx.service [Unit]Description=The nginx HTTP and rever ...