Apache Hadoop的服务的部署比較繁琐。须要手工编辑配置文件、下载依赖包等。Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤。因为须要对Hive,HBase,Impala,Spark进行功能測试,就採用了Cloudera Manager方式进行安装。

Cloudera Manager提供两种软件包安装源,Package 和 Parcel:

Package就是一个个rpm文件。以yum的方式组织起来。

Parcel是rpm包的压缩格式。以.parcel结尾。全部的rpm压缩在一个文件里,方便下载和分发,使用manifest.json文件对parcel文件进行描写叙述,将parcel文件保存到局域网内的Webserver上,安装过程中就不须要从互联网上下载文件了。实现了离线安装。

一、安装前准备工作

安装Hive,HBase,Impala,Spark之前,Cloudera Manager应该已经安装好了,參见:本地Yum软件源安装Cloudera Manager 5 这篇文章。使用的操作系统为 CentOS-6.5-x86_64。CM版本号为 5.0.2 ,採用parcel包方式安装。

1、下载安装中须要的文件:

从 http://archive.cloudera.com/cdh5/parcels/5.0.2.13/ 下载例如以下的文件,保存到Webserver的 /var/www/html/cdh5/parcels/latest 文件夹 :

[root@localhost latest]# pwd
/var/www/html/cdh5/parcels/latest
[root@localhost latest]# ll
total 1793948
-rw-r--r-- 1 root root 1836961055 Jun 15 06:51 CDH-5.0.2-1.cdh5.0.2.p0.13-el6.parcel
-rw-r--r-- 1 root root 33190 Jun 15 09:04 manifest.json

从 http://archive-primary.cloudera.com/redhat/cdh/ 下载:RPM-GPG-KEY-cloudera,这是对rpm包进行校验的文件,保存到Webserver的 /var/www/html/redhat/cdh 文件夹:

[root@localhost cdh]# pwd
/var/www/html/redhat/cdh
[root@localhost cdh]# ll
total 4
-rw-r--r-- 1 root root 1690 Jun 16 07:32 RPM-GPG-KEY-cloudera
[root@localhost cdh]# 

2、准备安装的server

測试环境一共使用了六台server,列表例如以下:

server列表
ip地址 hostname 描写叙述信息
172.16.230.140 archive.cloudera.com 本地webserver
172.16.230.141 cm.worker.com CM,管理节点
172.16.230.151 h1.worker.com 节点1
172.16.230.152 h2.worker.com 节点2
172.16.230.153 h3.worker.com 节点3
172.16.230.154 h4.worker.com 节点4

全部的server上安装CentOS-6.5-x86_64,并关闭防火墙、selinux、保持时间一致。

保持全部的root用户password一致。一个Hadoop集群中的节点最少为三台,本測试环境的节点为四台,上面的ip地址须要依据自已的网络情况进行调整,这是我搭建的虚拟机的IP。

3、在webserver上公布CentOS-6.5-x86_64安装盘文件

安装过程中,须要从CentOS-6.5-x86_64安装盘上读取一些rpm包,须要将安装盘公布为本地yum源。将安装盘挂载到webserver,并加入软连接到web文件夹。webserver上的web根文件夹例如以下:

[root@localhost html]# pwd
/var/www/html
[root@localhost html]# ll
total 12
drwxr-xr-x 3 root root 4096 Jun 15 06:48 cdh5
lrwxrwxrwx 1 root root 24 Jun 20 08:12 centos_media -> /media/CentOS_6.5_Final/
drwxr-xr-x 3 root root 4096 Jun 14 10:04 cm5
drwxr-xr-x 3 root root 4096 Jun 16 07:29 redhat

4、创建 hosts 和 yum配置文件

创建hosts文件,保存到全部server的 /etc/hosts ,内容例如以下:

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 172.16.230.140 archive.cloudera.com
172.16.230.141 cm.worker.com
172.16.230.151 h1.worker.com
172.16.230.152 h2.worker.com
172.16.230.153 h3.worker.com
172.16.230.154 h4.worker.com

创建 myrepo.repo 文件,保存到全部server的 /etc/yum.repos.d 文件夹。内容例如以下:

[myrepo]
name=myrepo
baseurl=http://172.16.230.140/cm5/redhat/6/x86_64/cm/5/
enabled=1
gpgcheck=0

创建 CentOS-Media.repo 文件,保存到全部server的 /etc/yum.repos.d 文件夹。内容例如以下:

[c6-media]
name=CentOS-$releasever - Media
baseurl=http://172.16.230.140/centos_media
gpgcheck=0
enabled=1
exclude = jdk*

注意, /etc/yum.repos.d 文件夹。仅存在  myrepo.repo 和  CentOS-Media.repo  两个文件.

5、cm.worker.com 上安装 PostgreSQL

Hive须要使用一个关系数据库作为Metastore数据库,使用嵌入式数据库存在性能问题,须要在cm.worker.com 上安装一个PostgreSQL数据库。创建用户hiveuser。创建数据库 hivedb,指定数据库拥有者为hiveuser,具体过程能够參见这篇文章:PostgreSQL入门教程

二、图解Hive,HBase,Impala,Spark 的安装和配置

做了上面的准备工作后,登录CM5就能够開始安装了,安装过程大部分情况下都不须要改动默认值。须要改动的地方会以文字说明,以下是安装过程的截图。

1、登录CM5

2、选择Cloudera Express

3、可供选择的安装包列表

4、为CDH集群指定主机

输入 172.16.230.[151-154] ,依据自已网络情况进行调整,然后点击搜索。

5、进入加入主机向导

使用parcel安装方式,parcel下载路径不用改动,已经公布在本地webserver中了。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveWFuZ3poYW9odWkxNjg=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="加入主机向导1" />

不须要java加密。保留默认值:

输入root的password,全部节点的rootpassword是一致的。

同一时候安装的数据默觉得10。考虑到是虚拟机,改动为2。假设是真实server。请保留默认值为10.

进行节点CM管理程序安装,假设出现故障,请检查hostname与ip地址配置是否正确。

下载和分配parcel包,因为parcel包有1.8G大小,运行时间较长,能够喝杯咖啡再回来。

主机安装完毕:会对主机进行检查。有个 swappness 须要调整,假设是真实server,请将 swappness改动为0。尽量不使用交换分区。

6、进入加入服务向导:

选饿全部服务

保持默认的节点角色配置:

选择自己定义数据库,填写连接信息。并点击測试连接button:

加入服务的具体配置,保留默认值:

首次启动服务的时间比較长,大概二十分钟:

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveWFuZ3poYW9odWkxNjg=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="加入服务向导10" />

加入服务完毕:

点击完毕后,就进入了CM管理的首页了。

7、进入CM首页

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveWFuZ3poYW9odWkxNjg=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="cm hmoe page" />

三、小结

本文描写叙述的hadoop安装方式是一种离线方式,通过CM5加快了环境搭建的速度,CM5将hadoop集群管理的复杂度大大减少。后面在測试中学习hadoop集群的调优。

原创作品,转载请注明出处:http://blog.csdn.net/yangzhaohui168/article/details/33403555

CDH5上安装Hive,HBase,Impala,Spark等服务的更多相关文章

  1. 在ubantu上安装hive

    上次我们在ubantu上安装了hadoop,那我们现在再进一步,开始我们的学习之旅--hive板块吧! 第一步:准备! 软件: I.一个搭建好的hadoop环境 II.hive的bin文件(前往apa ...

  2. Hadoop 伪分布式上安装 Hive

    下载地址:点此链接(P.S.下载带bin的安装包) 下载hive后放到虚拟机文件夹内,打开: -bin.tar.gz -C /home/software/ 修改并保存环境配置: gedit /etc/ ...

  3. 在Ubuntu上安装Hive

    1.下载hive2.3.5 解压缩并改名为hive目录,放到/usr/local下(注意权限) sudo mv apache-hive-2.3.5-bin /usr/local/hive 2.修改目录 ...

  4. centos7.2上安装CDH5.16.2及Spark2【原创】

    背景:我自己的电脑配置太低,想在centos操作系统上安装CDH5.1.2并配置集群,我去阿里云上买了3台按流量计费的阿里云服务器. 大家一定要注意,配置,购买的阿里云服务器不要太低了.建议:3台2核 ...

  5. 如何在CDH5上部署Dolphin Scheduler 1.3.1

    点击蓝色字关注! 本篇文章大概8440字,阅读时间大约20分钟 本文记录了在CDH5.16.2集群上集成Dolphin Scheduler 1.3.1的详细流程,特别注意一下MySQL数据库的连接串! ...

  6. 第1节 HUE:14、15、16、hue与hdfs、yarn集群、hive、impala、mysql的整合

    3.hue与其他框架的集成 3.1.hue与hadoop的HDFS以及yarn集成 第一步:更改所有hadoop节点的core-site.xml配置 记得更改完core-site.xml之后一定要重启 ...

  7. 如何在同一台机器上安装多个MySQL的实例

    转自:'http://www.cnblogs.com/shangzekai/p/4375271.html 最近由于工作的需要,需要在同一台机器上搭建两个MySQL的实例,(注:已经存在了一个3306的 ...

  8. 如何在同一台机器上安装多个MySQL的实例 转

    https://www.cnblogs.com/shangzekai/p/4375271.html 最近由于工作的需要,需要在同一台机器上搭建两个MySQL的实例,(注:已经存在了一个3306的MyS ...

  9. 如何在同一台机器上安装多个MySQL的实例(转)

    最近由于工作的需要,需要在同一台机器上搭建两个MySQL的实例,(注:已经存在了一个3306的MySQL的实例). 先说下,什么是mysql的多实例,简单的来说就是一台机器上安装了多个mysql的服务 ...

随机推荐

  1. [Leetcode 392]判断子序列 Is Subsequence

    [思路] 判断s是否为t的子串,所以length(s)<=length(t).于是两个指针,一次循环. 将s.t转换为数组p1.p2. i为过程中s的匹配长度. i=0空串,单独讨论返回true ...

  2. TBody scrollbar 设置

    由于scrollbar自身有宽度 对于tbody来说可能会挤压与thead不对齐下面办法能够解决大致问题 1.设置tbody display:block :  overflow-y:auto:(并且修 ...

  3. Java Web相关概念调查

  4. 51nod1009

    给定一个十进制正整数N,写下从1开始,到N的所有正数,计算出其中出现所有1的个数.   例如:n = 12,包含了5个1.1,10,12共包含3个1,11包含2个1,总共5个1. Input 输入N( ...

  5. 关于“用VS2010的C++导入ADO导入不了,提示无法打开源文件msado15.tlh”的问题

    vc++2010中,要使用ado操作数据库,所以在stdafx.h中引入了ado的dll库,引入代码如下: #import "C:/Program Files/Common Files/Sy ...

  6. 什么时候用深搜(dfs)什么时候用广搜(bfs)(转)

    1.BFS是用来搜索最短径路的解是比较合适的,比如求最少步数的解,最少交换次数的解,因为BFS搜索过程中遇到的解一定是离根最近的,所以遇到一个解,一定就是最优解,此时搜索算法可以终止.这个时候不适宜使 ...

  7. PAT乙级 1031. 查验身份证(15)

    题目传送:https://www.patest.cn/contests/pat-b-practise/1031 一个合法的身份证号码由17位地区.日期编号和顺序编号加1位校验码组成.校验码的计算规则如 ...

  8. vim3

    使用vim编辑多个文件 编辑多个文件有两种形式,一种是在进入vim前使用的参数就是多个文件.另一种是在进入vim后再编辑其他文件. 1. vim 1.txt 2.txt 在命令行模式下输入:n编辑2. ...

  9. react native 第三方组件

    react native 的成功离不开优秀的第三方组件,以下是我见过的一些优秀或者有用的RN第三方组件 按钮 APSL/react-native-button 导航 react-native-simp ...

  10. Python学习笔记第十五周

    目录: 一.CSS补充 1.position 2.overflow 3.hover 4.background 二.JavaScript 三.DOM 主要内容: 一.CSS补充 1.position 可 ...