最近一段时间团队接到的项目需要处理的数据量非常大,之前的处理方式难以满足现有需求。最近两周前前后后折腾了不少,在搭建了hadoop+hbase+hive+spark的一个集群后,由于感觉管理和监控太麻烦就把它给干掉了,转而折腾CDH。

安装CDH前需要安装Cloudera Manager,官方文档提供的A,B,C三种安装方式。方式A傻瓜式的安装部署,安装时最好祈祷一次成功,否则卸载时时候非常麻烦。本文主要介绍方式C的部署。

系统环境以及相关软件版本

  • 机器数量:4台PC,名称分别为Master, Slave1, Slave2, Slave3.

  • 操作系统版本:Ubuntu 14.04
  • Cloudera Manager: 5.11.1,下载链接
  • CDH:5.11.1,CDH-5.11.1-1.cdh5.11.1.p0.4-trusty.parcel和CDH-5.11.1-1.cdh5.11.1.p0.4-trusty.parcel.sha1,下载链接
  • JDK:1.8.0_131
  • Postgresql:9.3

准备环境

192.168.1.110   Master
192.168.1.100 Slave1
192.168.1.120 Slave2
192.168.1.130 Slave3

Postgresql配置

开启外网访问;

添加Cloudera Manager所需用户和数据库:

  • 连接pg:$ sudo -u postgres psql
  • 为Cloudera Manager Server添加用户和数据库
postgres=# CREATE ROLE scm LOGIN PASSWORD 'scm';
postgres=# CREATE DATABASE scm OWNER scm ENCODING 'UTF8';
  • 为Activity Monitor, Reports Manager, Hive Metastore Server, Hue Server, Sentry Server, Cloudera Navigator Audit Server, Cloudera Navigator Metadata Serve添加数据库和用户。



    对于8.2.23以及更高版本的PostgreSQL,执行一下语句
postgres=# ALTER DATABASE Metastore SET standard_conforming_strings = off;

Cloudera Manager Server和Agents部署

服务端和服务端安装

  • 复制cloudera-manager-trusty-cm5.11.1_amd64.tar.gz到所有节点。
  • 创建Cloudera Manager的主目录且解压安装包
构建目录
$ sudo mkdir /opt/cloudera-manager
$ ssh hadoop@slave1 'sudo mkdir /opt/cloudera-manager'
$ ssh hadoop@slave2 'sudo mkdir /opt/cloudera-manager'
$ ssh hadoop@slave3 'sudo mkdir /opt/cloudera-manager'
进入所有节点解压安装包:
$ sudo tar xzf cloudera-manager-trusty-cm5.11.1_amd64.tar.gz -C /opt/cloudera-manager

在所有节点上创建用户cloudera-scm

注意目录为刚才解压的cdh压缩包下面的路径

$ sudo useradd --system --home=/opt/cloudera-manager/cm-5.11.1/run/cloudera-scm-server --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm

创建Cloudera Manager服务端的本地文件夹

//仅Master节点
$ sudo mkdir /var/lib/cloudera-scm-server
$ sudo chown cloudera-scm:cloudera-scm /var/lib/cloudera-scm-server

Cloudera Manager客户端配置

进入所有客户端节点中的/opt/cloudera-manager/cm-5.11.1/etc/cloudera-scm-agent/config.ini,将server_host值改为服务器ip,server_port保持不变:

# Hostname of the CM server.
server_host=Master # Port that the CM server is listening on.
server_port=7182

创建Parcel文件夹

  • 在服务端建立parcel源文件夹,存放CDH安装包,便于Cloudera Manager自动部署到集群各节点。
$ sudo mkdir -p /opt/cloudera/parcel-repo
  • 将文件夹所有者改为Cloudera Manager的运行用户(hadoop)
$ sudo chown hadoop:hadoop /opt/cloudera/parcel-repo
  • 所有节点间创建parcels文件夹,所有者为Cloudera Manager的运行用户(hadoop)
$ sudo mkdir -p /opt/cloudera/parcels
$ sudo chown hadoop:hadoop /opt/cloudera/parcels

在客户端复制CDH到/opt/cloudera/parcel-repo

CDH-5.11.1-1.cdh5.11.1.p0.4-trusty.parcel
CDH-5.11.1-1.cdh5.11.1.p0.4-trusty.parcel.sha1

CDH-5.11.1-1.cdh5.11.1.p0.4-trusty.parcel.sha1重命名为CDH-5.11.1-1.cdh5.11.1.p0.4-trusty.parcel.sha

Cloudera Manager启动

服务端启动

  • 为Cloudera Manager Server启动外部数据库postgresql
sudo /opt/cloudera-manager/cm-5.11.1/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm
  • 删除/opt/cloudera-manager/cm-5.11.1/etc/default/cloudera-scm-server中的export CMF_SUDO_CMD=" "
  • 更改/opt/cloudera-manager/cm-5.11.1/etc/init.d/cloudera-scm-server:
USER=hadoop
GROUP=hadoop
  • 启动Cloudera Manager服务端$ sudo /opt/cloudera-manager/cm-5.11.1/etc/init.d/cloudera-scm-server start
  • 服务端开机自启设置
sudo  cp /opt/cloudera-manager/cm-5.11.1/etc/init.d/cloudera-scm-server /etc/init.d/cloudera-scm-server
sudo update-rc.d cloudera-scm-server defaults

客户端启动

  • 删除/opt/cloudera-manager/cm-5.11.1/etc/default/cloudera-scm-agent中的export CMF_SUDO_CMD=" "
  • 启动Cloudera Manager服务端$ sudo /opt/cloudera-manager/cm-5.11.1/etc/init.d/cloudera-scm-agent start
  • 服务端开机自启设置
sudo  cp /opt/cloudera-manager/cm-5.11.1/etc/init.d/cloudera-scm-agent /etc/init.d/cloudera-scm-agent
sudo update-rc.d cloudera-scm-agent defaults

安装相关依赖包

sudo apt-get install ant apache2 bash debhelper fuse gcc libfuse2 libsasl2-modules libsasl2-modules-gssapi-mit libsqlite3-0 libssl-dev libxslt1.1 make openssl perl postgresql-client psmisc python-dev python-mysqldb python-psycopg2 python-setuptools rpcbind sed swig zlib1g

CDH部署

  • 主节点上访问http://localhost:7180/,输入用户名admin,密码admin

  • 点击“向集群添加主机”(下图中的是配好之后的可以忽略)

  • 输入所有需要构建集群的节点名称或IP

  • 选定主机构建集群

  • 进入主页面http://192.168.1.110:7180/cmf/home

  • 为集群Cluster 1添加服务:

  • 为各服务的组件分配节点主机,完成安装。

ubuntu14.04, Cloudera Manager 5.11.1, cdh5.11.1 postgresql离线部署的更多相关文章

  1. CM5.11与CDH5.11安装使用说明

    1.cdh5 支持jdk7和jdk82.cloudera只支持oracle发布的jdk3.集群中所有主机的jdk版本必须一致4.生态圈中用到的所有组件所依赖的jdk版本必须一致5.cloudera m ...

  2. cloudera manager服务迁移(scm数据库在postgresql上,其他amon,rman,oozie,metastore等在mysql上)

    公司线上大数据集群,之前用的是公有云主机,现在换成了自己idc机房机器,需要服务迁移,已下为测试: 1.备份原postgresql数据库: pg_dump -U scm scm > scm.sq ...

  3. 手动安装cloudera manager 5.x(tar包方式)详解

    官方共给出了3中安装方式:第一种方法必须要求所有机器都能连网,由于最近各种国外的网站被墙的厉害,我尝试了几次各种超时错误,巨耽误时间不说,一旦失败,重装非常痛苦.第二种方法下载很多包.第三种方法对系统 ...

  4. 安装CDH5.11.2集群

    master  192.168.1.30 saver1  192.168.1.40 saver2  192.168.1.50 首先,时间同步 然后,ssh互通 接下来开始: 1.安装MySQL5.6. ...

  5. CDH使用秘籍(一):Cloudera Manager和Managed Service的数据库

    背景 从业务发展需求,大数据平台须要使用spark作为机器学习.数据挖掘.实时计算等工作,所以决定使用Cloudera Manager5.2.0版本号和CDH5. 曾经搭建过Cloudera Mana ...

  6. (转)Installing Cloudera Manager and CDH

    转:https://blog.csdn.net/qq_26222859/article/details/79976506 译自官网: Installing Cloudera Manager and C ...

  7. Cloudera Manager安装之利用parcels方式(在线或离线)安装3或4节点集群(包含最新稳定版本或指定版本的安装)(添加服务)(Ubuntu14.04)(五)

    前期博客 Cloudera Manager安装之Cloudera Manager 5.6.X安装(tar方式.rpm方式和yum方式) (Ubuntu14.04) (三) 如果大家,在启动的时候,比如 ...

  8. Cloudera Manager安装之Cloudera Manager安装前准备(Ubuntu14.04)(一)

    其实,基本思路跟如下差不多,我就不多详细说了,贴出主要图. 博主,我是直接借鉴下面这位博主,来进行安装的!(灰常感谢他们!) 在线和离线安装Cloudera CDH 5.6.0  Cloudera M ...

  9. Cloudera Manager安装之Cloudera Manager 5.6.X安装(tar方式、rpm方式和yum方式) (Ubuntu14.04) (三)

    见 Ubuntu14.04下完美安装cloudermanage多种方式(图文详解)(博主推荐) 欢迎大家,加入我的微信公众号:大数据躺过的坑     免费给分享       同时,大家可以关注我的个人 ...

随机推荐

  1. Mysql模糊查询Like传递参数的语句

    set @keyWord='我的': select * from tblcontent where content like CONCAT('%',@keyWord,'%')

  2. 转:C#中Undo/Redo的一个简易实现

    一个比较常见的改进用户体验的方案是用Redo/Undo来取代确认对话框,由于这个功能比较常用,本文简单的给了一个在C#中通过Command模式实现Redo/Undo方案的例子,以供后续查询. clas ...

  3. 移动端picker插件

    项目需要,要做移动端网页,比如选择出生日期什么的.可笑weui给的控件,竟然选择后的数据不准确. 于是自己写了一个. 链接: https://pan.baidu.com/s/1qY2SSxQ 密码: ...

  4. springmvc学习路线1-基本配置

    1.第一个springmvc实例helloword 关键点拨 1.1 web.xml文件的配置 <servlet> <servlet-name>springMVC</se ...

  5. 【python】python嵌套循环内层循环只执行一次

    今天写了一个两个基因集找相同的基因然后输出这么个小程序就无论如何也跑不起来,原因出在循环嵌套上,这方面之前就出过问题,后来阴差阳错的就好了我也没太注意,但是最近这个问题严重制约了工作效率,我决心找到问 ...

  6. SSM项目思路整合NEW

    #首先进行项目思路整体分析,具体包括哪些模块,如何实现等: 一)搭建环境 1.导包: (Spring核心包4个 + 面向切面的包4个 + SpringJDBC和事务的包各一个, SpringMVC两个 ...

  7. centos6安装配置zabbix3主控端

    Centos 6.5 Zabbix 3.0.4 zabbix分为zabbix-server(主控端)和zabbix-agent(被控端),本文只介绍server: 安装mysql mysql建议使用5 ...

  8. spring mvc 的上传图片是怎么实现的?

    spring mvc 的上传图片是怎么实现的? 导入jar包,commons-io.jar 及 commons-fileupload.jar 在springmvc的配置文件中配置Mutipart解析器 ...

  9. 剑指offer(62)二叉搜索树的第K个节点

    题目描述 给定一棵二叉搜索树,请找出其中的第k小的结点.例如, (5,3,7,2,4,6,8)    中,按结点数值大小顺序第三小结点的值为4. 题目分析 首先,我们可以先画图.画完图后我们要想办法从 ...

  10. python之路——模块和包

    阅读目录 一 模块 3.1 import 3.2 from ... import... 3.3 把模块当做脚本执行 3.4 模块搜索路径 3.5 编译python文件 二 包 2.2 import 2 ...