从这一篇文章开始会有三篇文章依次介绍集群搭建 「Before install」 「Process」 「After install」

继上一篇使用 docker 部署单机 CDH 的文章,当我们使用 docker 评估完相关组件和一些功能之后,接下来就是使用 CDH express 版本来搭建集群。

搭建之前应该关注一下手册看下还有哪些可以注意的地方参见官方 before your install

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/installation_reqts.html#pre-install

看了一下5.x.x 的最后一个版本是 5.15.x 然后所带的组件如下:

Component Package Version Tarball Release Notes Changes File
Apache Avro avro-1.7.6+cdh5.15.1+140 Tarball Release notes Changes
Apache Crunch crunch-0.11.0+cdh5.15.1+104 Tarball Release notes Changes
Apache DataFu pig-udf-datafu-1.1.0+cdh5.15.1+27 Tarball Release notes Changes
Apache Flume flume-ng-1.6.0+cdh5.15.1+189 Tarball Release notes Changes
Apache Hadoop hadoop-2.6.0+cdh5.15.1+2822 Tarball Release notes Changes
Apache Hadoop MRv1 hadoop-0.20-mapreduce-2.6.0+cdh5.15.1+2822 (none) (none) (none)
Apache HBase hbase-1.2.0+cdh5.15.1+470 Tarball Release notes Changes
Apache HBase-Solr hbase-solr-1.5+cdh5.15.1+74 Tarball Release notes Changes
Apache Hive hive-1.1.0+cdh5.15.1+1395 Tarball Release notes Changes
Hue hue-3.9.0+cdh5.15.1+8420 Tarball Release notes Changes
Apache Impala impala-2.12.0+cdh5.15.1+0 (none) Release notes Changes
Kite SDK kite-1.0.0+cdh5.15.1+147 Tarball Release notes Changes
Apache Kudu kudu-1.7.0+cdh5.15.1+0 (none) Release notes Changes
Llama llama-1.0.0+cdh5.15.1+0 Tarball Release notes Changes
Apache Mahout mahout-0.9+cdh5.15.1+36 Tarball Release notes Changes
Apache Oozie oozie-4.1.0+cdh5.15.1+492 Tarball Release notes Changes
Apache Parquet parquet-1.5.0+cdh5.15.1+197 Tarball Release notes Changes
Parquet-format parquet-format-2.1.0+cdh5.15.1+20 Tarball Release notes Changes
Apache Pig pig-0.12.0+cdh5.15.1+114 Tarball Release notes Changes
Cloudera Search search-1.0.0+cdh5.15.1+0 Tarball Release notes Changes
Apache Sentry sentry-1.5.1+cdh5.15.1+458 Tarball Release notes Changes
Apache Solr solr-4.10.3+cdh5.15.1+529 Tarball Release notes Changes
Apache Spark spark-1.6.0+cdh5.15.1+569 Tarball Release notes Changes
Apache Sqoop sqoop-1.4.6+cdh5.15.1+136 Tarball Release notes Changes
Apache Sqoop2 sqoop2-1.99.5+cdh5.15.1+49 Tarball Release notes Changes
Apache Whirr whirr-0.9.0+cdh5.15.1+25 Tarball Release notes Changes
Apache ZooKeeper zookeeper-3.4.5+cdh5.15.1+149 Tarball Release notes Changes

这个图很容易看出即使是 5.x 的最新版本使用的 spark 的版本是 1.6.0,这个版本远远滞后了目前的社区 spark 发布的版本。如果要使用更新版本可能需要自己自行安装。

我们从 0 搭建当然愿意使用更新的稳定版本,所以采用 6.0.1 下面是 6.0.1 的一个软件包支持情况:

Component Component Version Changes Information
Apache Avro 1.8.2 Changes
Apache Flume 1.8.0 Changes
Apache Hadoop 3.0.0 Changes
Apache HBase 2.0.0 Changes
HBase Indexer 1.5 Changes
Apache Hive 2.1.1 Changes
Hue 4.2.0 Changes
Apache Impala 3.0.0 Changes
Apache Kafka 1.0.1 Changes
Kite SDK 1.0.0  
Apache Kudu 1.6.0 Changes
Apache Solr 7.0.0 Changes
Apache Oozie 5.0.0 Changes
Apache Parquet 1.9.0 Changes
Parquet-format 2.3.1 Changes
Apache Pig 0.17.0 Changes
Apache Sentry 2.0.0 Changes
Apache Spark 2.2.0 Changes
Apache Sqoop 1.4.7 Changes
Apache ZooKeeper 3.4.5 Changes

可以很容易看到两个关键地方的更新,一个是从 6.0.x 版本开始之后, hadoop 使用了 3.0.x 版本了。另外一个关键组件 spark 也从之前的 1.6.0 被升级到了 2.2.0。

包括 hadoop 版本和 spark 版本的变动,都可以前往官方网站获得更多的信息。

部署之前除了参看 before install 之外 ,可以仔细阅读一下 「Cloudera Enterprise Reference Architecture for Bare Metal Deployments」 这个文档。他会从物理机器配置,os 需求等部署相关的硬件问题,软件问题,操作系统问题,以及你想要的集群大小给出一些合理建议。

1. 比如推荐你使用 dns 而不要使用 hosts 文件来管理集群。

2. 比如推荐你关闭 iptables 来避免一些不必要的麻烦。

3. 比如推荐你开启 ntp 时间服务器,来同步 master 与各 node 之间的时间。

4. 比如给你硬盘划分资源提出一些合理建议

等等等.参看这个手册,寻找一些我们关心的问题变得很有必要。

关于大礼包吃资源的情况,另外一个文档列出了更详细的信息:

我们关心的 CM(cloudera manager) 吃资源的情况

Cloudera Manager Server Storage Requirements

Component Storage Notes
Partition hosting /usr 1 GB  
Cloudera Manager Database 5 GB If the Cloudera Manager Database shares a host with the Service Monitor and Host Monitor, more storage space is required to meet the requirements for those components.

Host Based Cloudera Manager Server Requirements

Number of Cluster Hosts Database Host Configuration Heap Size Logical Processors Cloudera Manager Server Storage Local Directory
Very small (≤10) Shared 2 GB 4 5 GB minimum
Small (≤20) Shared 4 GB 6 20 GB minimum
Medium (≤200) Dedicated 8 GB 6 200 GB minimum
Large (≤500) Dedicated 10 GB 8 500 GB minimum
Extra Large (>500) Dedicated 16 GB 16 1 TB minimum

可以看到,根据集群大小的不同有一些不同的参数推荐。文档下面还有大礼包里面包含所有组件在什么情况部署下 大概消费的资源的参考。但是最终消耗还是要看我们自己部署的机器数目和开启应用的数量还有我们使用的情况。这些资料可以提供一个合理的参考。

想要了解 CDH 的全局端口使用情况(包含所有的大礼包里面的服务)可以参照

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_ports_cm.html#cm_cn_ports

想要了解 CDH hosts 以及 master 应该如何分配,可以参照

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_host_allocations.html#host_role_assignments

如果想要了解一些自定义安装的详情,例如你不使用 CM 进行安装,想要安装一些老的组件可以参考

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_custom_installation.html

以上就是开始集群搭建之前需要了解的一些情况,在这里做一个简单的纪录。

Reference:

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/installation_reqts.html#pre-install  Before You Install

https://techvidvan.com/tutorials/hadoop-2-x-vs-hadoop-3-x/  20 Notable Difference Between Hadoop 2.x vs Hadoop 3.x

http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_metal.pdf

https://www.cloudera.com/documentation/enterprise/release-notes/topics/hardware_requirements_guide.html

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_ports_cm.html#cm_cn_ports  CDH 大礼包的端口使用详情(包含了所有的服务)

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_host_allocations.html#host_role_assignments  CDH 角色分配

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_custom_installation.html  CDH 自定义安装的一些介绍

CDH 6.0.1 集群搭建 「Before install」的更多相关文章

  1. CDH 6.0.1 集群搭建 「After install」

    集群搭建完成之后其实还有很多配置工作要做,这里我列举一些我去做的一些. 首先是去把 zk 的角色重新分配一下,不知道是不是我在配置的时候遗漏了什么在启动之后就有报警说目前只能检查到一个节点.去将 zk ...

  2. CDH 6.0.1 集群搭建 「Process」

    这次搭建我使用的机器 os 是 Centos7.4 RH 系的下面以流的方式纪录搭建过程以及注意事项 Step1: 配置域名相关,因为只有三台机器组集群,所以直接使用了 hosts 的方法: 修改主机 ...

  3. Redis 5.0.5集群搭建

    Redis 5.0.5集群搭建 一.概述 Redis3.0版本之后支持Cluster. 1.1.redis cluster的现状 目前redis支持的cluster特性: 1):节点自动发现 2):s ...

  4. java_redis3.0.3集群搭建

    redis3.0版本之后支持Cluster,具体介绍redis集群我就不多说,了解请看redis中文简介. 首先,直接访问redis.io官网,下载redis.tar.gz,现在版本3.0.3,我下面 ...

  5. Redis 3.0.2集群搭建以及相关问题汇总

    Redis3 正式支持了 cluster,是为了解决构建redis集群时的诸多不便 (1)像操作单个redis一样操作key,不用操心key在哪个节点上(2)在线动态添加.删除redis节点,不用停止 ...

  6. Hadoop2.0 HA集群搭建步骤

    上一次搭建的Hadoop是一个伪分布式的,这次我们做一个用于个人的Hadoop集群(希望对大家搭建集群有所帮助): 集群节点分配: Park01 Zookeeper NameNode (active) ...

  7. redis4.0.6集群搭建

    文件环境:CentOS7 + redis4.0.6 先去官网下载redis:https://redis.io/,然后上传到你的虚拟机,我上传到了/mysoft 先解压->然后进入主目录-> ...

  8. redis3.0.3集群搭建

    redis3.0版本之后支持Cluster,具体介绍redis集群我就不多说,了解请看redis中文简介. 首先,直接访问redis.io官网,下载redis.tar.gz,现在版本3.0.3,我下面 ...

  9. ubuntu18.04 flink-1.9.0 Standalone集群搭建

    集群规划 Master JobManager Standby JobManager Task Manager Zookeeper flink01 √ √ flink02 √ √ flink03 √ √ ...

随机推荐

  1. dubbo远程方法调用的基本原理

    1 dubbo是远程服务调用rpc框架 2 dubbo缺省协议采用单一长连接和NIO通讯 1client端生成一个唯一的id,封装方法调用信息obj(接口名,方法名,参数,处理结果的回调对象),在全局 ...

  2. 已使用.netframework,version=v4.6.1 而不是目标框架netcoreapp,version=v2.1 还原包,此包可能与项目不完全兼容

    已使用.netframework,version=v4.6.1 而不是目标框架netcoreapp,version=v2.1 还原包,此包可能与项目不完全兼容 NU1202: 包 System.Run ...

  3. mysql 查看当前使用的配置文件my.cnf的方法

    my.cnf是mysql启动时加载的配置文件,一般会放在mysql的安装目录中,用户也可以放在其他目录加载. 安装mysql后,系统中会有多个my.cnf文件,有些是用于测试的. 使用locate m ...

  4. python:实例化configparser模块读写配置文件

    之前的博客介绍过利用python的configparser模块读写配置文件的基础用法,这篇博客,介绍下如何实例化,方便作为公共类调用. 实例化的好处有很多,既方便调用,又降低了脚本的维护成本,而且提高 ...

  5. Java内存模型与线程安全

    原文链接:blog.edreamoon.com Java内存模型 计算机cpu的运算能力强大,但是数据的存储相对于cpu运算能力需要消耗大量时间,为了充分利用运算能力引入了缓存,但是也为计算机系统带来 ...

  6. linux驱动编写之poll机制

    一.概念 1.poll情景描述 以按键驱动为例进行说明,用阻塞的方式打开按键驱动文件/dev/buttons,应用程序使用read()函数来读取按键的键值.这样做的效果是:如果有按键按下了,调用该re ...

  7. Android so注入(inject)和Hook技术学习(三)——Got表hook之导出表hook

    前文介绍了导入表hook,现在来说下导出表的hook.导出表的hook的流程如下.1.获取动态库基值 void* get_module_base(pid_t pid, const char* modu ...

  8. Luogu P3321 [SDOI2015]序列统计

    一道不错的多项式好题.还涉及了一些数论内容. 首先我们看到题目是求乘积模\(m\)的方案数,考虑到这种方案数我们一般都可以用生成函数来做. 但显然卷积的下标有加(FFT,NTT等)有位运算(FWT)但 ...

  9. 常用的移动前端webapp交互细节

    #常用的移动前端webapp交互细节 ##select的表现方式 ###PC端 select控件在传统PC桌面已经存在多年,由于在IE6等低版本浏览器容易造成层级错乱,一直被一些UI框架所抛弃,而用d ...

  10. virtualenv虚拟环境的使用

    前提条件:安装好python环境并配置好环境变量(可参考另一篇博文,python安装及配置) 1.打开cmd命令终端 pip3 install virtualenvwrapper-win(我电脑上面已 ...