涉及到一些关于硬件的东西,我也不是很懂,记录下来有待以后学习。

Hadoop集群一般都是由小到大,刚开始可能只有4到6个节点,随着存储数据的增加,计算量的增大,内存需求的增加,集群慢慢变大。

比如按照数据存储量增大集群,每个星期数据存储3TB数据,HDFS的block备份数为3,则集群就需要9TB的磁盘,一般还要再预估25%buffer。如果一台机器的存储量为16*3T,则大概每个月往集群中增加1台机器。

如何进行硬件选择?一般Hadoop节点分成管理节点(master node)和工作节点(work node)。管理节点上跑NameNode,Standby NameNode,ResourceManager,SecondaryNameNode。工作节点上跑DataNode,NodeManager,impala server进程。

work nodes的推荐配置:

中级配置(deep storage, 1Gb Ethernet ):

– 16 x 3TB SATA II hard drives, in a non-RAID, JBOD* configuraGon – 1 or 2 of the 16 drives for the OS, with RAID-1 mirroring
– 2 x 6-core 2.9GHz CPUs, 15MB cache
– 256GB RAM

– 2x1 Gigabit Ethernet

高级配置(high memory, spindle dense, 10Gb Ethernet ):

– 24 x 1TB Nearline/MDL SAS hard drives, in a non-RAID, JBOD* configuraGon

– 2 x 6-core 2.9GHz CPUs, 15MB cache – 512GB RAM (or more)
– 1x10 Gigabit Ethernet

Work Node不推荐RAID,不推荐Blade Servers。

master node的推荐配置:

Carrier-class hardware

Dual power supplies

Dual Ethernet cards
– Bonded to provide failover

RAIDed hard drives

Reasonable amount of RAM
– 64 GB for clusters of 20 nodes or less

– 96 GB for clusters of up to 300 nodes

– 128 GB for larger clusters

不推荐部署在虚拟化的主机上,因为虚拟化会带了很多不确定性,比如虚拟的三个server,实际的存储可能在一个物理server上,给hdfs的block备份带来风险。

Network推荐:

Nodes are connected to a top-of-rack switch

Nodes should be connected at a minimum speed of 1Gb/sec

Consider 10Gb/sec connecAons in the following cases:

– Clusters storing very large amounts of data

– Clusters in which typical jobs produce large amounts of intermediate
data

Racks are interconnected via core switches
Core switches should connect to top-of-rack switches at 10Gb/sec or faster

Beware of oversubscripAon in top-of-rack and core switches

Consider bonded Ethernet to miAgate against failure

Consider redundant top-of-rack and core switches 

用域名,避免用IP地址,最好配DNS.

OS建议选centos or RedHat Enterprise Linux (RHEL) 

磁盘划分越多越好,避免LVM(Logical Volume Manager),设置noatime。

存储的文件size越大越好。

OS,network,system time, user and group和component版本等等的配置,可以通过Cloudera Manager Host Inspector 进行check。

cloudera learning4:Hadoop集群规划的更多相关文章

  1. cloudera learning5:Hadoop集群高级配置

    HDFS-NameNode Tuning: dfs.namenode.handler.count: NameNode可开启的thread number,thread为从NameNode到DataNod ...

  2. cloudera安装hadoop集群和相关服务

    一.软件准备: 1.下载cloudera-manager-installer.bin(安装...-server),cdh4.cm(这是...-agent),另外还有些需要的关联软件下步添加. 2.先建 ...

  3. 使用Cloudera部署,管理Hadoop集群

    Hadoop系列之(三):使用Cloudera部署,管理Hadoop集群 http://www.cnblogs.com/ee900222/p/hadoop_3.html Hadoop系列之(一):Ha ...

  4. Hadoop系列之(三):使用Cloudera部署,管理Hadoop集群

    1. Cloudera介绍 Hadoop是一个开源项目,Cloudera对Hadoop进行了商业化,简化了安装过程,并对hadoop做了一些封装. 根据使用的需要,Hadoop集群要安装很多的组件,一 ...

  5. hadoop集群安装规划

    http://mp.weixin.qq.com/s?__biz=MzI5MDYxNjIzOQ==&mid=2247483999&idx=1&sn=016e4c4d0ba7bd9 ...

  6. 关于hadoop集群管理系统搭建的规划说明

    Hadoop集群管理系统搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么原因无法创建成功.但对新手来说,运行环境搭建不成功的概率还蛮高的. 在之前的分享 ...

  7. Hadoop集群搭建

    配置IP,修改主机名,关闭防火墙,配置SSH免密码登录

  8. 使用yum安装CDH Hadoop集群

    使用yum安装CDH Hadoop集群 2013.04.06 Update: 2014.07.21 添加 lzo 的安装 2014.05.20 修改cdh4为cdh5进行安装. 2014.10.22  ...

  9. yum安装CDH5.5 Hadoop集群

    1.环境说明 系统环境: 系统环境:centos6.7 Hadoop版本:CDH5.5 JDK运行版本:1.7.0_67 集群各节点组件分配: 2.准备工作 安装 Hadoop 集群前先做好下面的准备 ...

随机推荐

  1. Android adapter适配器的学习

    学习Android有一点时间,说说自己的学习感悟. 首先呢,先说说适配器的作用,顾名思义,它就是把数据定义好一定的规则,使得我们可以用到ListView GridView等上面 所以说这玩意,还是得好 ...

  2. 1 javascript 核心语言笔记

    //所有的双斜线之后的内容都属于注释; //变量是表示值的一个符号名字; //变量是通过var 关键字声明的; var x; //声明一个变量 //值可以通过等号赋值给变量 x = 0; //现在的变 ...

  3. css笔记1: html页面的CSS、DIV命名规则

    原地址:http://www.cnblogs.com/rising-fay/archive/2013/02/25/2932592.html CSS命名规则 头:header 内容:content/co ...

  4. SQL优化技巧

    我们开发的大部分软件,其基本业务流程都是:采集数据→将数据存储到数据库中→根据业务需求查询相应数据→对数据进行处理→传给前台展示.对整个流程进行分析,可以发现软件大部分的操作时间消耗都花在了数据库相关 ...

  5. Maven 更换远程仓库地址

    1.第一种方式,通过setting.xml的方式配置数据源 该文件路径D:\IDE\apache-maven-3.2.3\conf\setting.xml 该文件大部分内容都已经注释,我们需要添加如下 ...

  6. zorka源码解读之Beanshell与zorka的交互实现

    一.beanshell基础知识从应用程序中调用BeanShell创建一个BeanShell的解释器(interpreter)用eval()和source()命令可以对一个字符串求值和运行一个脚本文件使 ...

  7. PHP-Redis扩展使用手册(一)

    //初始化redis实例 $redis = new Redis(); /* connect . open 链接redis * @param string host redis服务器地址 * @para ...

  8. Web 开发基础

    C/S:winform   WPF 数据是存在其它的电脑上或服务器上需要从服务器上下载相应的数据,在本地电脑上的客户端里进行加工 数据加工的过程是在用户电脑上执行,会对用户的电脑配置有所要求 B/S: ...

  9. word-wrap: break-word;和word-break: break-all;的区别

    详细查看以下链接.(转载自张鑫旭大神空间) http://www.zhangxinxu.com/wordpress/2015/11/diff-word-break-break-all-word-wra ...

  10. Spring中Bean的作用域

    1.在Spring的早期版本中,仅有两个作用域:singleton和prototype,前者表示Bean以单例的方式存在:后者表示每次从容器中调用Bean时,都会返回一个新的实例 2.Spring 2 ...