十分钟搭建自己的hadoop2/CDH4集群

版本及准备

我部署的是hadoop-2.0.0-cdh4.2.0.tar.gz，下载地址为http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.2.0.tar.gz。在http://archive.cloudera.com/cdh4/cdh/4/下还可以下载到CDH hadoop生态圈内相关的包。再准备一个jdk1.6+的java环境，设置好JAVA_HOME。

需要注意的是，window下直接点击链接下载到的包可能无法解压成功，原因是包是放在linux ftp上的，直接下载会有问题。建议在linux机器上用wget命令下载就可以了，如果你的机器不能联网的话，也可以联系我把包发给你。

基础配置

给集群配好 SSH；在hosts里可以准备好自己机器的名字。比如我的机器1作为namenode(namenode01)，机器2作为secondary namenode(snamenode01)，其他机器作为datanode。以下配置文件里就用该名称代替。

配置文件

tar包的部署方式只要具备CDH4的包就可以了，其余步骤不需联网，只要配置好几个配置文件即可。我提供一份自己的配置，可以完全拷贝下来使用。进入到目录hadoop-2.0.0-cdh4.2.0/etc/hadoop下面，修改这几个文件：

core-site.xml

<configuration>

  <property>

    <name>fs.defaultFS</name>

    <value>hdfs://namenode01</value>

  </property>

  <property>

    <name>fs.trash.interval</name>

    <value>10080</value>

  </property>

  <property>

    <name>fs.trash.checkpoint.interval</name>

    <value>10080</value>

  </property>

</configuration>

hdfs-site.xml

<configuration>

  <property>

    <name>dfs.replication</name>

    <value>3</value>

  </property>

  <property>

    <name>hadoop.tmp.dir</name>

    <value>/home/mywork/work/data/hadoop-${user.name}</value>

  </property>

  <property>

    <name>dfs.namenode.http-address</name>

    <value>namenode01:50070</value>

  </property>

  <property>

    <name>dfs.namenode.secondary.http-address</name>

    <value>ssnamenode01:50090</value>

  </property>

  <property>

    <name>dfs.webhdfs.enabled</name>

    <value>true</value>

  </property>

</configuration>

yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->

  <property>

    <name>yarn.resourcemanager.resource-tracker.address</name>

    <value>namenode01:8031</value>

  </property>

  <property>

    <name>yarn.resourcemanager.address</name>

    <value>namenode01:8032</value>

  </property>

  <property>

    <name>yarn.resourcemanager.scheduler.address</name>

    <value>namenode01:8030</value>

  </property>

  <property>

    <name>yarn.resourcemanager.admin.address</name>

    <value>namenode01:8033</value>

  </property>

  <property>

    <name>yarn.resourcemanager.webapp.address</name>

    <value>namenode01:8088</value>

  </property>

  <property>

    <description>Classpath for typical applications.</description>

    <name>yarn.application.classpath</name>

    <value>$HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/share/hadoop/common/*,

    $HADOOP_COMMON_HOME/share/hadoop/common/lib/*,

    $HADOOP_HDFS_HOME/share/hadoop/hdfs/*,$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*,

    $YARN_HOME/share/hadoop/yarn/*,$YARN_HOME/share/hadoop/yarn/lib/*,

    $YARN_HOME/share/hadoop/mapreduce/*,$YARN_HOME/share/hadoop/mapreduce/lib/*</value>

  </property>

  <property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce.shuffle</value>

  </property>

  <property>

    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

    <value>org.apache.hadoop.mapred.ShuffleHandler</value>

  </property>

  <property>

    <name>yarn.nodemanager.local-dirs</name>

    <value>/home/mywork/work/data/yarn/local</value>

  </property>

  <property>

    <name>yarn.nodemanager.log-dirs</name>

    <value>/home/mywork/work/data/yarn/logs</value>

  </property>

  <property>

    <description>Where to aggregate logs</description>

    <name>yarn.nodemanager.remote-app-log-dir</name>

    <value>/home/mywork/work/data/yarn/logs</value>

  </property>

  <property>

    <name>yarn.app.mapreduce.am.staging-dir</name>

    <value>/home/mywork/work</value>

</property>

</configuration>

mapred-site.xml

<configuration>

  <property>

   <name>mapreduce.framework.name</name>

   <value>yarn</value>

  </property>

  <property>

    <name>mapreduce.jobhistory.address</name>

    <value>namenode01:10020</value>

  </property>

  <property>

    <name>mapreduce.jobhistory.webapp.address</name>

    <value>namenode01:19888</value>

  </property>

</configuration>

masters

namenode01

ssnamenode01

slaves

datanode01

datanode02

datanode03

datanode04

最后修改.bashrc里的一些环境，添加如下配置

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=./:$JAVA_HOME/lib:$JRE_HOME/lib:$JRE_HOME/lib/tools.jar

export HADOOP_HOME=/home/mywork/work/hadoop-2.0.0-cdh4.2.0

export HADOOP_MAPRED_HOME=${HADOOP_HOME}

export HADOOP_COMMON_HOME=${HADOOP_HOME}

export HADOOP_HDFS_HOME=${HADOOP_HOME}

export YARN_HOME=${HADOOP_HOME}

export HADOOP_YARN_HOME=${HADOOP_HOME}

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/sbin

source之使之生效。然后把这台机器上的hadoop scp到其他各台机器上

启动集群
HADOOP_HOME/bin下，第一次格式化namenode

hadoop namenode -format

然后在namenode机器上逐个启动

start-dfs.sh

start-yarn.sh

可以使用jps命令在各台机器上查看已经起来的进程和端口，在 namenode01:8088/cluster 可以看集群情况。 datanode01:8042/node 可以看到节点情况。

问题排查

如果某几个节点没有起来，很可能是因为端口占用的问题，比如yarn启动的时候会使用8080端口，如果被占用，该datanode就起不了了，可以使用

netstat -anp | grep 8080

找到id，然后kill -9 xxx 掉。

一般可以在指定的HADOOP_HOME/logs下查看各个机器的日志情况，找到问题原因。

(全文完)

十分钟搭建自己的hadoop2/CDH4集群的更多相关文章

十分钟搭建和使用ELK日志分析系统
前言为满足研发可视化查看测试环境日志的目的,准备采用EK+filebeat实现日志可视化(ElasticSearch+Kibana+Filebeat).题目为“十分钟搭建和使用ELK日志分析系统”听 ...
Hadoop2.x 集群搭建
Hadoop2.x 集群搭建一些重复的细节参考Hadoop1.X集群完全分布式模式环境部署 1 HADOOP 集群搭建 1.1 集群简介 HADOOP 集群具体来说包含两个集群:HDFS 集群和YA ...
（十）RabbitMQ消息队列-高可用集群部署实战
原文:(十)RabbitMQ消息队列-高可用集群部署实战前几章讲到RabbitMQ单主机模式的搭建和使用,我们在实际生产环境中出于对性能还有可用性的考虑会采用集群的模式来部署RabbitMQ. Ra ...
cAdvisor0.24.1+InfluxDB0.13+Grafana4.0.2搭建Docker1.12.3 Swarm集群性能监控平台
目录 [TOC] 1.基本概念既然是对Docker的容器进行监控,我们就不自己单独搭建cAdvisor.InfluxDB.Grarana了,本文中这三个实例,主要以Docker容器方式运行. 本 ...
keepalived工作原理和配置说明腾讯云VPC内通过keepalived搭建高可用主备集群
keepalived工作原理和配置说明腾讯云VPC内通过keepalived搭建高可用主备集群内网路由都用mac地址一个mac地址绑定多个ip一个网卡只能一个mac地址,而且mac地址无法改,但 ...
Linux平台上搭建apache+tomcat负载均衡集群
传统的Java Web项目是通过tomcat来运行和发布的.但在实际的企业应用环境中,采用单一的tomcat来维持项目的运行是不现实的.tomcat 处理能力低,效率低,承受并发小(1000左右).当 ...
搭建 RabbitMQ Server 高可用集群
阅读目录: 准备工作搭建 RabbitMQ Server 单机版 RabbitMQ Server 高可用集群相关概念搭建 RabbitMQ Server 高可用集群搭建 HAProxy 负载均衡 ...
使用Kubeadm搭建Kubernetes(1.12.2)集群
Kubeadm是Kubernetes官方提供的用于快速安装Kubernetes集群的工具,伴随Kubernetes每个版本的发布都会同步更新,在2018年将进入GA状态,说明离生产环境中使用的距离越来 ...
搭建 RabbitMQ Server 高可用集群【转】
阅读目录: 准备工作搭建 RabbitMQ Server 单机版 RabbitMQ Server 高可用集群相关概念搭建 RabbitMQ Server 高可用集群搭建 HAProxy 负载均衡 ...

随机推荐

选择Comparable接口还是Comparator
个人理解: 如果我本身知道这个类的对象我要用来比较,那么就拿这个类实现Comparable接口(compareTo(Object o) 方法).如果我本身没有预料到我要比较这个类的对象,那么,我可以建 ...
在CentOS中编译安装VIM 7.3
默认安装的 Vim 不带有多字符支持,所以不支持中文.无论是将 CentOS 本来的语系改为中文还是将 Vim 的语系设置改为中文,都不能正常显示中文.为了在 Vim 中能够正常处理中文,我们需要在编 ...
C#生成带项目编号的Word段落
using System; using Microsoft.Office.Interop.Word; using Word = Microsoft.Office.Interop.Word; names ...
Andriod Studio科学文章——4.常见问题解答有关编译
1.android未安装支持库只有编译,下面的例子演示了提样: Could not find any version that matches com.android.support:appcomp ...
支持多QQ登录的软件
支持多QQ登录,批量加好友,批量回复QQ消息,当然也能接收下载链接:多QQ登录软件
openssl 非对称加密算法RSA命令详解
1.非对称加密算法概述非对称加密算法也称公开密钥算法,其解决了对称加密算法密钥分配的问题,非对称加密算法基本特点如下: 1.加密密钥和解密密钥不同 2.密钥对中的一个密钥可以公开 3.根据公开密钥很 ...
[转载]C#开源项目（国外的还是很多）
C#开源项目(国外的还是很多)一.Ajax框架Ajax.NET Professional (AjaxPro)是最先把AJAX技术在微软.NET环境下的实现的AJAX框架之一.它在客户端脚本之上创建代理 ...
ios文件读取
/* * @brief 沙盒下的各种文件 */ - (void)getPaths { /** * @brief 获取沙盒的路径 */ NSString * HomeDirectory = NSHo ...
初学QML之QML和C++混合方法
混合使用QML和C++的方法 1加载一个QML组件,然后从 C++对其进行操作: 2直接将一个C++对象及其属性嵌入到QML组件: 3定义一个新的QML元素(通过基于QOject的C++类)并在QML ...
Window7下手动编译最新版的PCL库
PCL简介 PCL是Point Cloud Library的缩写,是一个用于处理二维图像,三维深度图像和三维点云的C++库.该库是完全开源的,可免费用于商业和学术研究. 官方网站:http://poi ...

十分钟搭建自己的hadoop2/CDH4集群

十分钟搭建自己的hadoop2/CDH4集群的更多相关文章

随机推荐

热门专题