本文主要详细地描述了hadoop集群的搭建以及一些配置文件的说明，用于自己复习以及供新人学习，若有错误之处还请指出。

前期准备

先给出我的集群架构：

到hadoop官网下载好hadoop安装包http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz
装好四台虚拟机（我的四台虚拟机是CentOs6.3系统）
四台虚拟机都装好jdk
四台虚拟机都配好免密登录
四台虚拟机都配置好ip地址和主机名映射关系(以下是我的地址映射关系)

vim /etc/hosts
```
  192.168.25.13	mini1

  192.168.25.14	mini2

  192.168.25.15	mini3

  192.168.25.16	mini4
```

以上步骤有不会的可查看我的其他几篇博客：

1、将hadoop安装包上传到mini1上，解压后改名，并创建目录hadoopdata与hadoop目录平行

tar -zxvf hadoop-2.6.5.tar.gz -C /root/apps/

cd /root/apps/

mv hadoop-2.6.5 hadoop

mkdir hadoopdata

2、进入hadoop配置文件目录下,可看到以下配置文件

cd hadoop/etc/hadoop/

3、修改hadoop-env.sh配置文件

vim hadoop-env.sh

#写上自己的JAVA_HOME

4、修改core-site.xml配置文件

vim core-site.xml

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://mini1:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/root/apps/hadoopdata</value>

</property>

</configuration>

配置说明：

fs.defaultFS：hadoop使用什么文件系统

hdfs://mini1:9000：指定hadoop系统使用hdfs文件系统，并指明namenode为mini1，客户端访问端口为9000

hadoop.tmp.dir：hadoop文件存储目录

有2个参数可配置，但一般来说我们不做修改。

fs.checkpoint.period表示多长时间记录一次hdfs的镜像,默认是1小时。

fs.checkpoint.size表示镜像文件快大小，默认64M。

<property>

<name>fs.checkpoint.period</name>

<value>3600</value>

</property>

<property>

<name>fs.checkpoint.size</name>

<value>67108864</value>

</property>

5、修改hdfs-site.xml(可不做任何配置，使用默认)

vim hdfs-site.xml

<configuration>

<property>

<name>dfs.namenode.name.dir</name>

<value>/root/apps/hadoopdata/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>/root/apps/hadoopdata/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

</configuration>

配置说明：

dfs.namenode.name.dir：namenode节点的数据存放目录

dfs.datanode.data.dir：datanode节点的数据存放目录

dfs.replication：集群中hdfs保存数据的副本数

6、更改mapred-site.xml.template的配置文件名，并进行配置

mv mapred-site.xml.template mapred-site.xml

vim mapred-site.xml

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

配置说明：

mapreduce.framework.name：使用yarn运行mapreduce程序

7、修改yarn-site.xml配置文件

vim yarn-site.xml

<configuration>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>mini1</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

配置说明：

yarn.resourcemanager.hostname：指定YARN的老大（ResourceManager）的地址

yarn.nodemanager.aux-services：指定reducer获取数据的方式

8、修改slaves文件

vim slaves

# 在此文件下写入需要启动datanode和nodemanager的机器（往往datanode和nodemanager在一台机器上启动），一行代表一台机器。

9、将hadoop添加到环境变量，并重新加载环境变量

vim /etc/profile

export HADOOP_HOME=/itcast/hadoop-2.4.1

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

重要！重要！重要！！！

Apache提供的hadoop本地库是32位的，而在64位的服务器上就会有问题，因此需要自己对源码进行编译64位的版本。

自己编译比较麻烦,可以去网站：http://dl.bintray.com/sequenceiq/sequenceiq-bin/ 下载对应的编译版本。

准备好64位的lib包后做以下操作：

#解压到已经安装好的hadoop安装目录的lib/native 和 lib目录下

tar -zxvf hadoop-native-64-2.6.0.tar -C hadoop/lib/native

tar -zxvf hadoop-native-64-2.6.0.tar -C hadoop/lib

#配置环境变量

vi /etc/profile

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

source /etc/profile

#hadoop检测本地库

hadoop checknative –a

10、将hadoop和配置文件分别分发给另外三台机器（mini2，mini3，mini4）

scp -r /root/apps/hadoop mini2:/root/apps/

scp -r /root/apps/hadoop mini3:/root/apps/

scp -r /root/apps/hadoop mini4:/root/apps/

scp /etc/profile mini2:/etc/

scp /etc/profile mini3:/etc/

scp /etc/profile mini4:/etc/

不要忘记三台机器都要重新加载一下配置文件

11、初始化HDFS

hadoop  namenode  -format

12、批量启动/停止

#批量启动hdfs

start-dfs.sh

#批量停止hdfs

stop-dfs.sh

#批量启动yarn

strat-yarn.sh

#批量停止yarn

stop-yarn.sh

#单独启动或停止hdfs，yarn

hadoop-daemon.sh start namenode		hadoop-daemon.sh stop namenode

hadoop-daemon.sh start datanode		hadoop-daemon.sh stop datanode

hadoop-daemon.sh start resourcemanager	hadoop-daemon.sh stop resourcemanager

hadoop-daemon.sh start nodemanager		hadoop-daemon.sh stop nodemanager

总结

官网提供的版本本地库是32位的，在64位主机环境下无法执行。需要下载hadoop源码进行编译。
自己编译参考https://jingyan.baidu.com/article/ce436649fea8533772afd365.html
配置文件hdfs-site.xml可不做任何配置，使用默认即可
集群中每台机器都要记得修改/etc/hosts文件
集群中所有的机器配置环境变量后不要忘记source一下（因为本文的环境变量文件是通过scp命令传给各台机器的，很容易忘记source）
配置免密登录的时候不要忘记本机也配置上（将mini1的公钥发给mini1）（ssh-copy-id mini1）
如果哪台机器启动出错，可查看相应机器下的日志文件，根据错误信息百度查询解决方法（/root/apps/hadoop/logs/）(查看.log结尾的日志文件)
严格按照上述流程安装（包括目录创建以及目录的位置），可顺利完成集群的搭建

问题解决

datanode无法启动

原因：

初始化工作目录结构（hdfs namenode -format）只是初始化了namenode的工作目录，而datanode的工作目录是在datanode启动后自己初始化的。

namenode在format初始化的时候会形成两个标识：

    blockPoolId,

    clusterId.

新的datanode加入时，会获取这两个标识作为自己工作目录中的标

识。一旦namenode重新format后，namenode的身份标识已变，而

datanode如果依然持有原来的id，就不会被namenode识别。

解决方法：

将datanode机器上的工作目录删掉，重新启动datanode，

它会重新创建工作目录，并获取namenode的标识。

集群中各个端口

更多配置文件信息参考：https://blog.csdn.net/cuitaixiong/article/details/51591410

【图文详解】Hadoop集群搭建（CentOs6.3）的更多相关文章

Hadoop集群搭建安装过程（三）（图文详解---尽情点击！！！）
Hadoop集群搭建安装过程(三)(图文详解---尽情点击!!!) 一.JDK的安装安装位置都在同一位置(/usr/tools/jdk1.8.0_73) jdk的安装在克隆三台机器的时候可以提前安装 ...
Hadoop集群搭建安装过程（二）（图文详解---尽情点击！！！）
Hadoop集群搭建安装过程(二)(配置SSH免密登录)(图文详解---尽情点击!!!) 一.配置ssh无密码访问 ®生成公钥密钥对 1.在每个节点上分别执行: ssh-keygen -t rsa(一 ...
Hadoop集群搭建安装过程（一）（图文详解---尽情点击！！！）
Hadoop集群搭建(一)(上篇中讲到了Linux虚拟机的安装) 一.安装所需插件(以hadoop2.6.4为例,如果需要可以到官方网站进行下载:http://hadoop.apache.org) h ...
三节点Hadoop集群搭建
1. 基础环境搭建新建3个CentOS6.5操作系统的虚拟机,命名(可自定)为masternode.slavenode1和slavenode2.该过程参考上一篇博文CentOS6.5安装配置详解 2 ...
Hadoop 集群搭建
Hadoop 集群搭建 2016-09-24 杜亦舒目标在3台服务器上搭建 Hadoop2.7.3 集群,然后测试验证,要能够向 HDFS 上传文件,并成功运行 mapreduce 示例程序搭建 ...
Linux环境下Hadoop集群搭建
Linux环境下Hadoop集群搭建前言: 最近来到了武汉大学,在这里开始了我的研究生生涯.昨天通过学长们的耐心培训,了解了Hadoop,Hdfs,Hive,Hbase,MangoDB等等相关的知识 ...
Hadoop（二） HADOOP集群搭建
一.HADOOP集群搭建 1.集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 Na ...
Hadoop 集群搭建 mark
Hadoop 集群搭建原创 2016-09-24 杜亦舒性能与架构性能与架构性能与架构微信号 yogoup 功能介绍网站性能提升与架构设计目标在3台服务器上搭建 Hadoop2.7.3 ...
大数据初级笔记二：Hadoop入门之Hadoop集群搭建
Hadoop集群搭建把环境全部准备好,包括编程环境. JDK安装版本要求: 强烈建议使用64位的JDK版本,这样的优势在于JVM的能够访问到的最大内存就不受限制,基于后期可能会学习到Spark技术 ...
大数据学习——HADOOP集群搭建
4.1 HADOOP集群搭建 4.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主 ...

随机推荐

解析 Javascript - this
在函数中 this 到底取何值,是在函数真正被调用执行的时候确定下来的,函数定义的时候确定不了. 因为 this 的取值是执行上下文环境的一部分,每次调用函数,都会产生一个新的执行上下文环境.当你在 ...
Linux-centos-7.2-64bit 安装配置mysql
2018-04-12 安装在/usr/local/下,配置文件在/etc/my.ini 1.下载mysql安装包到 /usr/local/software cd /usr/local/software ...
Hibernate（三）： org.hibernate.HibernateException: No CurrentSessionContext configured!
Hibernate版本5.2.9 获取Session的方式是sessionFactory.getCurrentSession(); 比较老一些的版本使用的是sessionFactory.openSes ...
MyBatis(一)：配置并使用
MyBatis具体是什么东东,这些在后边在研究吧,本文目的是为了记录如何使用MyBatis. 首先,需要下载MyBatis开发所需要文件. 通过github上可以找到MyBatis代码:https:/ ...
Java：日期类Date与Calendar
Timestamp类型与日期类型之间的转化? Timestamp timestamp = Timestamp.valueOf("2017-03-17 07:00:00"); Dat ...
MySQL高可用架构之MHA 原理与实践
MHA简介关于MHA MHA(Master HA)是一款开源的MySQL的高可用程序,它为MySQL主从复制架构提供了automating master failover 功能.MHA在监控到mas ...
WPF 自定义TabControl控件样式
一.前言程序中经常会用到TabControl控件,默认的控件样式很普通.而且样式或功能不一定符合我们的要求.比如:我们需要TabControl的标题能够居中.或平均分布:或者我们希望TabContr ...
[LeetCode] IP to CIDR 将IP地址转为CIDR无类别域间路由
Given a start IP address ip and a number of ips we need to cover n, return a representation of the r ...
org.apache.commons.lang3.tuple.Pair 作为更新参数，XML 中的 Sql 取不到值、报错
项目用的 Mybatis,今天改一个需求,落地实现是批量更新,且只需要根据主键(id)来更新一个字段(name). 于是,没有犹豫,像下面这样设计了数据结构: 既然是批量更新,那外层肯定是 List ...
Who do you want to be bad? （谁会是坏人？）人工智能机器小爱的问话
人工智能的语言理解一直是一个千古谜团. 正如人工智能机器小爱(A.L.I.C.E)的问话:“Who do you want to be bad ?(谁会是坏人?)” 纵观世界上的140多种语言,汉语是 ...

【图文详解】Hadoop集群搭建（CentOs6.3）

前期准备

重要！重要！重要！！！

总结

问题解决

集群中各个端口

【图文详解】Hadoop集群搭建（CentOs6.3）的更多相关文章

随机推荐

热门专题