Hadoop 服务划分

使用三台节点，集群部署规划如下

服务\主机	hadoop1	hadoop2	hadoop3
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

服务\主机

hadoop1

hadoop2

hadoop3

HDFS

NameNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

IP地址规划

hadoop1    192.168.123.11

hadoop2    192.168.123.12

hadoop3    192.168.123.13

系统环境配置

一、基本信息配置（三台节点需要分别配置）

IP地址配置

# 配置 IP 地址，网卡配置文件不一定相同

vim /etc/sysconfig/network-scripts/ifcfg-ens33

# 自启动网卡

ONBOOT="yes"

# IP地址

IPADDR="192.168.123.11"

# 子网页码

PREFIX=""

# 网关

GATEWAY="192.168.123.2"

# DNS 服务器

DNS1="119.29.29.29"

# 重启网络服务

systemctl restart network

修改主机名

# 修改主机名字为 hadoop1

hostnamectl set-hostname hadoop1

# 退出当前用户再登录即可看见

logout

关闭防火墙，也可放行

# 关闭防火墙

systemctl stop firewalld

# 关闭防火墙开机自启动

systemctl disable firewalld

安装 Rsync 工具，用于同步主机之间的文件，这样后面的配置文件修改就不用每台机器都改一遍，直接同步过去即可

# 清空 yum 源。若已配置源，直接安装即可

rm -rf /etc/yum.repos.d/*

# 配置阿里 yum 源

curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo

# 安装 rsync

yum install -y rsync

二、基本服务配置（配置一台主机，其他主机同步即可）

配置主机之间相互免密登录

# 以一台机器为例子，其他一样

# 生成密钥文件，一直回车

ssh-keygen -t ecdsa -b 

# 配置免密登录，需要输入远程主机密码，本机也需要配置

ssh-copy-id -i ~/.ssh/id_ecdsa.pub hadoop1

ssh-copy-id -i ~/.ssh/id_ecdsa.pub hadoop2

ssh-copy-id -i ~/.ssh/id_ecdsa.pub hadoop3

# 验证，不用输密码即为成功

ssh hadoop1 ls /

添加主机名到 Hosts 文件

vim /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

::         localhost localhost.localdomain localhost6 localhost6.localdomain6

# 对应本机IP地址，非 127.0.0.1

192.168.123.11 hadoop1

192.168.123.12 hadoop2

192.168.123.13 hadoop3

安装 JDK https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

# 解压

tar -zxf /opt/jdk-8u202-linux-x64.tar.gz -C /opt/

# 配置环境变量

vim /etc/profile

# JAVA_HOME

export JAVA_HOME=/opt/jdk1..0_202/

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

# 刷新环境变量

source /etc/profile

# 验证

java -version

# java version "1.8.0_202"

# Java(TM) SE Runtime Environment (build 1.8.0_202-b08)

# Java HotSpot(TM) -Bit Server VM (build 25.202-b08, mixed mode)

安装 Hadoop https://hadoop.apache.org/releases.html

# 解压

tar -zxf /opt/hadoop-2.9.-snappy-.tar.gz -C /opt/

# 配置环境变量

vim /etc/profile

# HADOOP_HOME

export HADOOP_HOME=/opt/hadoop-2.9.

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

# 刷新环境变量

source /etc/profile

# 验证

hadoop version

# Hadoop 2.9.

# Subversion Unknown -r Unknown

# Compiled by root on --16T09:39Z

# Compiled with protoc 2.5.

# From source with checksum 3a9939967262218aa556c684d107985

# This command was run using /opt/hadoop-2.9./share/hadoop/common/hadoop-common-2.9..jar

同步服务到其他机器

# 同步 Hosts 文件

rsync -avz /etc/hosts hadoop2:/etc/

rsync -avz /etc/hosts hadoop3:/etc/

# 同步 JDK，源路径不要带斜杠

rsync -avz /opt/jdk1..0_202 hadoop2:/opt/

rsync -avz /opt/jdk1..0_202 hadoop3:/opt/

# 同步 Hadoop，源路径不要带斜杠

rsync -avz /opt/hadoop-2.9. hadoop2:/opt/

rsync -avz /opt/hadoop-2.9. hadoop3:/opt/

# 同步环境变量文件 profile，目标主机上的环境变量需要手动刷新：source /etc/profile

rsync -avz /etc/profile hadoop2:/etc/

rsync -avz /etc/profile hadoop3:/etc/

Hadoop分布式配置

配置一台机器，其他同步即可，配置文件目录：hadoop-2.9.2/etc/hadoop/

一、基本配置

core-site.xml

<configuration>

  <!-- 指定HDFS中NameNode的地址 -->

  <property>

    <name>fs.defaultFS</name>

    <value>hdfs://hadoop1:9000</value>

  </property>

  <!-- 指定Hadoop运行时产生文件的存储目录 -->

  <property>

    <name>hadoop.tmp.dir</name>

    <value>/opt/hadoop-tmp</value>

  </property>

</configuration>

hadoop-env.sh

# The java implementation to use.

export JAVA_HOME=/opt/jdk1..0_202/

二、HDFS 配置

hdfs-site.xml

<configuration>

  <!-- 指定文件块副本数 -->

  <property>

    <name>dfs.replication</name>

    <value>3</value>

  </property>

  <!-- 指定Hadoop辅助名称节点主机配置 -->

  <property>

    <name>dfs.namenode.secondary.http-address</name>

    <value>hadoop3:50090</value>

  </property>

</configuration>

三、YARN 配置

yarn-env.sh

# some Java parameters

export JAVA_HOME=/opt/jdk1..0_202/

yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->

  <!-- Reducer获取数据方式 -->

  <property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

  </property>

  <!-- 指定YARN的ResourceManager地址 -->

  <property>

    <name>yarn.resourcemanager.hostname</name>

    <value>hadoop2</value>

  </property>

</configuration>

四、MapReduce 配置

mapred-env.sh

# limitations under the License.

export JAVA_HOME=/opt/jdk1..0_202/

# when HADOOP_JOB_HISTORYSERVER_HEAPSIZE is not defined, set it.

mapred-site.xml，将 mapred-site.xml.template 重命名为 mapred-site.xml

<configuration>

  <!-- 指定MapReduce运行在Yarn上 -->

  <property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

  </property>

</configuration>

五、集群节点地址配置

slaves

# 所有 DataNode 节点的主机地址

hadoop1

hadoop2

hadoop3

六、将配置文件同步到其他节点

# 将 Hadoop 配置文件同步到其他节点上

rsync -avz /opt/hadoop-2.9. hadoop2:/opt/

rsync -avz /opt/hadoop-2.9. hadoop3:/opt/

启动 Hadoop 集群

一、第一次使用需要先格式化 NameNode，这里是在 hadoop1 上执行格式化

hadoop namenode -format

二、在 NameNode 所在节点启动 hdfs，这里是 hadoop1

start-dfs.sh

三、在 ResourceManger 所在节点启动 yarn，这里是 hadoop2

start-yarn.sh

查看各个节点进程

配置时间服务

https://www.cnblogs.com/jhxxb/p/10579816.html

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html

CentOS7 下 Hadoop 分布式部署的更多相关文章

[过程记录]Centos7 下 Hadoop分布式集群搭建
过程如下: 配置hosts vim /etc/hosts 格式: ip hostname ip hostname 设置免密登陆首先:每台主机使用ssh命令连接其余主机 ssh 用户名@主机名提示是 ...
CentOS7下Hadoop伪分布式环境搭建
CentOS7下Hadoop伪分布式环境搭建前期准备 1.配置hostname(可选,了解) 在CentOS中,有三种定义的主机名:静态的(static),瞬态的(transient),和灵活的(p ...
在Centos7下安装与部署.net core
在Centos7下安装与部署.net core 2018年02月28日 19:36:16 阅读数:388 个人安装流程,参照文档 https://www.cnblogs.com/Burt/p/6566 ...
# centos7下FFmpeg环境部署记录
# centos7下FFmpeg环境部署记录随着视频在网站上的应用越来越多,越来越多的网站服务器需要支持视频转码,视频压缩,FFmpeg是目前最好用的网站服务器后台转码程序,应用最多.FFmpeg是 ...
Centos7下GlusterFS 分布式文件系统环境搭建
Centos7下 GlusterFS 环境搭建准备工作glusterfs-3.6.9.tar.gzuserspace-rcu-master.zip三台服务器:192.168.133.53.192.16 ...
CentOS7 下 Hadoop 单节点(伪分布式)部署
Hadoop 下载 (2.9.2) https://hadoop.apache.org/releases.html 准备工作关闭防火墙 (也可放行) # 停止防火墙 systemctl stop f ...
【Hadoop 分布式部署十一: NameNode HA 自动故障转移】
问题描述: 上一篇就是NameNode 的HA 部署完成,但是存在问题,问题是如果主NameNode的节点宕机了,还是需要人工去使用命令来切换NameNode的Acitve 这样很不方便,所以 ...
【Hadoop 分布式部署六：环境问题解决和集群基准测试】
环境问题: 出现Temporary failure in name resolutionp-senior-zuoyan.com 的原因有很多,主要就是主机没有解析到, 那就在hadoop的sl ...
【Hadoop 分布式部署四：配置Hadoop 2.x 中主节点（NN和RM）到从节点的SSH无密码登录】
******************* 一定要使这三台机器的用户名相同,安装目录相同 ************* SSH 无密钥登录的简单介绍(之前再搭 ...

随机推荐

git 出现错误时
Your local changes to the following files would be overwritten by merge: 解决办法如果希望保留生产服务器上所做的改动,仅仅并入 ...
python的图形模块PIL小记
前言: 跟我一块住的室友是个搞通信,每天下班后基本必须做的事情是,第一P图,将那些不合格的图片上的数据,p成合格的.第二就是将做好的P图以及产生的日志文件按照固定的名字重新命名.我为了他能够早点睡觉, ...
SQL 对等发布
发布类型: 快照发布:发布服务器按预定的时间间隔向订阅服务器发送已发布数据的快照.事务发布:在订阅服务器收到已发布数据的初始快照后,发布服务器将事务流式传输到订阅服务器.对等发布:对等发布支持多主复制 ...
Android EditView 获取焦点不弹出软键盘
很简单的做法: 找到AndroidManifest.xml文件然后在对应的activity中增加android:windowSoftInputMode="adjustPan" & ...
洛谷P3183食物链题解
不得不说,这是道很难减少时间复杂度的题,且这个题有点像一道拓扑排序题,但是这个难度标签有点低. 我们应该可以想到拓扑排序可能是这个题的正解,但是题目中有输出总数,因此我们就可以造一个数组表示从这个点出 ...
Java归并排序的递归与非递归实现
该命题已有无数解释,备份修改后的代码平均时间复杂度: O(NLogN) 以2为底最好情况时间复杂度: O(NLogN) 最差情况时间复杂度: O(NLogN) 所需要额外空间: 递归:O(N + ...
爬虫_淘宝（selenium）
总体来说代码还不是太完美实现了js渲染网页的解析的一种思路主要是这个下拉操作,不能一下拉到底,数据是在中间加载进来的, 具体过程都有写注释 from selenium import webdriv ...
rt-thread之rt_kprintf函数输出串口设备更改
@2019-01-30 [小记] 一般 rt-thread 发布的 bsp 库默认的 rt_kprintf 函数的输出设备是串口1,想要更改输出设备为串口1,以 stm32 为例步骤如下: 首先,打开 ...
学习笔记：fhq-treap
0. 前置知识:\(treap\)的定义树堆,在数据结构中也称Treap,是指有一个随机附加域满足堆的性质的二叉搜索树,其结构相当于以随机数据插入的二叉搜索树. >--摘自百度百科形象化 ...
MySQL -- 单行函数
大小写控制函数 SELECT LOWER('HelloWrold'), UPPER('HelloWorld'); 字符控制函数 SELECT REPLACE('abcdababab','p','m') ...

CentOS7 下 Hadoop 分布式部署