Hadoop的安装与部署

一、硬件及环境

服务器：3台，IP分别为：192.168.100.105、192.168.100.110、192.168.100.115

操作系统：Ubuntu Server 18.04

JDK：1.8.0

Hadoop：3.3.1

二、系统配置

* 3台机都要执行以下操作

1.登录root账号

su

2.配置时区

https://www.cnblogs.com/live41/p/14237170.html

* 如果部署过程遇到一些莫名其妙的错误，或者日志的时间是错的，先用date -R检查一下时区是否正确。

3.配置hosts

vim /etc/hosts

添加内容

192.168.100.105 c1

192.168.100.110 c2

192.168.100.115 c3

4.关闭防火墙

ufw disable

5.安装ssh

apt install ssh

6.设置免密登录

https://www.cnblogs.com/live41/p/14236950.html

* 见第二点的第5点

7.安装JDK

https://www.cnblogs.com/live41/p/14235891.html

三、部署Hadoop

* 3台机都要执行以下操作

1.下载Hadoop安装包

https://downloads.apache.org/hadoop/common/

2.解压安装包

这里假定下载的是hadoop-3.3.1.tar.gz文件，解压到/usr/bin/目录

tar -xvf hadoop-3.3.1.tar.gz -C /usr/local/

把目录名也改一下

mv /usr/local/hadoop-3.3.1 /usr/local/hadoop

3.创建目录

cd /usr/local/hadoop

sudo mkdir hdfs

sudo mkdir hdfs/datanode

sudo mkdir hdfs/namenode

sudo mkdir hadoop/logs

sudo mkdir yarn

sudo mkdir yarn/logs

4.配置环境变量

vim ~/.bashrc

添加内容

export HADOOP_HOME=/usr/local/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

更新环境变量

source ~/.bashrc

测试

hadoop version

5.修改Hadoop的配置

(1) 进入Hadoop的配置文件目录

cd $HADOOP_CONF_DIR

或cd /usr/local/hadoop/etc/hadoop/

(2) 编辑hadoop-env.sh文件

vim hadoop-env.sh

查看以下内容，如果没有就加上，如果已有就不用改。

export JAVA_HOME=/usr/bin/jdk1.8.0

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

export HADOOP_LOG_DIR=/usr/local/hadoop/logs

(3) 编辑core-site.xml

vim core-site.xml

在c1机添加以下内容：

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://c1:9820/</value>

    </property>

    <property>

        <name>io.file.buffer.size</name>

        <value>131072</value>

    </property>

</configuration>

在c2、c3机添加以下内容：

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://c1:9820/</value>

        <description>NameNode URI</description>

    </property>

</configuration>

(4) 编辑hdfs-site.xml文件

vim hdfs-site.xml

在c1机添加以下内容：

<configuration>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:///usr/local/hadoop/hdfs/namenode</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:///usr/local/hadoop/hdfs/datanode</value>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>3</value>

    </property>

    <property>

        <name>dfs.permissions</name>

        <value>false</value>

    </property>

    <property>

        <name>dfs.datanode.use.datanode.hostname</name>

        <value>false</value>

    </property>

    <property>

        <name>dfs.namenode.datanode.registration.ip-hostname-check</name>

        <value>false</value>

    </property>

</configuration>

在c2、c3添加以下内容：

<configuration>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:///usr/local/hadoop/hdfs/datanode</value>

        <description>DataNode directory</description>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>3</value>

    </property>

    <property>

        <name>dfs.permissions</name>

        <value>false</value>

    </property>

    <property>

        <name>dfs.datanode.use.datanode.hostname</name>

        <value>false</value>

    </property>

</configuration>

(4) 编辑yarn-site.xml文件

vim yarn-site.xml

在c1机添加以下内容：

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

        <value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>

    <property>

        <name>yarn.nodemanager.local-dirs</name>

        <value>file:///usr/local/hadoop/yarn/local</value>

    </property>

    <property>

        <name>yarn.nodemanager.log-dirs</name>

        <value>file:///usr/local/hadoop/yarn/logs</value>

    </property>

</configuration>

在c2、c3机添加以下内容：

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

</configuration>

(5) 编辑mapred-site.xml文件

vim mapred-site.xml

在c1机添加以下内容：

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>c1:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>c1:19888</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.intermediate-done-dir</name>

        <value>/mr-history/tmp</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.done-dir</name>

        <value>/mr-history/done</value>

    </property>

</configuration>

在c2、c3机添加以下内容：

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

(6) 修改workers文件（旧版的是slaves文件）

vim workers

添加以下内容：

c1

c2

c3

6.修改文件权限

chmod 777 /usr/local/hadoop/hdfs

chmod 777 /usr/local/hadoop/logs

7.格式化hdfs

hdfs namenode -format

四、启动和停止Hadoop

1.启动

在c1机执行：

start-dfs.sh

start-yarn.sh

2.检查是否运行正常

每台机执行：

jps

在c1机执行：

hdfs dfs -mkdir /Clotho

hdfs dfs -ls /

4.登录管理界面

http://c1:9870/ 或 http://192.168.100.105:9870/

5.停止

在c1机执行：

stop-yarn.sh

stop-dfs.sh

附：更简单和安全的操作

https://tecadmin.net/install-hadoop-on-ubuntu-20-04/

http://www.mtitek.com/tutorials/bigdata/hadoop/install.php

以上2篇新建了hadoop用户来运行，且并没有关闭防火墙，只是开通了必须的端口。