安装Ubuntu

Linux元信息

两台机器，每台机器两台Ubuntu
Ubuntu版本：ubuntu-22.04.3-desktop-amd64.iso
处理器数量2，每个处理器的核心数量2，总处理器核心数量4
单个虚拟机内存8192MB（8G），最大磁盘大小30G

参考链接

清华大学开源软件镜像站

https://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/22.04/
虚拟机（VMware）安装Linux（Ubuntu）安装教程

https://blog.csdn.net/qq_39657434/article/details/112252844

具体步骤

把下载好的iso文件保存到一个位置
开始在VMware安装Ubuntu
选择网络类型（图片错了，应该是“桥接网络”，详见“配置虚拟机网络”）
指定磁盘容量
设置镜像文件
开始安装Ubuntu

配置虚拟机网络

配置桥接模式

查看宿主机WLAN硬件配置信息
打开VMware中的虚拟网络编辑器，根据宿主机WLAN硬件配置如下信息

设置虚拟机静态IP

防止每次开机随机IP，导致无法连接到其他虚拟机

切换root用户（第一次切换root用户需要配置root密码）
```
sudo passwd
```
打开01-network-manager-all.yaml文件（网卡配置文件）
```
vim /etc/netplan/01-network-manager-all.yaml
```

删除原内容，复制粘贴如下信息（根据实际情况更改）

# Let NetworkManager manage all devices on this system

network:

  ethernets:

    ens33:

      dhcp4: false

      addresses: [192.168.139.101/24]

      routes:

        - to: default

          via: 192.168.139.92

      nameservers:

        addresses: [8.8.8.8]

  version: 2

在宿主机的cmd中运行ipconfig命令查看网络信息，如下图所示：
根据第四步更改第三步的部分信息
- via：宿主机的默认网关
- addresses：前三位和宿主机默认网关保持一致，后一位自己随便设置（但要避免和已有ip重复）

安装Hadoop

Hadoop元信息

统一用户名：hjm，密码：000000
四台虚拟机分别为gyt1，gyt2，hjm1，hjm2
四台虚拟机用桥接模式，连接一台手机的热点，虚拟机ip如下：

hjm1：192.168.139.101

hjm2：192.168.139.102

gyt1：192.168.139.103

gyt2：192.168.139.104
集群部署规划

hjm1 hjm2 gyt1 gyt2

HDFS NameNode、DataNode DataNode SecondaryNameNode、DataNode DataNode

YARN NodeManager NodeManager NodeManager ResourceManager、NodeManager

	hjm1	hjm2	gyt1	gyt2
HDFS	NameNode、DataNode	DataNode	SecondaryNameNode、DataNode	DataNode
YARN	NodeManager	NodeManager	NodeManager	ResourceManager、NodeManager

配置用户sudo权限

配置以后，每次使用sudo，无需输入密码

用sudo权限打开sudoers文件
```
sudo vim /etc/sudoers
```

增加修改sudoers文件，在%sudo下面新加一行（这里以hjm用户为例）

# Allow members of group sudo to execute any command

%sudo   ALL=(ALL:ALL) ALL

hjm ALL=(ALL) NOPASSWD: ALL

创建目录并更改权限

创建module和software文件夹

sudo mkdir /opt/module

sudo mkdir /opt/software

修改 module、software 文件夹的所有者和所属组均为hjm用户
```
sudo chown hjm:hjm /opt/module

sudo chown hjm:hjm /opt/software
```

Ubuntu查看、安装和开启ssh服务

查看ssh服务的开启状态，如果开启，则可以跳过这一部分
```
ps -e|grep ssh
```
安装ssh服务
```
sudo apt-get install openssh-server
```
启动ssh服务
```
sudo /etc/init.d/ssh start
```

注意：

当你用ssh软件（这里默认是Xhell 7）连接时，不要用root用户连，ssh默认不能用root直接连，除非修改配置文件

安装JDK

用xftp工具将jdk导入到opt目录下面的software文件夹下面

解压jdk到opt/module目录下

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

配置jdk环境变量

（1）新建/etc/profile.d/my_env.sh 文件
```
sudo vim /etc/profile.d/my_env.sh
```
（2）添加以下内容
```
#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_212

export PATH=$PATH:$JAVA_HOME/bin
```
（3）保存后退出，source 一下/etc/profile 文件，让新的环境变量 PATH 生效
```
source /etc/profile
```
（4）测试jdk是否安装成功
```
java -version
```

安装Hadoop

用xftp工具将hadoop导入到opt目录下面的software文件夹下面

解压hadoop到opt/module目录下

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

配置hadoop环境变量

（1）打开/etc/profile.d/my_env.sh 文件
```
sudo vim /etc/profile.d/my_env.sh
```
（2）在 my_env.sh 文件末尾添加如下内容
```
#HADOOP_HOME

export HADOOP_HOME=/opt/module/hadoop-3.1.3

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin
```
（3）保存后退出，source 一下/etc/profile 文件，让新的环境变量 PATH 生效
```
source /etc/profile
```
（4）测试hadoop是否安装成功
```
hadoop version
```

修改配置文件

cd到$HADOOP_HOME/etc/hadoop目录

core-site.xml

<configuration>

 <!-- 指定 NameNode 的地址 -->

 <property>

 <name>fs.defaultFS</name>

 <value>hdfs://hjm1:8020</value>

 </property>

 <!-- 指定 hadoop 数据的存储目录 -->

 <property>

 <name>hadoop.tmp.dir</name>

 <value>/opt/module/hadoop-3.1.3/data</value>

 </property>

 <!-- 配置 HDFS 网页登录使用的静态用户为 hjm -->

 <property>

 <name>hadoop.http.staticuser.user</name>

 <value>hjm</value>

 </property>

</configuration>

hdfs-site.xml

<configuration>

<!-- nn web 端访问地址-->

<property>

 <name>dfs.namenode.http-address</name>

 <value>hjm1:9870</value>

 </property>

<!-- 2nn web 端访问地址-->

 <property>

 <name>dfs.namenode.secondary.http-address</name>

 <value>gyt1:9868</value>

 </property>

</configuration>

yarn-site.xml

<configuration>

 <!-- 指定 MR 走 shuffle -->

 <property>

 <name>yarn.nodemanager.aux-services</name>

 <value>mapreduce_shuffle</value>

 </property>

 <!-- 指定 ResourceManager 的地址-->

 <property>

 <name>yarn.resourcemanager.hostname</name>

 <value>gyt2</value>

 </property>

 <!-- 环境变量的继承 -->

 <property>

 <name>yarn.nodemanager.env-whitelist</name>

<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO

NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP

RED_HOME</value>

 </property>

</configuration>

mapred-site.xml

<configuration>

<!-- 指定 MapReduce 程序运行在 Yarn 上 -->

 <property>

 <name>mapreduce.framework.name</name>

 <value>yarn</value>

 </property>

</configuration>

workers

hjm1

hjm2

gyt1

gyt2

克隆虚拟机

在hjm1和gyt1的两台宿主机上分别克隆出hjm2和gyt2
按照“配置虚拟机网络-设置虚拟机静态IP”的方式，配置hjm2的ip为192.168.139.102，gyt2的ip为192.168.139.104

改每台虚拟机的ubuntu映射文件，这里以gyt2为例

127.0.0.1       localhost

# 127.0.1.1       gyt2 记得删除这一行

192.168.139.101 hjm1

192.168.139.102 hjm2

192.168.139.103 gyt1

192.168.139.104 gyt2

修改四台虚拟机的主机名分别为hjm1，hjm2，gyty1，gyt2
```
sudo vim /etc/hostname
```
重启虚拟机

ssh免密登录

分别要配置16种免密登录，如下图所示

切换hjm用户，cd到~/.ssh，生成公钥和私钥
```
ssh-keygen -t rsa
```
将公钥复制到目的机上，这里以hjm1举例
```
ssh-copy-id hjm1
```

xsync集群分发脚本

在/home/hjm/bin目录下创建xsync文件

在该文件中编写如下代码

#!/bin/bash

#1. 判断参数个数

if [ $# -lt 1 ]

then

 echo Not Enough Arguement!

 exit;

fi

#2. 遍历集群所有机器

for host in hadoop102 hadoop103 hadoop104

do

 echo ==================== $host ====================

 #3. 遍历所有目录，挨个发送

 for file in $@

 do

 #4. 判断文件是否存在

 if [ -e $file ]

 then

 #5. 获取父目录

 pdir=$(cd -P $(dirname $file); pwd)

 #6. 获取当前文件的名称

 fname=$(basename $file)

 ssh $host "mkdir -p $pdir"

 rsync -av $pdir/$fname $host:$pdir

 else

 echo $file does not exists!

 fi

 done

done

修改脚本xsync具有执行权限
```
chmod +x xsync
```
测试脚本
```
xsync /home/atguigu/bin
```
将脚本复制到/bin中，以便全局调用
```
sudo cp xsync /bin/
```
在客户端电脑（默认windows）配置映射

（1）windows + R

（2）输入drivers，回车

（3）进入etc文件夹

（4）编辑hosts文件
```
192.168.139.101 hjm1

192.168.139.102 hjm2

192.168.139.103 gyt1

192.168.139.104 gyt2
```

测试hadoop

格式化NameNode

如果集群是第一次启动，需要在 hadoop102 节点格式化 NameNode（注意：格式化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化。）
```
hdfs namenode -format
```
在hjm1上启动hdfs
```
sbin/start-dfs.sh
```
在gyt2上启动yarn
```
sbin/start-yarn.sh
```
Web 端查看 HDFS 的 NameNode

http://hjm1:9870
Web 端查看 YARN 的 ResourceManager

http://gyt2:8088
测试结果

（1）datanode

（2）Yarn

（3）WordCount

报错及解决

https://blog.csdn.net/sinat_23225111/article/details/127497281

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）的更多相关文章

沉淀，再出发——手把手教你使用VirtualBox搭建含有三个虚拟节点的Hadoop集群
手把手教你使用VirtualBox搭建含有三个虚拟节点的Hadoop集群一.准备,再出发在项目启动之前,让我们看一下前面所做的工作.首先我们掌握了一些Linux的基本命令和重要的文件,其次我们学会 ...
三节点Hadoop集群搭建
1. 基础环境搭建新建3个CentOS6.5操作系统的虚拟机,命名(可自定)为masternode.slavenode1和slavenode2.该过程参考上一篇博文CentOS6.5安装配置详解 2 ...
kafka系列一：单节点伪分布式集群搭建
Kafka集群搭建分为单节点的伪分布式集群和多节点的分布式集群两种,首先来看一下单节点伪分布式集群安装.单节点伪分布式集群是指集群由一台ZooKeeper服务器和一台Kafka broker服务器组成 ...
Hadoop集群搭建（完全分布式版本） VMWARE虚拟机
Hadoop集群搭建(完全分布式版本) VMWARE虚拟机一.准备工作三台虚拟机:master.node1.node2 时间同步 ntpdate ntp.aliyun.com 调整时区 cp /u ...
大数据之虚拟机配置和环境准备及hadoop集群搭建
一.VMnet1和VMnet8路由器 VMware-workstation软件选择默认安装时,会自动创建VMnet1和VMnet8路由器设备.(安装失败使用CCleaner清理vm软件) VMnet1 ...
从VMware虚拟机安装到hadoop集群环境配置详细说明（第一期）
http://blog.csdn.net/whaoxysh/article/details/17755555 虚拟机安装我安装的虚拟机版本是VMware Workstation 8.04,自己电脑上 ...
spark集群搭建（三台虚拟机）——hadoop集群搭建（2）
!!!该系列使用三台虚拟机搭建一个完整的spark集群,集群环境如下: virtualBox5.2.Ubuntu14.04.securecrt7.3.6_x64英文版(连接虚拟机) jdk1.7.0. ...
Hadoop集群搭建(一)~虚拟机的创建
Hadoop集群的搭建包括,虚拟机系统的安装:安装JDK,Hadoop:克隆虚拟机:伪分布式的搭建:安装zookeeper:Hive:Hbae:Spark等等: 我将分为多篇文章来记录.这篇文章主要写 ...
hadoop集群搭建——单节点（伪分布式）
1. 准备工作: 前提:需要电脑安装VM,且VM上安装一个Linux系统注意:本人是在学习完尚学堂视频后,结合自己的理解,在这里做的总结.学习的视频是:大数据. 为了区分是在哪一台机器做的操作,eg ...
虚拟机zookeeper和hbase集群搭建
集群zookeeper dataDir=/usr/local/zookeeper/dataDir dataLogDir=/usr/local/zookeeper/dataLogDir # the po ...

随机推荐

ThinkPHP6.0 链式SQL语句
ThinkPHP6.0 链式SQL语句查询单个数据 $user = Db::query('select * from `user`'); $user=Db::table('user')->wh ...
PostgreSQL JDBC 开发指导
JDBC 驱动程序目录设置 JDBC 驱动程序初始化驱动程序使用 SSL 发出查询和处理结果调用存储函数和过程存储二进制数据 JDBC 转义 PostgreSQL 扩展的 JDBC API ...
CAN转PROFINET协议网关 JM-PN-CAN
1 产品功能捷米特JM-PN-CAN 是自主研发的一款 PROFINET 从站功能的通讯网关.主要功能是将各种 CAN 设备接入到 PROFINET 网络中. 捷米特JM-PN-CAN连接到 ...
【转载】DSP 缓存机制及影响测试
本文主要以DSP讲解cache原理,但原理与CPU是相通的,故转载,原文地址:https://blog.csdn.net/qq_39376747/article/details/112794096 目 ...
行行AI人才直播第14期：【国内第二波人工智能进入者、连续创业者】土豆《土豆利用GPT成功融资两次的提示词和故事》
行行AI人才(海南行行智能科技有限公司)是博客园和顺顺智慧共同运营的AI行业人才全生命周期服务平台. 此刻,ChatGPT的火热程度已经无需多言.一时间,追逐大模型成了国内AI行业的标准动作,&quo ...
解决：vue-loader was used without the corresponding plugin.
原因 webpack经常出现版本不兼容问题,vue-loader在15以前的版本打包时候会自动生成VueLoaderPlugin,但是现在需要手动去wepack.config.js文件中去加入,如下图 ...
linux下创建虚拟环境
安装虚拟环境: 1 sudo apt-get install virtualenvwrapper 配置环境变量: 1.创建目录用于存放虚拟环境. 1 mkdir $HOME/.virtualenvs ...
[db2]数据备份与还原
前言备份还原db2数据库一般有两种方式,一种是使用db2 backup + db2 restore,另一种是db2move + db2look.前者备份的数据库文件不能使用后者的方式进行还原. 实例 ...
记通过mysql数据库成功入侵到服务器内部的渗透实战
1,在成功进入mysql到数据库之后,可以使用select user();命令,查看当前的用户,如果为root,则可以执行下一步操作.不为root,则需要通过其他方法提权. 2, 使用show var ...
文心一言 VS 讯飞星火 VS chatgpt （74）-- 算法导论7.2 2题
二.如果用go语言,当数组A的所有元素都具有相同值时,QUICKSORT的时间复杂度是什么? 文心一言: 在Go语言中,对一个所有元素都相等的数组进行快速排序(QuickSort)的时间复杂度是O(n ...

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）

安装Ubuntu

Linux元信息

参考链接

具体步骤

配置虚拟机网络

配置桥接模式

设置虚拟机静态IP

安装Hadoop

Hadoop元信息

配置用户sudo权限

创建目录并更改权限

Ubuntu查看、安装和开启ssh服务

安装JDK

安装Hadoop

修改配置文件

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

workers

克隆虚拟机

ssh免密登录

xsync集群分发脚本

测试hadoop

报错及解决

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）的更多相关文章

随机推荐

热门专题