安装Ubuntu

Linux元信息

两台机器，每台机器两台Ubuntu
Ubuntu版本：ubuntu-22.04.3-desktop-amd64.iso
处理器数量2，每个处理器的核心数量2，总处理器核心数量4
单个虚拟机内存8192MB（8G），最大磁盘大小30G

参考链接

清华大学开源软件镜像站

https://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/22.04/
虚拟机（VMware）安装Linux（Ubuntu）安装教程

https://blog.csdn.net/qq_39657434/article/details/112252844

具体步骤

把下载好的iso文件保存到一个位置
开始在VMware安装Ubuntu
选择网络类型（图片错了，应该是“桥接网络”，详见“配置虚拟机网络”）
指定磁盘容量
设置镜像文件
开始安装Ubuntu

配置虚拟机网络

配置桥接模式

查看宿主机WLAN硬件配置信息
打开VMware中的虚拟网络编辑器，根据宿主机WLAN硬件配置如下信息

设置虚拟机静态IP

防止每次开机随机IP，导致无法连接到其他虚拟机

切换root用户（第一次切换root用户需要配置root密码）
```
sudo passwd
```
打开01-network-manager-all.yaml文件（网卡配置文件）
```
vim /etc/netplan/01-network-manager-all.yaml
```

删除原内容，复制粘贴如下信息（根据实际情况更改）

# Let NetworkManager manage all devices on this system

network:

  ethernets:

    ens33:

      dhcp4: false

      addresses: [192.168.139.101/24]

      routes:

        - to: default

          via: 192.168.139.92

      nameservers:

        addresses: [8.8.8.8]

  version: 2

在宿主机的cmd中运行ipconfig命令查看网络信息，如下图所示：
根据第四步更改第三步的部分信息
- via：宿主机的默认网关
- addresses：前三位和宿主机默认网关保持一致，后一位自己随便设置（但要避免和已有ip重复）

安装Hadoop

Hadoop元信息

统一用户名：hjm，密码：000000
四台虚拟机分别为gyt1，gyt2，hjm1，hjm2
四台虚拟机用桥接模式，连接一台手机的热点，虚拟机ip如下：

hjm1：192.168.139.101

hjm2：192.168.139.102

gyt1：192.168.139.103

gyt2：192.168.139.104
集群部署规划

hjm1 hjm2 gyt1 gyt2

HDFS NameNode、DataNode DataNode SecondaryNameNode、DataNode DataNode

YARN NodeManager NodeManager NodeManager ResourceManager、NodeManager

	hjm1	hjm2	gyt1	gyt2
HDFS	NameNode、DataNode	DataNode	SecondaryNameNode、DataNode	DataNode
YARN	NodeManager	NodeManager	NodeManager	ResourceManager、NodeManager

配置用户sudo权限

配置以后，每次使用sudo，无需输入密码

用sudo权限打开sudoers文件
```
sudo vim /etc/sudoers
```

增加修改sudoers文件，在%sudo下面新加一行（这里以hjm用户为例）

# Allow members of group sudo to execute any command

%sudo   ALL=(ALL:ALL) ALL

hjm ALL=(ALL) NOPASSWD: ALL

创建目录并更改权限

创建module和software文件夹

sudo mkdir /opt/module

sudo mkdir /opt/software

修改 module、software 文件夹的所有者和所属组均为hjm用户
```
sudo chown hjm:hjm /opt/module

sudo chown hjm:hjm /opt/software
```

Ubuntu查看、安装和开启ssh服务

查看ssh服务的开启状态，如果开启，则可以跳过这一部分
```
ps -e|grep ssh
```
安装ssh服务
```
sudo apt-get install openssh-server
```
启动ssh服务
```
sudo /etc/init.d/ssh start
```

注意：

当你用ssh软件（这里默认是Xhell 7）连接时，不要用root用户连，ssh默认不能用root直接连，除非修改配置文件

安装JDK

用xftp工具将jdk导入到opt目录下面的software文件夹下面

解压jdk到opt/module目录下

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

配置jdk环境变量

（1）新建/etc/profile.d/my_env.sh 文件
```
sudo vim /etc/profile.d/my_env.sh
```
（2）添加以下内容
```
#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_212

export PATH=$PATH:$JAVA_HOME/bin
```
（3）保存后退出，source 一下/etc/profile 文件，让新的环境变量 PATH 生效
```
source /etc/profile
```
（4）测试jdk是否安装成功
```
java -version
```

安装Hadoop

用xftp工具将hadoop导入到opt目录下面的software文件夹下面

解压hadoop到opt/module目录下

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

配置hadoop环境变量

（1）打开/etc/profile.d/my_env.sh 文件
```
sudo vim /etc/profile.d/my_env.sh
```
（2）在 my_env.sh 文件末尾添加如下内容
```
#HADOOP_HOME

export HADOOP_HOME=/opt/module/hadoop-3.1.3

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin
```
（3）保存后退出，source 一下/etc/profile 文件，让新的环境变量 PATH 生效
```
source /etc/profile
```
（4）测试hadoop是否安装成功
```
hadoop version
```

修改配置文件

cd到$HADOOP_HOME/etc/hadoop目录

core-site.xml

<configuration>

 <!-- 指定 NameNode 的地址 -->

 <property>

 <name>fs.defaultFS</name>

 <value>hdfs://hjm1:8020</value>

 </property>

 <!-- 指定 hadoop 数据的存储目录 -->

 <property>

 <name>hadoop.tmp.dir</name>

 <value>/opt/module/hadoop-3.1.3/data</value>

 </property>

 <!-- 配置 HDFS 网页登录使用的静态用户为 hjm -->

 <property>

 <name>hadoop.http.staticuser.user</name>

 <value>hjm</value>

 </property>

</configuration>

hdfs-site.xml

<configuration>

<!-- nn web 端访问地址-->

<property>

 <name>dfs.namenode.http-address</name>

 <value>hjm1:9870</value>

 </property>

<!-- 2nn web 端访问地址-->

 <property>

 <name>dfs.namenode.secondary.http-address</name>

 <value>gyt1:9868</value>

 </property>

</configuration>

yarn-site.xml

<configuration>

 <!-- 指定 MR 走 shuffle -->

 <property>

 <name>yarn.nodemanager.aux-services</name>

 <value>mapreduce_shuffle</value>

 </property>

 <!-- 指定 ResourceManager 的地址-->

 <property>

 <name>yarn.resourcemanager.hostname</name>

 <value>gyt2</value>

 </property>

 <!-- 环境变量的继承 -->

 <property>

 <name>yarn.nodemanager.env-whitelist</name>

<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO

NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP

RED_HOME</value>

 </property>

</configuration>

mapred-site.xml

<configuration>

<!-- 指定 MapReduce 程序运行在 Yarn 上 -->

 <property>

 <name>mapreduce.framework.name</name>

 <value>yarn</value>

 </property>

</configuration>

workers

hjm1

hjm2

gyt1

gyt2

克隆虚拟机

在hjm1和gyt1的两台宿主机上分别克隆出hjm2和gyt2
按照“配置虚拟机网络-设置虚拟机静态IP”的方式，配置hjm2的ip为192.168.139.102，gyt2的ip为192.168.139.104

改每台虚拟机的ubuntu映射文件，这里以gyt2为例

127.0.0.1       localhost

# 127.0.1.1       gyt2 记得删除这一行

192.168.139.101 hjm1

192.168.139.102 hjm2

192.168.139.103 gyt1

192.168.139.104 gyt2

修改四台虚拟机的主机名分别为hjm1，hjm2，gyty1，gyt2
```
sudo vim /etc/hostname
```
重启虚拟机

ssh免密登录

分别要配置16种免密登录，如下图所示

切换hjm用户，cd到~/.ssh，生成公钥和私钥
```
ssh-keygen -t rsa
```
将公钥复制到目的机上，这里以hjm1举例
```
ssh-copy-id hjm1
```

xsync集群分发脚本

在/home/hjm/bin目录下创建xsync文件

在该文件中编写如下代码

#!/bin/bash

#1. 判断参数个数

if [ $# -lt 1 ]

then

 echo Not Enough Arguement!

 exit;

fi

#2. 遍历集群所有机器

for host in hadoop102 hadoop103 hadoop104

do

 echo ==================== $host ====================

 #3. 遍历所有目录，挨个发送

 for file in $@

 do

 #4. 判断文件是否存在

 if [ -e $file ]

 then

 #5. 获取父目录

 pdir=$(cd -P $(dirname $file); pwd)

 #6. 获取当前文件的名称

 fname=$(basename $file)

 ssh $host "mkdir -p $pdir"

 rsync -av $pdir/$fname $host:$pdir

 else

 echo $file does not exists!

 fi

 done

done

修改脚本xsync具有执行权限
```
chmod +x xsync
```
测试脚本
```
xsync /home/atguigu/bin
```
将脚本复制到/bin中，以便全局调用
```
sudo cp xsync /bin/
```
在客户端电脑（默认windows）配置映射

（1）windows + R

（2）输入drivers，回车

（3）进入etc文件夹

（4）编辑hosts文件
```
192.168.139.101 hjm1

192.168.139.102 hjm2

192.168.139.103 gyt1

192.168.139.104 gyt2
```

测试hadoop

格式化NameNode

如果集群是第一次启动，需要在 hadoop102 节点格式化 NameNode（注意：格式化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化。）
```
hdfs namenode -format
```
在hjm1上启动hdfs
```
sbin/start-dfs.sh
```
在gyt2上启动yarn
```
sbin/start-yarn.sh
```
Web 端查看 HDFS 的 NameNode

http://hjm1:9870
Web 端查看 YARN 的 ResourceManager

http://gyt2:8088
测试结果

（1）datanode

（2）Yarn

（3）WordCount

报错及解决

https://blog.csdn.net/sinat_23225111/article/details/127497281

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）的更多相关文章

沉淀，再出发——手把手教你使用VirtualBox搭建含有三个虚拟节点的Hadoop集群
手把手教你使用VirtualBox搭建含有三个虚拟节点的Hadoop集群一.准备,再出发在项目启动之前,让我们看一下前面所做的工作.首先我们掌握了一些Linux的基本命令和重要的文件,其次我们学会 ...
三节点Hadoop集群搭建
1. 基础环境搭建新建3个CentOS6.5操作系统的虚拟机,命名(可自定)为masternode.slavenode1和slavenode2.该过程参考上一篇博文CentOS6.5安装配置详解 2 ...
kafka系列一：单节点伪分布式集群搭建
Kafka集群搭建分为单节点的伪分布式集群和多节点的分布式集群两种,首先来看一下单节点伪分布式集群安装.单节点伪分布式集群是指集群由一台ZooKeeper服务器和一台Kafka broker服务器组成 ...
Hadoop集群搭建（完全分布式版本） VMWARE虚拟机
Hadoop集群搭建(完全分布式版本) VMWARE虚拟机一.准备工作三台虚拟机:master.node1.node2 时间同步 ntpdate ntp.aliyun.com 调整时区 cp /u ...
大数据之虚拟机配置和环境准备及hadoop集群搭建
一.VMnet1和VMnet8路由器 VMware-workstation软件选择默认安装时,会自动创建VMnet1和VMnet8路由器设备.(安装失败使用CCleaner清理vm软件) VMnet1 ...
从VMware虚拟机安装到hadoop集群环境配置详细说明（第一期）
http://blog.csdn.net/whaoxysh/article/details/17755555 虚拟机安装我安装的虚拟机版本是VMware Workstation 8.04,自己电脑上 ...
spark集群搭建（三台虚拟机）——hadoop集群搭建（2）
!!!该系列使用三台虚拟机搭建一个完整的spark集群,集群环境如下: virtualBox5.2.Ubuntu14.04.securecrt7.3.6_x64英文版(连接虚拟机) jdk1.7.0. ...
Hadoop集群搭建(一)~虚拟机的创建
Hadoop集群的搭建包括,虚拟机系统的安装:安装JDK,Hadoop:克隆虚拟机:伪分布式的搭建:安装zookeeper:Hive:Hbae:Spark等等: 我将分为多篇文章来记录.这篇文章主要写 ...
hadoop集群搭建——单节点（伪分布式）
1. 准备工作: 前提:需要电脑安装VM,且VM上安装一个Linux系统注意:本人是在学习完尚学堂视频后,结合自己的理解,在这里做的总结.学习的视频是:大数据. 为了区分是在哪一台机器做的操作,eg ...
虚拟机zookeeper和hbase集群搭建
集群zookeeper dataDir=/usr/local/zookeeper/dataDir dataLogDir=/usr/local/zookeeper/dataLogDir # the po ...

随机推荐

【序列化与反序列化】关于序列化与反序列化MessagePack的实践
在进行序列化操作之前,我们还对系统进行压测,通过jvisualvm分析cpu,线程,垃圾回收情况等:运用火焰图async-profiler分析系统性能,找出程序中占用CPU资源时间最长的代码块. 代码 ...
怎样优雅地增删查改（一）：从0开始搭建Volo.Abp项目
@ 目录项目介绍模块化由框架实现的需要实现的创建项目创建业务模块配置引用和依赖配置DbContext 创建实体和Dto 配置AutoMapper 软件系统中数据库或者持久层的基本操作功 ...
即构 SDK 6月迭代：新增拉流画面镜像等功能，为开发者提供更大便利
即构SDK6月新版本已上线,本月SDK迭代主要新增了拉流画面镜像功能,媒体播放器新增支持缓存相关的设置,新增支持设置对焦模式和曝光模式等功能,多个功能模块的灵活设置,让开发者能更便利的自定义选择,为用 ...
Microsoft edge锁定在任务栏上，被修改主页360的解决方法
今天从桌面下边的任务栏打开Microsoft edge浏览器,突然发现主页被篡改为360导航了(生气!恶龙咆哮ooo 在桌面上是Microsoft edge,固定到任务栏就成为Microsoft ed ...
go build怎么使用
go build 是 Go 语言编译器的一个命令,用于将 Go 源代码文件编译成可执行的二进制文件.它是 Go 语言开发过程中常用的一个命令.以下是 go build 的基本使用方法: go buil ...
Linux 概念：u-boot
U-Boot介绍参考:https://baike.baidu.com/item/U-Boot/10377075 参考:https://u-boot.readthedocs.io/en/latest/ ...
C# 处理 csv 文件中的双引号
C# CSV 双引号处理直接上代码,自己写的,有问题可以随时联系 // 没有保证所有的都能对上,目前只处理了自己所遇见的格式 public static string[] SplitStr(stri ...
C#.NET 国密SM4对称加解密与JAVA互通 ver:20230731
C#.NET 国密SM4对称加解密与JAVA互通 ver:20230731 .NET 环境:.NET6 控制台程序(.net core). JAVA 环境:JAVA8,带maven 的JAVA控制台 ...
缓存面试解析：穿透、击穿、雪崩，一致性、分布式锁、Redis过期，海量数据查找
为什么使用缓存在程序内部使用缓存,比如使用map等数据结构作为内部缓存,可以快速获取对象.通过将经常使用的数据存储在缓存中,可以减少对数据库的频繁访问,从而提高系统的响应速度和性能.缓存可以将数据保 ...
Controller 层代码技巧
Controller 层代码技巧前言本篇主要要介绍的就是controller层的处理,一个完整的后端请求由4部分组成: 接口地址(也就是URL地址) 请求方式(一般就是get.post,当然还有p ...

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）

安装Ubuntu

Linux元信息

参考链接

具体步骤

配置虚拟机网络

配置桥接模式

设置虚拟机静态IP

安装Hadoop

Hadoop元信息

配置用户sudo权限

创建目录并更改权限

Ubuntu查看、安装和开启ssh服务

安装JDK

安装Hadoop

修改配置文件

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

workers

克隆虚拟机

ssh免密登录

xsync集群分发脚本

测试hadoop

报错及解决

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）的更多相关文章

随机推荐

热门专题