引入

本文在两台2核2g的云服务器上搭建了Hadoop集群，两台云服务器分别是阿里云（hjm）和腾讯云（gyt），集群部署规划如下：

	hjm	gyt
HDFS	NameNode\SecondaryNameNode\DataNode	DataNode
YARN	ResourceManager\NodeManager	NodeManager

经实验，目前可以正常实现文件上传下载，但跑mapreduce程序还出现服务器资源不够的情况

搭建过程

新增用户

useradd hujinming

passwd hujinming

配置用户sudo权限

vim /etc/sudoers

在

## Allow root to run any commands anywhere

root ALL=(ALL) ALL

## Allows people in group wheel to run all commands

%wheel ALL=(ALL) ALL

下面新增一行

hujinming ALL=(ALL) NOPASSWD:ALL

创建目录并更改权限

在/opt 目录下创建 module、software 文件夹

mkdir /opt/module

mkdir /opt/software

切换到root用户下，修改 module、software 文件夹的所有者和所属组均为hujinming用户

chown hujinming:hujinming /opt/module

chown hujinming:hujinming /opt/software

查看 module、software 文件夹的所有者和所属组

ll

安装JDK

用xftp工具将jdk导入到opt目录下面的software文件夹下面
解压jdk到opt/module目录下

tar -zxvf jdk-8u212-linux.x64.tar.gz -C /opt/module/

配置jdk环境变量
- 新建/etc/profile.d/my_env.sh 文件
```
sudo vim /etc/profile.d/my_env.sh
```
- 添加如下内容
```
#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_212

export PATH=$PATH:$JAVA_HOME/bin
```
- 保存后退出，source 一下/etc/profile 文件，让新的环境变量 PATH 生效
```
source /etc/profile
```
- 测试jdk是否安装成功
```
java -version
```

安装hadoop

xftp传输
解压安装到/opt/module下面
将hadoop添加到环境变量
- 获取hadoop安装路径
```
pwd
```
- 打开/etc/profile.d/my_env.sh 文件
```
sudo vim /etc/profile.d/my_env.sh
```
- 在 my_env.sh 文件末尾添加如下内容：
```
#HADOOP_HOME

export HADOOP_HOME=/opt/module/hadoop-3.1.3

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin
```
- 保存退出，让修改后的文件生效
- 测试是否安装成功

服务器IP映射

修改主机名

vim /etc/hostname

分别把两台服务器的名字改成hjm和gyt，这里以gyt举例，直接在hostname文件上输入

gyt

改映射文件

vim /etc/hosts

在linux中键入ifconfig命令可以查看内网ip。在两台服务器中，填写自己的私网，访问别人的填写公网，这里以gyt为例，gyt的公网IP是175.178.236.48，内网IP是10.0.12.1。这里要注意一点，阿里云在hosts文件中已经将本地IP映射成了一串英文，把这行信息删掉再进行上面的操作

47.115.207.108 hjm

10.0.12.1 gyt

在客户端电脑（默认windows）配置映射

因为在客户端电脑进行hadoop的操作时，两台机子会产生通信，他们通信时发送的网络请求url是gyt或者hjm，这在客户端电脑是无法识别的，所以要将gyt和hjm都映射为他们的公网IP
- windows + R
- 输入drivers，回车
- 进入etc文件
- 编辑hosts文件（都是公网IP）
```
175.178.236.48 gyt

47.115.207.108 hjm
```

ssh免密登录

分别要配置4种免密登录：

hjm -> gyt
gyt -> hjm
hjm -> hjm
gyt -> gyt

注意切换对应用户操作。先cd到~/.ssh，生成公钥和私钥

ssh-keygen -t rsa

这里以gyt -> hjm或hjm -> hjm为例：

ssh-copy-id hjm

修改配置文件

cd到$HADOOP_HOME/etc/hadoop目录

core-site.xml

<configuration>

 <!-- 指定 NameNode 的地址 -->

 <property>

 <name>fs.defaultFS</name>

 <value>hdfs://hjm:8020</value>

 </property>

 <!-- 指定 hadoop 数据的存储目录 -->

 <property>

 <name>hadoop.tmp.dir</name>

 <value>/opt/module/hadoop-3.1.3/data</value>

 </property>

 <!-- 配置 HDFS 网页登录使用的静态用户为 root -->

 <property>

 <name>hadoop.http.staticuser.user</name>

 <value>hujinming</value>

 </property>

</configuration>

hdfs-site.xml

<configuration>

<!-- nn web 端访问地址-->

<property>

 <name>dfs.namenode.http-address</name>

 <value>hjm:9870</value>

 </property>

<!-- 2nn web 端访问地址-->

 <property>

 <name>dfs.namenode.secondary.http-address</name>

 <value>hjm:9868</value>

 </property>

</configuration>

yarn-site.xml

<configuration>

 <!-- 指定 MR 走 shuffle -->

 <property>

 <name>yarn.nodemanager.aux-services</name>

 <value>mapreduce_shuffle</value>

 </property>

 <!-- 指定 ResourceManager 的地址-->

 <property>

 <name>yarn.resourcemanager.hostname</name>

 <value>hjm</value>

 </property>

 <!-- 环境变量的继承 -->

 <property>

 <name>yarn.nodemanager.env-whitelist</name>

<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO

NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP

RED_HOME</value>

 </property>

</configuration>

mapred-site.xml

<configuration>

<!-- 指定 MapReduce 程序运行在 Yarn 上 -->

 <property>

 <name>mapreduce.framework.name</name>

 <value>yarn</value>

 </property>

</configuration>

workers

hjm

gyt

去服务器上启动对应端口

用各自的服务器对双方暴露所有的端口
同时，对公网暴露9864、9866、9870、9868端口

问题与解决

./sbin/start-dfs.sh 开启NameNode 和 DataNode 守护进程报错：

Starting namenodes on [hjm]

ERROR: Attempting to operate on hdfs namenode as root

ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.

Starting datanodes

ERROR: Attempting to operate on hdfs datanode as root

ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.

Starting secondary namenodes [hjm]

ERROR: Attempting to operate on hdfs secondarynamenode as root

ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.

解决方法：

在hjm上的start-dfs.sh和stop-dfs.sh上增加如下几行：

HDFS_DATANODE_USER=hujinming

HADOOP_SECURE_SECURE_USER=hdfs

HDFS_NAMENODE_USER=hujinming

HDFS_SECONDARYNAMENODE_USER=hujinming

在hjm上的start-yarn.sh和stop-yarn.sh上增加如下几行：

YARN_RESOURCEMANAGER_USER=hujinming

HADOOP_SECURE_DN_USER=yarn

YARN_NODEMANAGER_USER=hujinming

报错hjm: ERROR: Cannot set priority of namenode process 23214，没有启动NameNode和SecondaryNameNode

解决方法：

在两台服务器的/etc/hosts中，填写自己的私网，访问别人的填写公网

找不到NameNode和SecondaryNameNode

解决方法：

把所有节点logs和data删掉，重新格式化namenode，在hjm机子上，执行下面命令：

hdfs namenode -format

客户端（windows）识别不了hjm和gyt

解决方法：改windows下面的主机名映射

配置WebUI可跨域？

解决方法：在两台服务器的core-site.xml加入下面代码

        <!--web console cors settings-->

        <property>

            <name>hadoop.http.filter.initializers</name>

            <value>org.apache.hadoop.security.HttpCrossOriginFilterInitializer</value>

        </property>

        <property>

            <name>hadoop.http.cross-origin.enabled</name>

            <value>true</value>

        </property>

        <property>

            <name>hadoop.http.cross-origin.allowed-origins</name>

            <value>*</value>

        </property>

        <property>

            <name>hadoop.http.cross-origin.allowed-methods</name>

            <value>*</value>

        </property>

        <property>

            <name>hadoop.http.cross-origin.allowed-headers</name>

            <value>X-Requested-With,Content-Type,Accept,Origin</value>

        </property>

        <property>

            <name>hadoop.http.cross-origin.max-age</name>

            <value>1800</value>

        </property>

没有足够的副本数量？

解决方法：还得看DataNode的数量。因为目前只有2台设备，最多也就2个副本，HDFS默认是3个副本，只有节点数的增加到10台时，副本数才能达到10。详细请看https://www.yii666.com/article/664023.html

hadoop脚本启动时，错误： ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in secureMain？

解决方法：在master主机的slaves文件中删除localhost即可。详细请看https://blog.csdn.net/Mr_ZNC/article/details/80700652

HDFS的webui界面上传下载文件，出现卡死情况？

解决方法：暴露服务器所有端口给对方

在阿里云和腾讯云的轻量应用服务器上搭建Hadoop集群的更多相关文章

阿里云和腾讯云免费SSL证书专题
阿里云部署SSL证书 http://www.cnblogs.com/sslwork/p/5984167.html 查找中间证书为了确保兼容到所有浏览器,我们必须在阿里云上部署中间证书,如果不部署证书 ...
阿里云搭建hadoop集群服务器，内网、外网访问问题（详解。。。）
这个问题花费了我将近两天的时间,经过多次试错和尝试,现在想分享给大家来解决此问题避免大家入坑,以前都是在局域网上搭建的hadoop集群,并且是局域网访问的,没遇见此问题. 因为阿里云上搭建的hadoo ...
阿里云轻量应用服务器上传一个HTML文件或者jsp文件通过外网IP访问
我选择的是宝塔Linux,现在就说一下如何往服务器里面传文件然后通过外网IP访问 1.打开宝塔Linux面板登录,安装tomcat,安装好后如图 2.点击tomcat有个文件标识处 3.出现如图 4 ...
阿里云wordpress轻量应用服务器升级php版本
目录脚本升级 php.ini没有加载升级完后只能最大只能上传2m的文件的问题脚本升级用大佬写的脚本: https://yq.aliyun.com/articles/717769?spm=a2c ...
阿里云ECS服务器部署HADOOP集群（一）：Hadoop完全分布式集群环境搭建
准备: 两台配置CentOS 7.3的阿里云ECS服务器: hadoop-2.7.3.tar.gz安装包: jdk-8u77-linux-x64.tar.gz安装包: hostname及IP的配置: ...
阿里云轻量应用服务器Lamp部署php工程踩过的坑
第一次写博客,也不知道写什么,但是想坚持写博客来提升自己,不喜勿喷. 切回正题,使用阿里云的轻量应用服务器Lamp其实非常方便,价格也很便宜,一键购买需要的环境都帮你搭配好了,剩下的就是自己修改一下数 ...
阿里云轻量应用服务器（LAMP）使用日志记录
phpStudy(PHP运行环境一键安装包) https://www.jb51.net/softs/182860.html 0:PHP开发工具 https://netbeans.org/downloa ...
阿里云轻量应用服务器配置mysql详解(转载)
1.服务器规格 1.地域选择考虑个人地址因素因此选择了华南. 2.选择应用镜像/系统镜像这个应该看个人需求,因为我只是想用来放数据库的,所以就随便选了个WordPress. 选好之后购买就完事了, ...
阿里云ECS服务器部署HADOOP集群（二）：HBase完全分布式集群搭建（使用外置ZooKeeper）
本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建,多添加了一个 datanode 节点 . 1 节点环境介绍: 1.1 环境介绍: 服务器:三台阿里 ...
阿里云ECS服务器部署HADOOP集群（三）：ZooKeeper 完全分布式集群搭建
本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建,多添加了一个 datanode 节点 . 1 节点环境介绍: 1.1 环境介绍: 服务器:三台阿里 ...

随机推荐

为什么说 Go 语言字符串是不可变的？
原文链接: 为什么说 Go 语言字符串是不可变的? 最近有读者留言说,平时在写代码的过程中,是会对字符串进行修改的,但网上都说 Go 语言字符串是不可变的,这是为什么呢? 这个问题本身并不困难,但对于 ...
R 语言中常见的 10 个错误，看到第 7 个会不会感觉很神奇？
翻译:BioIT 爱好者(部分内容有调整)原文:The top 10 R errors, the 7th one will surprise you 就像你学习走路时遇到了一些问题,你在学习 R 的过 ...
CMU15445 (Fall 2020) 数据库系统 Project#2 - B+ Tree 详解（下篇）
前言上一篇博客中实现了单线程 B+ 树的查找.插入.删除和迭代操作,这篇博客将完成实验二的剩余任务:并发 B+ 树.实现 B+ 树并发访问最简单的方法就是在整棵树上加一把大锁,但是这样会导致过多线程 ...
从 SpringApplication 认识 Spring 应用启动过程
一.SpringApplication 是什么? Spring 应用的启动类. 二.SpringApplication 执行了什么? 创建 ApplicationContext 实例 Applicat ...
【神经网络】基于GAN的生成对抗网络
目录 [神经网络]基于GAN的生成对抗网络随着深度学习的快速发展,神经网络逐渐成为人工智能领域的热点话题.神经网络是一种模仿人脑计算方式的算法,其通过大量数据和复杂的计算模型,能够实现复杂的任务和预 ...
深入了解ApacheZeppelin：如何构建高效的数据科学平台
目录引言随着数据科学和人工智能的快速发展,如何构建高效的数据科学平台已经成为一个重要议题.Apache Zeppelin是一个开源的数据科学平台,其提供了一种简单.高效的方式来处理和存储数据,并且 ...
Taurus .Net Core 微服务开源框架：Admin 插件【4-3】 - 配置管理-Mvc【Plugin-MicroService 微服务】
前言: 继上篇:Taurus .Net Core 微服务开源框架:Admin 插件[4-2] - 配置管理-Mvc[含请求日志打印] 本篇继续介绍下一个内容: 1.系统配置节点:Mvc - Plugi ...
续《基于C# 开发的SOL SERVER 操作数据库类（SQLHelp》 ——第二弹
续上一节,本节给出SQLHelp的具体实现方法--<YSFSQLHelp>,个人根据自己需要新建适合的类,本节根据参考网上资料,根据自己的需要编写的SQL帮助类.下面直接给出具体实现: / ...
1、笔记本刷ubuntu，安装饥荒服务器
目录笔记本刷ubuntu,安装饥荒服务器一.准备二.笔记本刷机 1.制作Ubuntu server U盘启动盘 2.刷机 3.设置电源不休眠三.安装饥荒服务器四.最后说下网络笔记本刷ubu ...
获得 markdown 无序列表格式的文件目录树
tree 命令可以获得文件目录结构,但是放在文档中时,我想用 markdown 无序列表的形式,在编辑器内还可以折叠. 完整解决方案:在 ~/.oh-my-zsh/custom 下添加下述自定义函数( ...

在阿里云和腾讯云的轻量应用服务器上搭建Hadoop集群

引入

搭建过程

新增用户

配置用户sudo权限

创建目录并更改权限

安装JDK

安装hadoop

服务器IP映射

ssh免密登录

修改配置文件

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

workers

去服务器上启动对应端口

问题与解决

在阿里云和腾讯云的轻量应用服务器上搭建Hadoop集群的更多相关文章

随机推荐

热门专题