hadoop(集群)完全分布式环境搭建

一，环境

主节点一台： ubuntu desktop 16.04

zhoujun 172.16.12.1

从节点（slave）两台：ubuntu server 16.04

hadoop2 172.16.12.131

hadoop3 172.16.12.129

二，搭建前准备

1, 为每台服务器配置 /etc/hosts

sudo vim /etc/hosts

2,为每台机器 jdk 安装，具体的jdk类型大家可以根据自己的需求来选择，网上的方法也有很多

sudo apt-get install openjdk-8-jre openjdk-8-jdk

3，为每台机器安装 openssh-server ××

 sudo apt-get install openssh-server

安装好后使用 ssh 登录下本机，这是会自动创建一个～/.ssh 的隐藏文件夹，其中放的是 ssh的相关密钥

ssh localhost

然后在输入 exit 退出

exit

4, 为每个台机器之间建立 ssh 的免密登录 ××

cd ~/.ssh               # 如果没有该目录，先执行一次ssh localhost

rm ./id_rsa*            # 删除之前生成的公匙（如果有）

ssh-keygen -t rsa       # 一直按回车就可以

让主节点能够免密登录在主节点

cat ./id_rsa.pub >> ./authorized_keys

这里上图为zhoujun这台主机的免密登录成功，其他两台，分别执行 ssh hadoop2, 和 ssh hadoop3 都可以不用输入密码登录说明配置成功！

重点：让主机能够免密登录到 hadoop2,和hadoop3

将zhoujun这台主机的公钥传到hadoop2,hadoop3的机器上

scp ~/.ssh/id_rsa.pub zhoujun@hadoop2:/home/zhoujun/   # 将 zhoujun这台机器的公钥传到 hadoop2 , 注意 hadoop2主机的用户名为 zhoujun

scp ~/.ssh/id_rsa.pub zhoujun@hadoop3:/home/zhoujun/

#  将 zhoujun这台机器的公钥传到 hadoop3 , 注意 hadoop3主机的用户名也为 zhoujun，根据自己的情况设定

#  scp 是 secure copy 的简写，用于在 Linux 下进行远程拷贝文件，类似于 cp 命令，不过 cp 只能在本机中拷贝。

#  执行 scp 时会要求输入 hadoop2 上 zhoujun 用户的密码，输入完成后会提示传输完毕，如下图所示：

关于scp的使用可以参考 scp 使用总结

然后在分别在 hadoop2，hdaoop3添加对应的公钥到 ssh的相关文件中

mkdir ~/.ssh       # 如果不存在该文件夹需先创建，若已存在则忽略

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

rm ~/id_rsa.pub    # 用完就可以删掉了

使用 ssh hadoop2 命令不需要输入密码就能成功登录了，会出现类似上图的界面！

注意：最后让master能够连接slave，同时也能让slave 免密登录到master，配置类似，将slave节点的公钥传到其他的slave和master节点，

然后进行上诉步骤添加公钥到各个主机之中，即可

三， hadoop 安装

1, 下载hadoop的安装包

hadoop 2.8.2

解压

 tar -zxvf hadoop-2.8.2.tar.gz

将解压后的hadoop 修改文件名，放入/opt文件夹下，这里可以恶搞那句自己的设置

sudo mv hadoop-2.8.2 /opt/hadoop/

进入到 /opt 文件夹下，修改hadoop 文件夹的用户权限，这里我的用户名为 zhoujun，请大家根据自己的用于名设置

cd /opt/

 sudo chown -R zhoujun ./hadoop/

2, 配置hadoop的配置文件 core-site.xml, hdfs-site.xml, mapred-site.cml, yarn-site.xml

vim core-site.xml # 注意是<configuration></configuration>中的内容

内容如下：

<configuration>

        <property>

             <name>hadoop.tmp.dir</name>

             <value>file:/opt/hadoop/tmp</value>

             <description>Abase for other temporary directories.</description>

        </property>

        <property>

             <name>fs.defaultFS</name>

             <value>hdfs://zhoujun:9000</value>

        </property>

</configuration>

vim hdfs-site.xml,

<configuration>

       <property>

                <name>dfs.namenode.secondary.http-address</name>

                <value>zhoujun:50090</value>

        </property>

       <property>

                <name>dfs.namenode.datanode.registration.ip-hostname-check</name>

                <value>false</value>

       </property>

        <property>

             <name>dfs.replication</name>

             <value>3</value>

        </property>

        <property>

             <name>dfs.namenode.name.dir</name>

             <value>file:/opt/hadoop/tmp/dfs/name</value>

        </property>

        <property>

             <name>dfs.datanode.data.dir</name>

             <value>file:/opt/hadoop/tmp/dfs/data</value>

        </property>

</configuration>

修改mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

vim mapred-site.xml

内容如下：

<configuration>

        <property>

             <name>mapreduce.framework.name</name>

             <value>yarn</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.address</name>

                <value>zhoujun:10020</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.webapp.address</name>

                <value>zhoujun:19888</value>

        </property>

</configuration>

修改 yarn-site.xml

vim yarn-site.xml

内容如下：

<configuration>

<!-- Site specific YARN configuration properties -->

        <property>

                <name>yarn.resourcemanager.hostname</name>

                <value>zhoujun</value>

        </property>

        <property>

             <name>yarn.nodemanager.aux-services</name>

             <value>mapreduce_shuffle</value>

            </property>

</configuration>

配置slaves 文件

vim slaves

内容如下：

192.168.1.105

172.16.12.129

172.16.12.131

注意：这里记得最好写 ip 地址，不要写主机名

3, 修改用户的 ~/.bashrc文件，注意这段内容每个节点都需要添加

vim ~/,bashrc

在文件的头部添加：

#Java

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

#Hadoop

export HADOOP_HOME=/opt/hadoop

export HADOOP_INSTALL=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

source ~/.bashrc   # 让用户配置文件生效

4, 将配置到的hadoop文件传到对应的 hadoop2, hadoop3 节点

先压缩, 再上传

 cd /opt/  # 切换目录

tar -zcf ./hadoop.tar.gz ./hadoop/ # 压缩文件

scp hadoop.tar.gz zhoujun@hadoop2:

scp hadoop.tar.gz zhoujun@hadoop3:

5, 然后分别进入hadoop2, hadoop3 节点，解压，放入到 /opt 文件夹下，同时加入用户权限

tar -zxvf hadoop.tar.gz        # 解压

sudo mv hadoop /opt/hadoop     # 移动

sudo chown -R zhoujun /opt/hadoop # 授予权限

同理对于hadoop3 执行第5步，

6, 格式化hdfs文件系统

hdfs  namenode -format

在这一步请确保hdfs-site.xml中用到的文件及文件夹不存在，如有，请删除再执行上面的命令！

好了，集群安装基本上完成了

四，测试：

进入主节点服务器：zhoujun节点利用start-all.sh 启动

在浏览器上访问：

五，注意问题！

一定要注意各个主机的网络，一定要是同一个路由器下的，即同一个网段下的服务器，不然可能出现只有一个datanode的情况，或者没有datanode等的问题！

其次，保证ssh 能够正常通信，这个是前提

最后，大家在安装的时候一定要细心，多一个字母数字，可能让你找半天的错！

hadoop(集群)完全分布式环境搭建的更多相关文章

沉淀，再出发——在Hadoop集群的基础上搭建Spark
在Hadoop集群的基础上搭建Spark 一.环境准备在搭建Spark环境之前必须搭建Hadoop平台,尽管以前的一些博客上说在单机的环境下使用本地FS不用搭建Hadoop集群,可是在新版spark ...
3-3 Hadoop集群完全分布式配置部署
Hadoop集群完全分布式配置部署下面的部署步骤,除非说明是在哪个服务器上操作,否则默认为在所有服务器上都要操作.为了方便,使用root用户. 1.准备工作 1.1 centOS6服务器3台手动指 ...
hadoop 集群HA高可用搭建以及问题解决方案
hadoop 集群HA高可用搭建目录大纲 1. hadoop HA原理 2. hadoop HA特点 3. Zookeeper 配置 4. 安装Hadoop集群 5. Hadoop HA配置搭建环 ...
Hadoop学习笔记(3)——分布式环境搭建
Hadoop学习笔记(3) ——分布式环境搭建前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...
大数据系列（3）——Hadoop集群完全分布式坏境搭建
前言上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...
Hadoop集群完全分布式坏境搭建
前言上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...
使用Docker搭建Hadoop集群(伪分布式与完全分布式)
之前用虚拟机搭建Hadoop集群(包括伪分布式和完全分布式:Hadoop之伪分布式安装),但是这样太消耗资源了,自学了Docker也来操练一把,用Docker来构建Hadoop集群,这里搭建的Hado ...
基于docker的spark-hadoop分布式集群之一：环境搭建
一.软件准备 1.基础docker镜像:ubuntu,目前最新的版本是18 2.需准备的环境软件包: (1) spark-2.3.0-bin-hadoop2.7.tgz (2) hadoop-2.7. ...
Hadoop集群 -Eclipse开发环境设置
1.Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0 ...

随机推荐

元旦在家撸了两天Seata源码，你们是咋度过的呢？
撸Seata源码 2020年12月31日晚23点30分,我发了2020年的最后一个朋友圈:假期吃透Seata源码,有组队的吗? 不少小伙伴都来点赞了, 其中也包括Seata项目的发起人--季敏大佬哦! ...
JVM--理解介绍
JVM?JDK?JRE?关系? JDK(Java Development Kit),它是实际上存在的,它包含JRE+编译.运行等开发工具. JRE(Java Runtime Environment), ...
软件性能测试分析与调优实践之路-Web中间件的性能分析与调优总结
本文主要阐述软件性能测试中的一些调优思想和技术,节选自作者新书<软件性能测试分析与调优实践之路>部分章节归纳. 在国内互联网公司中,Web中间件用的最多的就是Apache和Nginx这两款 ...
thinkphp3.2框架运行原理
thinkphp3.2是使用率非常普遍的国产php框架,以简单易于上手闻名,那么它框架结构是怎样的? tp3.2设计简单来说就是CBD,core(框架核心文件),bebavior(行为,tp3.2一大 ...
fastjsion反序列化漏洞渗透测试笔记
本文原创地址:https://www.cnblogs.com/yunmuq/p/14268028.html 一.背景 fastjsion是阿里的开源Java工具:https://github.com/ ...
在阿里云托管的k8s上使用nas做动态存储
前言关于aliyun托管k8s的存储插件主要有两种: CSI # kubectl get pod -n kube-system | grep csi-plugin csi-plugin-8bbnw ...
Linux 入门教程：00 Background
Linux 为何物? 就是一个操作系统. Linux 历史: 操作系统始于二十世纪五十年代,当时的操作系统能运行批处理程序.批处理程序不需要用户的交互,它从文件或者穿孔卡片读取数据,然后输出到另外一个 ...
SQL注入-流程
一般注入分类: 时间,布尔,报错,堆,联合有关函数介绍: current_user() 当前用户名 session_user() 链接数据库的用户名 @@basedir mysql安装路径 @@da ...
/usr/local/mysql/bin/mysqlbinlog -vv /var/lib/bin/mysql-bin.000008 --base64-output=DECODE-ROWS --start-pos=307
/usr/local/mysql/bin/mysqlbinlog -vv /var/lib/bin/mysql-bin.000008 --base64-output=DECODE-ROWS --st ...
ClickHouse入门：表引擎-HDFS
前言插件及服务器版本服务器:ubuntu 16.04Hadoop:2.6ClickHouse:20.9.3.45 文章目录简介引擎配置 HDFS表引擎的两种使用形式引用简介 ClickHous ...

hadoop(集群)完全分布式环境搭建

hadoop(集群)完全分布式环境搭建的更多相关文章

随机推荐

热门专题