hadoop集群完全分布式搭建
Hadoop环境搭建:完全分布式
集群规划:
ip hostname
192.168.204.154 master namenode resourcemanager datanode nodemanager
192.168.204.155 slave01 datanode nodemanager
192.168.204.156 slave02 datanode nodemanager
secondarynamenode是namenode的冷备份(不能代替namenode的工作,仅仅是拷贝namenode上的基础信息,帮助NameNode进行恢复)
安装配置完全分布式:
1.安装jdk
把master上的拷贝到slave01和slave02上
1)发送jdk安装包
scp -r jdk1.8.0_121 192.168.204.155:/home/hadoop/
scp -r jdk1.8.0_121 192.168.204.156:/home/hadoop/
2)发送配置文件
sudo scp /etc/profile 192.168.204.155:/etc
sudo scp /etc/profile 192.168.204.156:/etc
3)生效配置文件
source /etc/profile
source /etc/profile
2.配置主机名及映射文件
先改主机名
sudo vi /etc/sysconfig/network
需要改映射文件(将主机名和ip进行绑定)
三台机器均需要执行这个
vi /etc/hosts 末尾添加
3.配置免密码登录
主节点向从节点免密码登录
三个节点都要做
ssh-keygen
ssh-copy-id master/slave01/slave02
4.安装配置hadoop
hadoop-env.sh
core-site.xml
<property> <name>fs.defaultFS</name> <value>hdfs://master:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/hadoopdata</value> </property> |
hdfs-site.xml
<property> <name>dfs.replication</name> <value>2</value> </property> |
mapred-site.xml
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> |
yarn-site.xml
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> |
slaves文件
master slave01 slave02 |
向slave01、slave02远程发送hadoop安装文件
scp -r hadoop-2.7.1 slave01:/home/hadoop/
scp -r hadoop-2.7.1 slave02:/home/hadoop/
5.格式化集群
先把原来的删除临时文件目录(/tmp/hadoop-hadoop)
只需要在主节点上执行
hadoop namenode -format
6.在主节点启动
start-dfs.sh
start-yarn.sh
7.验证 jps
NameNode DataNode SecondaryNameNode ResourceManager NodeManager
8.停止
stop-all.sh
建议stop-dfs.sh stop-yarn.sh
*******跟踪日志:
tail -f hadoop-rxp233-namenode-rxp233.log
*******单个启动程序
hadoop-daemon.sh start namenode | DataNode | SecondaryNameNode
yarn-deamon.sh start resourcemanager | nodemanager
访问端口:
50070:hdfs的namenode的webui访问端口
ip:50070
8088:yarn的resourcemanager的webui的访问端口
ip:8088
****************将namenode和secondarynamenode分开配置:
1.在HADOOP_HOME/etc/hadoop目录下添加配置文件
masters(添加secondarynn的节点)
vi masters
slave01(secondarynamenode的节点) |
远程拷贝到其他节点:
scp masters slave01:/home/hadoop/hadoop-2.7.1/etc/hadoop/
scp masters slave02:/home/hadoop/hadoop-2.7.1/etc/hadoop/
2.修改hdfs-site.xml文件
1.>添加namenode的访问address
2.>添加secondarynamenode的访问address
<property> <name>dfs.namenode.http-address</name> <value>master:50070</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>slave01:50090</value> </property> |
scp hdfs-site.xml slave01:/home/hadoop/hadoop-2.7.1/etc/hadoop/
scp hdfs-site.xml slave02:/home/hadoop/hadoop-2.7.1/etc/hadoop/
https://www.linuxidc.com/Linux/2018-06/152795.htm
spark-on-yarn基本上按照这个教程就可以完成了
hadoop集群完全分布式搭建的更多相关文章
- hadoop集群为分布式搭建
1.准备Linux环境设置虚拟机网络 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改 ...
- 大数据系列(3)——Hadoop集群完全分布式坏境搭建
前言 上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...
- 使用Docker搭建Hadoop集群(伪分布式与完全分布式)
之前用虚拟机搭建Hadoop集群(包括伪分布式和完全分布式:Hadoop之伪分布式安装),但是这样太消耗资源了,自学了Docker也来操练一把,用Docker来构建Hadoop集群,这里搭建的Hado ...
- 大数据系列(1)——Hadoop集群坏境搭建配置
前言 关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方 ...
- hadoop集群环境的搭建
hadoop集群环境的搭建 今天终于把hadoop集群环境给搭建起来了,能够运行单词统计的示例程序了. 集群信息如下: 主机名 Hadoop角色 Hadoop jps命令结果 Hadoop用户 Had ...
- 3-3 Hadoop集群完全分布式配置部署
Hadoop集群完全分布式配置部署 下面的部署步骤,除非说明是在哪个服务器上操作,否则默认为在所有服务器上都要操作.为了方便,使用root用户. 1.准备工作 1.1 centOS6服务器3台 手动指 ...
- Hadoop集群(三) Hbase搭建
前面已经完成Zookeeper和HDFS的安装,本文会详细介绍Hbase的安装步骤.以及安装过程中遇到问题的汇总. 系列文章: Hadoop集群(一) Zookeeper搭建 Hadoop集群(二 ...
- Hadoop集群(二) HDFS搭建
HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的.所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始. 安装Hadoop集群,首先需要有Zookeeper ...
- Hadoop集群完全分布式坏境搭建
前言 上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...
随机推荐
- Mac中安装git后,终端运行git出错,提示安装Xcode
mac用户不使用Xcode安装git之后,默认安装路径是: /usr/local/git 但是在终端运行 git 命令时候的路径是: /usr/bin/git 当我们输入 git 命令时出现如下错误, ...
- Linux下时钟框架实践---一款芯片的时钟树配置
关键词:时钟.PLL.Mux.Divider.Gate.clk_summary等. 时钟和电源是各种设备的基础设施,整个时钟框架可以抽象为几种基本的元器件:负责提供晶振 Linux内核提供了良好的CC ...
- Python—kmeans算法学习笔记
一. 什么是聚类 聚类简单的说就是要把一个文档集合根据文档的相似性把文档分成若干类,但是究竟分成多少类,这个要取决于文档集合里文档自身的性质.下面这个图就是一个简单的例子,我们可以把不同的文档聚合 ...
- typeScript面对对象篇一
面向对象是typescript的核心部分,这里先介绍下面向对象的七大原则: 单一原则:一个类子负责一个职责. 里氏替换原则:子类可以在任何地方替换它的父类. 依赖倒置原则:代码要依赖于抽象的类,而不要 ...
- SpringMVC返回json数据的三种方式(转)
原文:https://blog.csdn.net/shan9liang/article/details/42181345# 1.第一种方式是spring2时代的产物,也就是每个json视图contro ...
- 控制结构(11): Continuation passing style(CPS)
// 上一篇:控制结构(10)指令序列(opcode) [注释]: 这个笔记系列需要告一个段落了,收尾部分整理下几个时髦(The New Old Things)结构. 后面打算开一个算法方面的,重新学 ...
- 【问题解决方案】ImportError: No module named 'openpyxl'/‘xlrd’
背景: 在jupyter notebook to_excle: 运行将dataframe保存为excel文件 df.to_excel('dataframe.xlsx') 时报错openpyxl rea ...
- [SimplePlayer] 6. 音频同步
音频的同步并不需要我们在程序实现.在设置好声道.采样率.音频格式后,程序只需要保证能一直提供音频数据就行,其余工作基本都由声卡实现.
- 进程间通信(队列、管道)、消费者模型和进程池(apply,apply_async,map)
一.队列(先进先出) 进程间通信:IPC(Inter-Process Communication) 队列是使用管道和锁定实现,所以Queue是多进程安全的队列,使用Queue可以实现多进程之间的数据传 ...
- openstack oslo.messaging库
openstack oslo.messaging库 2017年04月13日 22:13:25 li_101357 阅读数:1383 版权声明:本文为博主原创文章,未经博主允许不得转载. https ...