04、Spark Standalone集群搭建

大道至简(老徐) 2024-08-29 09:25:07 原文

04、Spark Standalone集群搭建

4.1 集群概述

独立模式是Spark集群模式之一，需要在多台节点上安装spark软件包，并分别启动master节点和worker节点。master节点是管理节点，负责和各worker节点通信，完成worker的注册与注销。worker节点是任务执行节点，通过worker节点孵化出执行器子进程来执行任务。

4.2 集群规划

这里使用4台主机部署Spark集群，主机名称分别是s101、s102、s103和s104。

s101					#Master节点

s102					#Worker节点

s103					#Worker节点

s104					#Worker节点

4.3 集群搭建

4.3.1 安装Spark软件包

按照前文安装spark软件包的方式分别在以上四台主机上安装Spark，注意目录和权限尽量保持一致，以便集群容易维护和管理。也可以将之前的Spark安装目录和环境变量文件分发到以上四台主机。具体安装步骤略。

4.3.2 配置hadoop软连接

在以上四台机的spark配置目录下，创建core-site.xml和hdfs-site.xml软连接文件指向hadoop的配置文件。

#进入配置目录

$>cd /soft/spark/conf

#创建软连接

$>ln -s /soft/hadoop/etc/hadoop/core-site.xml core-site.xml

$>ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml hdfs-site.xml

创建完成后，如下图所示：

4.3.3 修改slaves文件

只需要在master节点对该文件进行修改即可，但为了保持所有节点配置一致性，我们对所有节点都进行修改，或者修改后进行分发。slaves文件内容如下：

#使用如下命令进入slaves文件编辑模式

$>nano /soft/spark/conf/slaves

#输入如下内容，列出所有worker节点。

s102

s103

s104

4.3.4 配置JAVA_HOME环境变量

修改配置目录下spark-env.sh文件，指定JAVA_HOME环境变量。

#使用如下命令进入spark-env.sh文件编辑模式

$>nano /soft/spark/conf/spark-env.sh

#添加如下内容

...

export JAVA_HOME=/soft/jdk

...

编辑内容如下图所示：

4.4 启动集群

启动spark集群时，如果配置了hadoop配置文件，需要先启动hadoop集群，然后再启动Spark集群。由于Spark Standalone集群模式只是从hdfs读取文件，并不需要yarn的支持，因此只需要启动hadoop的hdfs相关进程即可。

#启动hadoop hdfs

$>/soft/hadoop/sbin/start-dfs.sh

#启动Spark集群

$>/soft/spark/sbin/start-all.sh

注意：Spark和Hadoop都有启动所有进程的脚本，并且都叫start-all.sh，因此再使用时一定要使用绝对路径。

查看进程结果如图：

4.5 查看webui

通过如下url地址访问spark webui：

http://s101:8080/

打开页面如下图所示：

04、Spark Standalone集群搭建的更多相关文章

Standalone集群搭建和Spark应用监控
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815920501530034696/ 承接上一篇文档<Spark词频前十的统计练习> Spark on ...
（二）win7下用Intelij IDEA 远程调试spark standalone 集群
关于这个spark的环境搭建了好久,踩了一堆坑,今天环境: WIN7笔记本 spark 集群(4个虚拟机搭建的) Intelij IDEA15 scala-2.10.4 java-1.7.0 版本 ...
ubuntu18.04 flink-1.9.0 Standalone集群搭建
集群规划 Master JobManager Standby JobManager Task Manager Zookeeper flink01 √ √ flink02 √ √ flink03 √ √ ...
Spark之集群搭建
注意,这种安装方式是集群方式:然后有常用两种运行模式: standalone , on yarn 区别就是在编写 standalone 与 onyarn 的程序时的配置不一样,具体请参照spar2中的 ...
spark standalone集群部署实践记录
本文记录了一次搭建spark-standalone模式集群的过程,我准备了3个虚拟机服务器,三个centos系统的虚拟机. 环境准备: -每台上安装java1.8 -以及scala2.11.x (x代 ...
一文读懂spark yarn集群搭建
文是超简单的spark yarn配置教程: yarn是hadoop的一个子项目,目的是用于管理分布式计算资源,在yarn上面搭建spark集群需要配置好hadoop和spark.我在搭建集群的时候有3 ...
(一) 从零开始搭建Spark Standalone集群环境搭建
本文主要讲解spark 环境的搭建主机配置 4核8线程,主频3.4G,16G内存虚拟环境: VMWare 虚拟环境系统:Ubuntu 14.10 虚拟机运行环境: jdk-1.7.0_79(64 ...
大数据-spark HA集群搭建
一.安装scala 我们安装的是scala-2.11.8 5台机器全部安装下载需要的安装包,放到特定的目录下/opt/workspace/并进行解压 1.解压缩 [root@master1 ~]# ...
linux平台 spark standalone集群使用 start-all，stop-all 管理集群的启动和退出
一.配置/etc/profile: 文件尾部增加以下内容: export SPARK_HOME=/home/spark/spark-2.2.0-bin-hadoop2.7 export PATH=$P ...

随机推荐

编译 OpenWrt/LEDE 基本过程
说明前段时间花 110 从闲鱼淘了个 Newifi D1,这个路由的 Soc 是 MT7621AT,性能强劲,于是又开始折腾编译固件了,重新记录一下编译基本过程. 步骤安装必要的软件包 sudo ...
java 在web应用中获取本地目录和服务器上的目录不一致的问题
先来讲讲我所遇到的问题.最近有个新的项目添加新的功能. 修改之后部署到服务器上面发现取到classpath目录跑到别的地方去了.在本地测试却正常. 当时毛的着火了.硬是想不懂什么问题. 终于发现了这个 ...
System.Collections.Generic.List<T> 与 System.Collections.ArrayList
[推荐] System.Collections.Generic.List<T> [原因] 泛型集合类List<T>在操作值类型的集合时可以不进行装箱/拆箱处理. 使得性能较 ...
洛谷1541（多维dp）
走格子拿分数,直接弄dp[i]是到了第i格的最大得分可以发现是假的. 于是此题设f[i][j][k][t]代表四种步伐各用了几次可以得到的最大得分,到达的点可以直接算出来,就好转移了. const i ...
实时同步sersync
1.1 sersync+rsync实现实时同步过程第一个历程:安装sersync软件将软件进行下载,上传到系统/server/tools目录中下载软件地址:https://github.com/ ...
IP地址概念
1.1 IP地址概念什么是IP地址:由32位二进制数组成,划分成4组,每组八位: 为了便于人类识别记忆,IP地址表现形式为 "点分十进制" 二进制数与十进制数的转换关系:00 ...
Idea如何设置代码超出长度限制时自动换行
在[File]-->[Settings]-->[Code Sytle]中勾选[Wrap on typing]选项
JDK Integer
1. public static int parseInt(String s, int radix) a. 充分考虑各种异常情况:字符串为空,带符号,进制出界,计算值出界 b. 计算时转换为负数进行处 ...
C语言一些易混淆的概念
①数组指针和指针数组 1. 数组指针用于指向一个数组,数组名是数组首元素的地址(数组名为数组首元素类型且指向首元素的指针,如int array[5] ,array为指向array[0]的指针且类型为i ...
js遍历table和gridview
//遍历table var tableObj = document.getElementById("tableName");var str = "";for(v ...