04、Spark Standalone集群搭建

大道至简(老徐) 2024-08-29 09:25:07 原文

04、Spark Standalone集群搭建

4.1 集群概述

独立模式是Spark集群模式之一，需要在多台节点上安装spark软件包，并分别启动master节点和worker节点。master节点是管理节点，负责和各worker节点通信，完成worker的注册与注销。worker节点是任务执行节点，通过worker节点孵化出执行器子进程来执行任务。

4.2 集群规划

这里使用4台主机部署Spark集群，主机名称分别是s101、s102、s103和s104。

s101					#Master节点

s102					#Worker节点

s103					#Worker节点

s104					#Worker节点

4.3 集群搭建

4.3.1 安装Spark软件包

按照前文安装spark软件包的方式分别在以上四台主机上安装Spark，注意目录和权限尽量保持一致，以便集群容易维护和管理。也可以将之前的Spark安装目录和环境变量文件分发到以上四台主机。具体安装步骤略。

4.3.2 配置hadoop软连接

在以上四台机的spark配置目录下，创建core-site.xml和hdfs-site.xml软连接文件指向hadoop的配置文件。

#进入配置目录

$>cd /soft/spark/conf

#创建软连接

$>ln -s /soft/hadoop/etc/hadoop/core-site.xml core-site.xml

$>ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml hdfs-site.xml

创建完成后，如下图所示：

4.3.3 修改slaves文件

只需要在master节点对该文件进行修改即可，但为了保持所有节点配置一致性，我们对所有节点都进行修改，或者修改后进行分发。slaves文件内容如下：

#使用如下命令进入slaves文件编辑模式

$>nano /soft/spark/conf/slaves

#输入如下内容，列出所有worker节点。

s102

s103

s104

4.3.4 配置JAVA_HOME环境变量

修改配置目录下spark-env.sh文件，指定JAVA_HOME环境变量。

#使用如下命令进入spark-env.sh文件编辑模式

$>nano /soft/spark/conf/spark-env.sh

#添加如下内容

...

export JAVA_HOME=/soft/jdk

...

编辑内容如下图所示：

4.4 启动集群

启动spark集群时，如果配置了hadoop配置文件，需要先启动hadoop集群，然后再启动Spark集群。由于Spark Standalone集群模式只是从hdfs读取文件，并不需要yarn的支持，因此只需要启动hadoop的hdfs相关进程即可。

#启动hadoop hdfs

$>/soft/hadoop/sbin/start-dfs.sh

#启动Spark集群

$>/soft/spark/sbin/start-all.sh

注意：Spark和Hadoop都有启动所有进程的脚本，并且都叫start-all.sh，因此再使用时一定要使用绝对路径。

查看进程结果如图：

4.5 查看webui

通过如下url地址访问spark webui：

http://s101:8080/

打开页面如下图所示：

04、Spark Standalone集群搭建的更多相关文章

Standalone集群搭建和Spark应用监控
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815920501530034696/ 承接上一篇文档<Spark词频前十的统计练习> Spark on ...
（二）win7下用Intelij IDEA 远程调试spark standalone 集群
关于这个spark的环境搭建了好久,踩了一堆坑,今天环境: WIN7笔记本 spark 集群(4个虚拟机搭建的) Intelij IDEA15 scala-2.10.4 java-1.7.0 版本 ...
ubuntu18.04 flink-1.9.0 Standalone集群搭建
集群规划 Master JobManager Standby JobManager Task Manager Zookeeper flink01 √ √ flink02 √ √ flink03 √ √ ...
Spark之集群搭建
注意,这种安装方式是集群方式:然后有常用两种运行模式: standalone , on yarn 区别就是在编写 standalone 与 onyarn 的程序时的配置不一样,具体请参照spar2中的 ...
spark standalone集群部署实践记录
本文记录了一次搭建spark-standalone模式集群的过程,我准备了3个虚拟机服务器,三个centos系统的虚拟机. 环境准备: -每台上安装java1.8 -以及scala2.11.x (x代 ...
一文读懂spark yarn集群搭建
文是超简单的spark yarn配置教程: yarn是hadoop的一个子项目,目的是用于管理分布式计算资源,在yarn上面搭建spark集群需要配置好hadoop和spark.我在搭建集群的时候有3 ...
(一) 从零开始搭建Spark Standalone集群环境搭建
本文主要讲解spark 环境的搭建主机配置 4核8线程,主频3.4G,16G内存虚拟环境: VMWare 虚拟环境系统:Ubuntu 14.10 虚拟机运行环境: jdk-1.7.0_79(64 ...
大数据-spark HA集群搭建
一.安装scala 我们安装的是scala-2.11.8 5台机器全部安装下载需要的安装包,放到特定的目录下/opt/workspace/并进行解压 1.解压缩 [root@master1 ~]# ...
linux平台 spark standalone集群使用 start-all，stop-all 管理集群的启动和退出
一.配置/etc/profile: 文件尾部增加以下内容: export SPARK_HOME=/home/spark/spark-2.2.0-bin-hadoop2.7 export PATH=$P ...

随机推荐

System.Collections.Generic.List<T> 与 System.Collections.ArrayList
[推荐] System.Collections.Generic.List<T> [原因] 泛型集合类List<T>在操作值类型的集合时可以不进行装箱/拆箱处理. 使得性能较 ...
cf Permute Digits(dfs)
C. Permute Digits You are given two positive integer numbers a and b. Permute (change order) of the ...
MessageFormat 格式化String
public static String buildFailureString(AtomicInteger count, String cause) { return MessageFormat.fo ...
jinkens + svn 把代码更新到本地在运行。（方法比较笨，只是想实现自己的想法。把代码更新下来在运行。）
jinkens + svn 把代码更新到本地在运行.
eclipse中找不到base64包的解决方法
eclipse中找不到base64包的解决方法 2017年08月26日 11:05:26 yzp_leo 阅读数:634 标签: javaeclipsebase64更多个人分类: 日记 ecli ...
sscanf（）分割字符数组
sscanf与scanf类似,都是用于输入的,只是后者以键盘(stdin)为输入源,前者以固定字符串为输入源. 头文件: #include<stdio.h> 或者 #include < ...
Turn.js 实现翻书效果
Turn.js的官方网址: http://www.turnjs.com/ 官网上运行demo如下,大家主要关注是属性使用: <!DOCTYPE html> <html> &l ...
CSS3 中图标编码 icon——Font-Awesome
在做网页开发中经常会用到图标,原来经常会到一些icon网站上找导入到项目中,现在Font-Awesome中的有很多的图标,并且还在不断更新现在Font-Awesome最新版本是4.7,下载出来的Fo ...
浅谈jrebel
有个同事提高个jrebel的工具,提起tomcat的热部署方案. jrebel是一款收费的JVM级的热部署工具包. JVM级的热部署也就是说,可以不重启JVM,让修改或添加的类加载到JVM中. 加载器 ...
poi 详细demo
import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IO ...