Spark集群的安装及高可用配置

spark官网学习文档

Spark集群的安装及高可用配置
前期需求：Hadoop和Scala必须已经安装完成
步骤：
①进入spark下载网站中https://spark.apache.org/downloads.html
（红框的部分是选择tar包的版本，选择完毕之后点击绿框的部分下载）

②下载完成之后用xftp将安装包传服务器的opt文件夹下。然后用tar命令解压。解压完成之后删除安装包。再然后进入/etc/profile配置环境变量。加入下面的两条语句，然后保存并退出用source命令使其生效。

export SPARK_HOME=/opt/spark-2.4.0-bin-hadoop2.7
在export PATH的末尾加上 :

SPARK_HOME/bin:

SPARKHOME/bin:SPARK_HOME/sbin

③进入/opt/spark-2.4.0-bin-hadoop2.7/conf文件夹下，执行下面两条语句

cp  spark-env.sh.template  spark-env.sh

cp  slaves.template  slaves

④用vi命令分别修改spark-env.sh和slaves

spark-env.sh的末尾添加如下语句

前三个都指的是对应的安装目录，这个不多赘述，后面五个的意思如下

HADOOP_CONF_DIR：hadoop集群的配置文件的目录 

SPARK_MASTER_IP：spark集群的Master节点的ip地址 

SPARK_WORKER_MEMORY：每个worker节点能够最大分配给exectors的内存大小 

SPARK_WORKER_CORES：每个worker节点所占有的CPU核数目 

SPARK_WORKER_INSTANCES：每台机器上开启的worker节点的数目

slaves的末尾修改为（工作者节点，我这里选择2号和3号机，1号作为Master）

修改$SPARK_HOME/conf/spark_defaults.conf
在其尾部添加

spark.executor.extraClassPath=/opt/flume_tar_dir/libs/*

  spark.driver.extraClassPath=/opt/flume_tar_dir/libs/*

主要是为了spark-submit 提交时不用指定jars，但是需要自己在idea打jar包时指定类打包，将打包好的jar传入该入境下，提交时不用写–class
例：spark-submit --master spark://hadoop1:7077,hadoop2:7077 OfflineProject.jar

配置Spark高可用

vi /usr/etc/spark-2.3.0-bin-hadoop2.7/conf/spark-evn.sh
　　
　　修改内容如下：
　　
　　#export SPARK_MASTER_IP=Master #注释掉该行，Spark自己管理集群的状态　　
　　
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=Master:2181,Worker1:2181,Worker2:2181 -Dspark.deploy.zookeeper.dir=/spark" #通过Zookeeper管理集群状态
/spark 自己定义一个保存数据的路径

实现高可用得先在前两个节点上启动 spark-master.sh

然后停掉一个节点访问8080 查看状态

⑤将/etc/profile以及Spark文件夹用scp命令分发到其他两台机子上。发送过去之后到其他两台机子的窗口里，用source命令使环境变量生效

⑥回到一号机，开启Zookeeper，然后执行start-dfs.sh命令（开不开zookeeper其实没什么影响，也没要求说必须开，但是作为平常的习惯还是开启了Zk）。执行之后进入/opt/spark-2.4.0-bin-hadoop2.7文件夹下，执行 ./sbin/start-all.sh（进入这里执行的目的是为了防止和hadoop里的同名文件冲突）

然后查看三台机子的节点（多了一个Master和两个Worker）

⑦进入Master所在机器的8080端口，可以查看Worker的信息

⑧在Master机器上执行 spark-shell命令。会出现如下语句

同样，在开启之后，也可以访问4040端口查看当前任务

至此，Spark集群安装就算圆满完成了。

Spark集群的安装及高可用配置的更多相关文章

Apache shiro集群实现（六）分布式集群系统下的高可用session解决方案---Session共享
Apache shiro集群实现 (一) shiro入门介绍 Apache shiro集群实现 (二) shiro 的INI配置 Apache shiro集群实现 (三)shiro身份认证(Shiro ...
Apache shiro集群实现（五）分布式集群系统下的高可用session解决方案
Apache shiro集群实现 (一) shiro入门介绍 Apache shiro集群实现 (二) shiro 的INI配置 Apache shiro集群实现 (三)shiro身份认证(Shiro ...
Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境
目标配置一个spark standalone集群 + akka + kafka + scala的开发环境. 创建一个基于spark的scala工程,并在spark standalone的集群环境中运 ...
Spark系列—01 Spark集群的安装
一.概述关于Spark是什么.为什么学习Spark等等,在这就不说了,直接看这个:http://spark.apache.org, 我就直接说一下Spark的一些优势: 1.快与Hadoop的Ma ...
openstack高可用集群21-生产环境高可用openstack集群部署记录
第一篇集群概述 keepalived + haproxy +Rabbitmq集群+MariaDB Galera高可用集群部署openstack时使用单个控制节点是非常危险的,这样就意味着单个节 ...
k8s集群中部署Rook-Ceph高可用集群
先决条件为确保您有一个准备就绪的 Kubernetes 集群Rook,您可以按照这些说明进行操作. 为了配置 Ceph 存储集群,至少需要以下本地存储选项之一: 原始设备(无分区或格式化文件系统) ...
Docker namespace,cgroup,镜像构建,数据持久化及Harbor安装、高可用配置
1.Docker namespace 1.1 namespace介绍 namespace是Linux提供的用于分离进程树.网络接口.挂载点以及进程间通信等资源的方法.可以使运行在同一台机器上的不同服务 ...
kubeadm安装集群系列-2.Master高可用
Master高可用安装 VIP负载均衡可以使用haproxy+keepalive实现,云上用户可以使用对应的ULB实现准备kubeadm-init.yaml文件 apiVersion: kubead ...
HAProxy+keepalived+MySQL 实现MHA中slave集群负载均衡的高可用
HAProxy+keepalived+MySQL实现MHA中slave集群的负载均衡的高可用 Ip地址划分: 240 mysql_b2 242 mysql_b1 247 haprox ...
Cluster基础(四)：创建RHCS集群环境、创建高可用Apache服务
一.创建RHCS集群环境目标: 准备四台KVM虚拟机,其三台作为集群节点,一台安装luci并配置iSCSI存储服务,实现如下功能: 使用RHCS创建一个名为tarena的集群集群中所有节点均需要挂 ...

随机推荐

前端使用 Konva 实现可视化设计器（18）- 素材嵌套 - 加载阶段
本章主要实现素材的嵌套(加载阶段)这意味着可以拖入画布的对象,不只是图片素材,还可以是嵌套的图片和图形. 请大家动动小手,给我一个免费的 Star 吧~ 大家如果发现了 Bug,欢迎来提 Issue ...
单细胞测序最好的教程（八）: 细胞类型自动注释-1｜基于marker的自动注释
作者按本章节主要讲解了基于marker的自动注释方法,一般来说,我会先自动注释,再手动去确认marker,这是因为,对于一个陌生的组织,我对marker是不了解的,自动注释可以帮助我快速熟悉细胞类型 ...
java一些位运算的方法
记录一些java位运算的方法 Integer.bitCount:用于记录一个int输转化成二进制之后里面包含了多少个1. 使用例题为leetcode2859 切记下面规则要先转二进制 &相同位 ...
自制基于simplefoc大功率驱动板想法的由来，同时欢迎有相同兴趣的F友一起来玩。。。
前一阵子,偶然在B站上看了一个simplefoc的介绍视频,代码简洁.算法精妙让人佩服,更让人佩服的是:开源!遂!搜索之!不搜不知道一搜吓一跳,发现太OUT了,原来玩这个算法的人这么多,让我这个整天沉 ...
excel一次性粘贴2万行数据
测试导入文件功能中,会出现需要验证导入大批量数据文件的情况,怎么样让文件快速从1行数据变成2万行数据呢,以下讲解方法: 1.如下原文件只有2行数据,第一行是标题第二行是数据 2. 选中需要复制的第二行 ...
对比python学julia（第四章：人工智能）--（第四节）绘画大师
1.1. 项目简介所谓图像风格迁移,是利用深度学习技术,将一幅风格图像输人卷积神经网络提取风格特征,再将其应用到另一幅内容图像上,从而生成一幅与风格囝像相仿的新图像.如果选取绘画大师的作品作为风格 ...
【Java】JDBC Part2 工具类封装实现
JDBC 工具类封装实现 - 注册和配置都放在静态代码块完成 - 静态方法获取连接,和释放资源 - 本类不产生实例 - 5版本 + 已经可以实现无驱动注册,所以驱动部分注释了 package cn.d ...
NVIDIA Omniverse Audio2Face的安装
下载 NVIDIA Omniverse 并运行安装程序 - 安装后,打开 Omniverse Launcher - 在"Apps"(应用)部分中找到 Omniverse Audio ...
如何拉取指定CPU架构的并且指定ubuntu版本的docker镜像
拉取不同CPU架构下ubuntu22.04镜像: aarch64 (arm v8) CPU架构: docker pull --platform=linux/aarch64 ubuntu:22.04 x ...
nginx实战教程
大纲为了让大家更快的学会,该博客中的内容录制成了视频课程:马上在线学习 1.什么是nginx Nginx是一款高性能的http 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器. 由 ...

Spark集群的安装及高可用配置

Spark集群的安装及高可用配置的更多相关文章

随机推荐

热门专题