HA下的Spark集群工作原理解密

实验环境：
zookeeper-3.4.6
Spark：1.6.0
简介：
本篇博客将从以下几点组织文章：
一：Spark 构建高可用HA架构
二：动手实战构建高可用HA
三：提交程序测试HA

一：Spark 构建高可用HA架构

Spark本身是Master和Slave,而这这里的
Master是指Spark资源调度和分配。负责整个集群的资源调度和分配。
Worker是管理单个节点的资源。
这里面的资源主要指：内存和CPU。
1. Master-Slave模型很容易出现单节点故障的问题。所以为了应用这个问题，解决办法是通过Zookeeper来解决，在实际开发的时候一般都是三台，一个active，两个standby，当一个active挂掉后，Zookeeper会根据自己的选举机制，从standby的Master选举出来一个作为leader。这个leader从standby模式变成active模式的话，做的最重要的事：是从Zookeeper中获取整个集群的状态信息，恢复整个集群的Worker,Driver,Application,这样才能接管整个集群的工作，而只有它成功完成之后，leader的Master才可以恢复成active的Master，才可以对外继续提供服务(作业的提交和资源的申请请求。)，当active的master挂掉以后，standby的master变成active的master之前我们是不可以向集群提交新的程序。但是在Zookeeper切换期间，在这个时间集群的运行时正常的，例如，一个程序依然可以正常运行。因为程序在运行之前已经向Master申请资源了，Driver与我们所有worker分配的executors进行通信，这个过程一般不需要master参与，除非executor有故障。Master是粗粒度分配，粗粒度的好处当Master出故障以后，可以让Worker和executor交互完成计算。
2. Zookeper包含的内容有哪些:所有的Worker，Driver(代表了正在运行的程序)，Application(应用程序)

二：动手实战构建高可用HA
3. 准备好Zookeeper安装包，下载zookeeper-3.4.6.tar.gz地址如下：

http://apache.fayea.com/zookeeper/zookeeper-3.4.6/

将Zookeeper软件包移动到/usr/local/spark。
解压zookeeper.

[root@Master spark]# tar -zxvf zookeeper-3.4.6.tar.gz

在bashrc中添加zookeeper环境变量

export ZOOKEEPER_HOME=/usr/local/spark/zookeeper-3.4.6

export PATH=/usr/local/eclipse/eclipse:/usr/local/idea/idea-IC-141.1532.4/bin:${MAVEN_HOME}/bin:${FLUME_HOME}/bin:${SPARK_HOME}/bin:${SPARK_HOME}/sbin/sbin::${SCALA_HOME}/bin:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${HIVE_HOME}/bin:${ZOOKEEPER_HOME}/bin:$PATH

7. 到zookeeper的conf目录下，将zoo_sample.cfg拷贝一份，因为在执行的时候zoo_sample.cfg会被删除，拷贝改名zoo.cfg，对zoo.cfg进行配置。

[root@Master conf]# cp zoo_sample.cfg zoo.cfg

8.  配置文件

[root@Master conf]# vim zoo.cfg

dataDir=/tmp/zookeeper

dataDir=/usr/local/spark/zookeeper-3.4.6/data

dataLogDir=/usr/local/spark/zookeeper-3.4.6/logs

server.0=Master:2888:3888

server.1=Worker1:2888:3888

server.2=Worker2:2888:3888

在/usr/local/spark/zookeeper-3.4.6/下创建data目录

[root@Master zookeeper-3.4.6]# mkdir data

10.  在/usr/local/spark/zookeeper-3.4.6/data 下创建标记每台机器的ID，最简单的方法：

[root@Master data]# echo 0>myid

11. 利用scp命令将在Master配置的zookeeper,拷贝到Worker1和Worker2节点上。

12. 在spark-env.sh中配置Zookeeper信息，注意此时的Master_IP是master就不需要了，因为zookeeper中配置了.

-Dspark.deploy.recoveryMode：    表明整个集群的恢复和维护都是Zookeeper.

-Dspark.deploy.zookeeper.url:   所有做HA机器，其中端口2181是默认端口。

-Dspark.deploy.zookeeper.dir：   指定Spark在Zookeeper注册的信息

export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60

export SCALA_HOME=/usr/local/scala/scala-2.10.4

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0

export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.6.0/etc/hadoop

//export SPARK_MASTER_IP=Master 这个IP就不需要了。

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=Master:2181,Worker1:2181,Worker2:2181 -Dspark.deploy.zookeeper.dir=/spark"

export SPARK_WORKER_MEMORY=2g

export SPARK_EXECUTOR_MEMORY=2g

export SPARK_DRIVER_MEMORY=2G

export SPARK_WORKER_CORES=2

13. 至此就全部安装完成了，启动Master，Worker1和Worker2节点上的Zookeeper.

[root@Worker1 bin]# zkServer.sh start

JMX enabled by default

Using config: /usr/local/spark/zookeeper-3.4.6/bin/../conf/zoo.cfg

Starting zookeeper ... STARTED

[root@Worker2 bin]# zkServer.sh start

JMX enabled by default

Using config: /usr/local/spark/zookeeper-3.4.6/bin/../conf/zoo.cfg

Starting zookeeper ... STARTED

[root@Master bin]# zkServer.sh start

JMX enabled by default

Using config: /usr/local/spark/zookeeper-3.4.6/bin/../conf/zoo.cfg

Starting zookeeper ... STARTED

14. jps查看进程，三台机器均启动成功。

[root@Master bin]# jps

4005 Jps

3685 SecondaryNameNode

3978 QuorumPeerMain

[root@Master bin]# jps

4005 Jps

3685 SecondaryNameNode

3978 QuorumPeerMain

[root@Worker2 Desktop]# jps

3194 DataNode

3453 QuorumPeerMain

3503 Jps

15. 启动Spark集群。

[root@Master sbin]# ./start-all.sh

starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/spark-1.6.0-bin-hadoop2.6/logs/spark-root-org.apache.spark.deploy.master.Master-1-Master.out

Worker2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-1.6.0-bin-hadoop2.6/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-Worker2.out

Worker1: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-1.6.0-bin-hadoop2.6/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-Worker1.out

16. 但是此时Worker1和Worker2上的进程是Worker，而Master进程是master为什么？

因为在Spark集群配置中，slaves文件中我们此时指定了Worker节点，因此在启动的时候就会默认根据我们的配置启动Spark集群。

[root@Master sbin]# jps

4067 Master

3685 SecondaryNameNode

3978 QuorumPeerMain

4110 Jps

[root@Master sbin]# ssh Worker1

Last login: Sat May  7 17:29:50 2016 from master

[root@Worker1 ~]# jps

2881 Jps

2484 DataNode

2724 QuorumPeerMain

2827 Worker

[root@Worker1 ~]# exit

logout

Connection to Worker1 closed.

[root@Master sbin]# ssh Worker2

Last login: Sat May  7 17:24:00 2016 from worker1

[root@Worker2 ~]# jps

3569 Worker

3194 DataNode

3644 Jps

3453 QuorumPeerMain

17. 到Worker1和Worker2上手动启动Master.

[root@Worker1 sbin]# ./start-master.sh

starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/spark-1.6.0-bin-hadoop2.6/logs/spark-root-org.apache.spark.deploy.master.Master-1-Worker1.out

[root@Worker1 ~]# jps

2484 DataNode

2724 QuorumPeerMain

2952 Master

2827 Worker

3052 Jps

[root@Worker2 sbin]# ./start-master.sh

starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/spark-1.6.0-bin-hadoop2.6/logs/spark-root-org.apache.spark.deploy.master.Master-1-Worker2.out

[root@Worker2 sbin]# jps

3569 Worker

3704 Master

3194 DataNode

3772 Jps

3453 QuorumPeerMain

18. 通过web界面查看,Master是ALIVE.

而Worker1和Worker2的Status是STANDY(备胎)状态。

三：提交程序测试HA
1. 以集群的方式启动Spark-shell。因为此时受Zookeeper管理，因此在集群启动的时候，需要将三台HA中的Master都要写上。此时程序运行的时候肯定要向Zookeeper找active级别的Master。

[root@Master bin]# ./spark-shell --master spark://Master:7077,Worker1:7077,Worker2:7077

2.  启动spark-shell的时候通过日志可以看到，应用程序会连接三台Master.

16/05/07 10:28:20 INFO client.AppClient$ClientEndpoint: Connecting to master spark://Master:7077...

16/05/07 10:28:20 INFO client.AppClient$ClientEndpoint: Connecting to master spark://Worker1:7077...

16/05/07 10:28:20 INFO client.AppClient$ClientEndpoint: Connecting to master spark://Worker2:7077...

3.  关闭Master节点上的master进程。

[root@Master sbin]# ./stop-master.sh

stopping org.apache.spark.deploy.master.Master

Zookeeper切换master，这个时候需要将Master上的master进行恢复给Worker1，因此需要延迟一段时间。

scala> 16/05/07 10:34:12 WARN client.AppClient$ClientEndpoint: Connection to Master:7077 failed; waiting for master to reconnect...

16/05/07 10:34:12 WARN cluster.SparkDeploySchedulerBackend: Disconnected from Spark cluster! Waiting for reconnection...

16/05/07 10:34:12 WARN client.AppClient$ClientEndpoint: Connection to Master:7077 failed; waiting for master to reconnect...

16/05/07 10:35:05 INFO client.AppClient$ClientEndpoint: Master has changed, new master is at spark://Worker1:7077

4.  刷新web端，此时就无法链接上master进程。

5. 查看Worker1的web端信息，神奇的事发生了，此时我们可以看到之前Master节点上的master信息.

HA下的Spark集群工作原理解密的更多相关文章

keepalive集群工作原理及应用
author:JevonWei 版权声明:原创作品集群工作原理一.集群基础 1.系统的扩展方式 scale up向上扩展:提高单台服务器的性能 scale out向外扩展:多台服务器联合起来满足同 ...
LVS 集群工作原理
1. 集群:集群(cluster )就是一组计算机,它们作为一个整体向用户提供一组网络资源,单个计算机系统就是一个集群节点(node). 2. 集群种类: <1>. 负载均衡集群(Load ...
[Elasticsearch] 集群工作 - 第二部分
本文翻译自Elasticsearch官方指南的life inside a cluster一章. 添加故障转移(Failover)功能仅仅执行一个节点意味着可能存在着单点失败(Single point ...
zhihu spark集群,书籍,论文
spark集群中的节点可以只处理自身独立数据库里的数据,然后汇总吗? 修改我将spark搭建在两台机器上,其中一台既是master又是slave,另一台是slave,两台机器上均装有独立的mongo ...
Spark集群高可用HA配置
本文中的Spark集群包含三个节点,分别是Master,Worker1,Worker2. 1.在Master机器上安装Zookeeper,本文安装在/usr/etc目录下 2.在Master机器配置Z ...
使用Kafka的一些简单介绍: 1集群 2原理 3 术语
目录第一节 Kafka 集群 Kafka 集群搭建 Kafka 集群快速搭建第二节集群管理工具集群管理工具集群 Issues 第三节使用命令操纵集群第四节 Kafka 术语说明第五节 ...
HA分布式集群配置三 spark集群配置
(一)HA下配置spark 1,spark版本型号:spark-2.1.0-bin-hadoop2.7 2,解压,修改配置环境变量 tar -zxvf spark-2.1.0-bin-hadoop2. ...
Spark入门：第2节 Spark集群安装：1 - 3；第3节 Spark HA高可用部署：1 - 2
三. Spark集群安装 3.1 下载spark安装包下载地址spark官网:http://spark.apache.org/downloads.html 这里我们使用 spark-2.1.3-bi ...
Spark 在Hadoop HA下配置HistoryServer问题
我的Spark机群是部署在Yarn上的,因为之前Yarn的部署只是简单的完全分布式,但是后来升级到HA模式,一个主NN,一个备NN,那么Spark HistoryServer的配置也需要相应的做修改, ...

随机推荐

Service Fabric —— Stateful Service 概念
作者:潘罡 (Van Pan) @ Microsoft 上节中我们谈到了Service Fabric最底层的两个概念,一个是针对硬件层面而言的Node Type和Node.另一个是Applicatio ...
python中的协程并发
python asyncio 网络模型有很多中,为了实现高并发也有很多方案,多线程,多进程.无论多线程和多进程,IO的调度更多取决于系统,而协程的方式,调度来自用户,用户可以在函数中yield一个状态 ...
Java基础-面向接口（interface）编程
Java基础-面向接口(interface)编程作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.接口的概念接口是功能的集合,同样可看做是一种数据类型,是比抽象类更为抽象的“类 ...
科学计算三维可视化---Mayavi入门（Mayavi库的基本元素和绘图实例）
一:Mayavi库的基本元素 .处理图形可视化和图形操作的mlab模块 .操作管线对象,窗口对象的api (一)mlab模块 (二)mayavi的api 二:快速绘图实例 (一)mlab.mesh的使 ...
关于Linux用户名
1.创建/删除/修改用户名 useradd 选项用户名其中各选项含义如下: 代码:-c comment 指定一段注释性描述.-d 目录指定用户主目录,如果此目录不存在,则同时使用-m选项,可以创建 ...
python3使用stmplib发送邮件
代码如下: import smtplib from email.mime.text import MIMEText from email.header import Header from email ...
JAVA编程之——反射Reflect
说到反射,首先要说一下Java中的类和对象. 在Java中万事万物皆对象(有两个例外,一个是普通数据类型,另一个是静态的东西,静态的东西不是对象的,是属于类的). 在Java中,类也是对象,类是ja ...
20155325 2016-2017-2 《Java程序设计》第7周学习总结
教材学习内容总结名称作用 Calendar 设定时间日期等字段 add() 改变Calendar的时间 roll() 针对日期中某个字段加减 getDefault() 取得默认时区信息教材学习中 ...
UITableView--文档版
CHENYILONG Blog UITableView Fullscreen UITableView技术博客http://www.cnblogs.com/ChenYilong/ 新浪微博http: ...
在mac环境下用QT使用OpenGL，glut，glfw
只需要在新建工程中.pro文件中添加: #opengl glut LIBS+= -framework opengl -framework glut 就可以使用glut了. 继续添加: ##glfw L ...

HA下的Spark集群工作原理解密

HA下的Spark集群工作原理解密的更多相关文章

随机推荐

热门专题