Spark ZooKeeper数据恢复

Spark使用ZooKeeper进行数据恢复的逻辑过程如下：

1.初始化：创建<CuratorFramwork,LeaderLatch,LeaderLatchListener>用于选举

创建CuratorFramework用于数据恢复。

2.选举：启动LeaderLatch，Curator开始接管选举工作了。

3.恢复：当某个Master被选举为Leader后，就会调用LeaderLatchListener的isLeader()方法，这个方法内部开始进行逻辑上的数据恢复工作，具体细节是这样的，向Master发送ElectedLeader消息，Master从ZooKeeperPersistenceEngine中读取数据到内存缓存中，ZooKeeperPersistenceEngine从ZooKeeper的/spark/master_status/目录下读取storedApps，storedDrivers，storedWorkers。

下面来进行一下源码的走读，方便日后回忆。

1.初始化：Master启动时创建ZooKeeperLeaderElectionAgent和 ZooKeeperPersistenceEngine，前者用于选举，后者用于数据恢复。

Master初始化源码如下：

 case "ZOOKEEPER" =>

        logInfo("Persisting recovery state to ZooKeeper")

        val zkFactory =

          new ZooKeeperRecoveryModeFactory(conf, SerializationExtension(context.system))

        (zkFactory.createPersistenceEngine(), zkFactory.createLeaderElectionAgent(this))

private[master] class ZooKeeperRecoveryModeFactory(conf: SparkConf, serializer: Serialization)

  extends StandaloneRecoveryModeFactory(conf, serializer) {

  def createPersistenceEngine(): PersistenceEngine = {

    new ZooKeeperPersistenceEngine(conf, serializer)

  }

  def createLeaderElectionAgent(master: LeaderElectable): LeaderElectionAgent = {

    new ZooKeeperLeaderElectionAgent(master, conf)

  }

}

private[master] class ZooKeeperPersistenceEngine(conf: SparkConf, val serialization: Serialization)

  extends PersistenceEngine

  with Logging {

  private val WORKING_DIR = conf.get("spark.deploy.zookeeper.dir", "/spark") + "/master_status"

  //创建zookeeper客户端

  private val zk: CuratorFramework = SparkCuratorUtil.newClient(conf)

  //创建WORKING_DIR目录

  SparkCuratorUtil.mkdir(zk, WORKING_DIR)

}

创建ZooKeeperLeaderElectionAgent时会创建用于选举的CuratorFramwork，LeaderLatch，LeaderLatchListener。其中的LeaderLatch用于选举Leader，当某个LeaderLatch被选举为Leader之后，就会调用对应的LeaderLatchListener的isLeader()，如下：

private[master] class ZooKeeperLeaderElectionAgent(val masterActor: LeaderElectable,

    conf: SparkConf) extends LeaderLatchListener with LeaderElectionAgent with Logging  {

  val WORKING_DIR = conf.get("spark.deploy.zookeeper.dir", "/spark") + "/leader_election"

  private var zk: CuratorFramework = _

  private var leaderLatch: LeaderLatch = _

  private var status = LeadershipStatus.NOT_LEADER

  start()

  private def start() {

    logInfo("Starting ZooKeeper LeaderElection agent")

    zk = SparkCuratorUtil.newClient(conf)

    leaderLatch = new LeaderLatch(zk, WORKING_DIR)

    leaderLatch.addListener(this)

    leaderLatch.start()

  }

2.选举，调用LeaderLatch的start开始进行选举

3.数据恢复：如果某个master被成功选举为alive master，那么会调用isLeader()。这个方法内部会向Master发送ElectedLeader消息，然后Master会从ZookeeperPersistenceEngin中也就是ZooKeeper中读取storedApps，storedDrivers，storedWorkers并将他们恢复到内存缓存中去。

  override def isLeader() {

    synchronized {

      // could have lost leadership by now.

      if (!leaderLatch.hasLeadership) {

        return

      }

      logInfo("We have gained leadership")

      updateLeadershipStatus(true)

    }

  }

  private def updateLeadershipStatus(isLeader: Boolean) {

    if (isLeader && status == LeadershipStatus.NOT_LEADER) {

      status = LeadershipStatus.LEADER

      masterActor.electedLeader()

    } else if (!isLeader && status == LeadershipStatus.LEADER) {

      status = LeadershipStatus.NOT_LEADER

      masterActor.revokedLeadership()

    }

  }

开始真正的数据恢复工作：

  case ElectedLeader => {

      val (storedApps, storedDrivers, storedWorkers) = persistenceEngine.readPersistedData()

      state = if (storedApps.isEmpty && storedDrivers.isEmpty && storedWorkers.isEmpty) {

        RecoveryState.ALIVE

      } else {

        RecoveryState.RECOVERING

      }

      logInfo("I have been elected leader! New state: " + state)

      if (state == RecoveryState.RECOVERING) {

        beginRecovery(storedApps, storedDrivers, storedWorkers)

        recoveryCompletionTask = context.system.scheduler.scheduleOnce(WORKER_TIMEOUT millis, self,

          CompleteRecovery)

      }

    }

持久化数据存储在ZooKeeper中的/spark/master_status目录下。以app为例，当向ZooKeeperPersistenceEngine中写入app时，假设这个appId是1，那么就会创建一个/spark/master_status/app_1的持久化节点，节点数据内容就是序列化的app对象。

/spark/master_status

/app_appid

/worker_workerId

/driver_driverId

Spark ZooKeeper数据恢复的更多相关文章

hadoop+yarn+hbase+storm+kafka+spark+zookeeper)高可用集群详细配置
配置 hadoop+yarn+hbase+storm+kafka+spark+zookeeper 高可用集群,同时安装相关组建:JDK,MySQL,Hive,Flume 文章目录环境介绍节点介绍 ...
最新hadoop+hbase+spark+zookeeper环境安装（vmmare下）
说明:我这里安装的版本是hadoop2.7.3,hbase1.2.4,spark2.0.2,zookeeper3.4.9 (安装包:链接:http://pan.baidu.com/s/1c25hI4g ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
HADOOP+SPARK+ZOOKEEPER+HBASE+HIVE集群搭建(转)
原文地址:https://www.cnblogs.com/hanzhi/articles/8794984.html 目录引言目录一环境选择 1集群机器安装图 2配置说明 3下载地址二集群的相关 ...
阿里云ECS hadoop+spark+zookeeper+hive code-server 集群搭建
懒得重新排版然后发到博客了.用在线文档看吧 https://www.kdocs.cn/l/srV6o8rABW9V 用线上IDE(code-server)写scala的时候,出现BUG可以参考下面两篇 ...
Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现
如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,Single Point of Failure).Spark可以 ...
Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源代码实现
假设Spark的部署方式选择Standalone,一个採用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,Single Point of Failure).Spark能够 ...
【分布式】Zookeeper数据与存储
一.前言前面分析了Zookeeper对请求的处理,本篇博文接着分析Zookeeper中如何对底层数据进行存储,数据存储被分为内存数据存储于磁盘数据存储. 二.数据与存储 2.1 内存数据 Zooke ...
spark HA 安装配置和使用（spark1.2-cdh5.3）
安装环境如下: 操作系统:CentOs 6.6 Hadoop 版本:CDH-5.3.0 Spark 版本:1.2 集群5个节点 node01~05 node01~03 为worker. node04. ...

随机推荐

bootstrap 布局（收藏/摘抄）
bootstrap 12栅格布局
剑指Offer 数组中只出现一次的数字
题目描述一个整型数组里除了两个数字之外,其他的数字都出现了两次.请写程序找出这两个只出现一次的数字. 思路: 因为有2个数字只出现了一次,而其他的数字都是2次,可以通过异或运算,得到最后这2个只 ...
iOS 编译时的警告导致无法通过编译
今天编译react native的代码,发现了2个警告,但是系统却当做错误,不能编译成功,查看了一下编译选项,看到了如下配置: 注意到这个-Werror 了吗? 就是这个标志导致系统把所有的警告都当 ...
SB Admin 2 学习笔记1
需要掌握能够搭建起一个 dashboard 的能力, 因为很少有运维开发团队有专职的前端, bootstrap 也要讲个基本法. SB Admin 2, 一个免费的 bootstrap theme, ...
studing（来自转载）
1.getchar(): http://www.cnblogs.com/jiangjun/archive/2012/05/16/2503676.html 2.gets()和scanf( ): http ...
$\mathscr{F}$类
$\mathscr{F}$类:在单位元盘$B(0,1)$中满足$$f(0)=0,f'(0)=1$$ 的双全纯函数的全体.
Android版本与api Level
Platform Version API Level VERSION_CODE Notes Android 4.4 19 KITKAT Platform Highlights Android 4.3 ...
squid 2.7 配置与安装
1.准备安装包 2.准备编译环境 yum -y install gcc 3.编译安装squid ./configure \--prefix=/data/squid \--disable-interna ...
java求字符串数组交集、并集和差集
import java.util.HashMap; import java.util.HashSet; import java.util.LinkedList; import java.util.Ma ...
Redis 外部访问设置
1.错误原因 Redis搭建好后一般都是使用编程语言进行连接调用,默认Redis的设置是不允许外界访问的,连接Redis只能通过本地(127.0.0.1)来连接,而不能使用网络IP(192.168.1 ...

Spark ZooKeeper数据恢复

Spark ZooKeeper数据恢复的更多相关文章

随机推荐

热门专题