Zookeeper connection loss leads to Flink job restart
Flink可以使用zookeeper来进行ha,而一般我们都会使用zookeeper的高级api架构curator来对zk进行通讯。在curator中引入了状态的概念,包括connected,reconnected,suspeneded,lost与read_only,其中suspended是个有意思的状态,当因为网络抖动、机器繁忙、zk集群短暂无响应,都会导致curator将状态置为suspended.
而Flink对suspended采取了非常谨慎的处理,就是发现是suspended,则取消所有作业,进行restart,显得未免有些太敏感了,其实这个时候往往zk也是ok的,相应的jm也是leader都没有问题。
好,我们再顺一下:
在发生zk connection loss的情况下,curator会设置suspended状态,在此状态下,curator会释放leader,flink在发现notleader之后则会revokeLeadership,进而导致dispatcher会cancel掉所有的job,cancel的过程中flink会主动抛出异常。
虽然这样做没什么大的影响,因为其实如果connection很快恢复,作业也会很快被拉起,没有大碍,但看起来总是不好,zk连接随便的一个扰动,都可能导致job重启,所以就想把它改动。
方案一:
在flink的ZooKeeperUtils.java通过CuratorFrameworkFactory来构造CuratorFramework时,通过connectionStateErrorPolicy将ConnectionStateErrorPolicy从StandardConnectionStateErrorPolicy更新为SessionConnectionStateErrorPolicy,前者将suspended和lost都作为error,后者只是将lost作为error,而只有发生error的时候才会取消leadership,所以如此设置之后,在进入suspended状态时,不在发生leadership的取消和重新选举。
优点:从整体的状态转换上进行了控制,优雅。
缺点:目前flink所引用的curator的版本为2.12.0,不支持设置policy,需要更新curator版本号,是否会带来其他问题,不可知。
测试:成功。
更改curator的版本为4.2.0,提交作业,restart zk,job没有重启,checkpoint正常进行。
方案二:
在flink内部,在代码ZooKeeperLeaderElectionService.java中的notLeader方法中,在收到notleader的通知的时候,根据当前的状态是否是suspended进行相应的处理。
优点:不对flink的整体造成影响,更改在局部范围内可控。
缺点:由于curator对suspended的处理依旧,所以从curator的层面还是会发生取消leadership然后重新进行选举的情况,虽然这一切都不必要。
测试:失败
1.原先预计的是在notleader方法中,如果发现当前状态是suspended,就不去执行revokeLeadership方法,但notleader方法和suspended状态的获取分别是在两个回调方法中触发的,经过测试,无法保证两个回调的执行顺序,即有可能notleader方法已经触发,但是suspended状态还没有触发。
2.如果只是修改notleader方法,即使修改成功,还是会触发isleader方法,在isleader方法中,如果不修改,还是会触发原有作业的取消和重新提交,所以这里也要改,改成重新链接之后这里即使被通知isleader也不会去给dispatcher进行grantLeadership,但又不能直接这么操作,还需要判断是否自己已经是leader,但可惜的是,在发生suspended的时候,curator里面已经将leadership取消掉了,所以如果在这里加上判断是connected状态并且不是leader然后不去grantleadership,会看起来很奇怪。
总而言之,如果不动curator的逻辑,只是在flink里改,这里的逻辑就会被改的难以理解,并且还无法成功。
目前的方案应对的场景是zk connection的短时间抖动,如果发生zk connection的长时间不可用,则tm和jm都会失败,这个也是应有之义。
另,
在flink中对curator的suspended状态起作用的还有一个地方,在ZooKeeperCheckpointIDCounter.java中有对suspended的判断,如果之前是suspended或者Lost,则flink就不会去zk上存取checkpoint的信息了。这里感觉是个坑,也需要改对suspended的策略。
外一篇,
zookeeper可以设置session timeout时间,但是不是你随便设置就会起作用,会有一个判断的过程。
SessionTimeOut的协商如下:
情况1: 配置文件配置了maxSessionTimeOut和minSessionTimeOut
最终SessionTimeOut,必须在minSessionTimeOut和maxSessionTimeOut区间里,如果跨越上下界,则以跨越的上届或下界为准。
情况2:配置文件没有配置maxSessionTimeOut和minSessionTimeOut
maxSessionTimeout没配置则 maxSessionTimeOut设置为 20 * tickTime
minSessionTimeOut没配置则 minSessionTimeOut设置为 2 * tickTime
也就是默认情况下, SessionTimeOut的合法范围为 4秒~40秒,默认配置中tickTime为2秒。
Zookeeper connection loss leads to Flink job restart的更多相关文章
- WARN Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect (org.apache.zookeeper.ClientCnxn) java.net.ConnectException: Connection refused
1.启动kafka的脚本程序报如下所示的错误: [hadoop@slaver1 script_hadoop]$ kafka-start.sh start kafkaServer... [-- ::,] ...
- zookeeper集群+kafka集群 部署
zookeeper集群 +kafka 集群部署 1.Zookeeper 概述: Zookeeper 定义 zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目 Zooke ...
- Zookeeper、Kafka集群与Filebeat+Kafka+ELK架构
Zookeeper.Kafka集群与Filebeat+Kafka+ELK架构 目录 Zookeeper.Kafka集群与Filebeat+Kafka+ELK架构 一.Zookeeper 1. Zook ...
- 基于ZooKeeper的分布式锁和队列
在分布式系统中,往往需要一些分布式同步原语来做一些协同工作,上一篇文章介绍了Zookeeper的基本原理,本文介绍下基于Zookeeper的Lock和Queue的实现,主要代码都来自Zookeeper ...
- Flink Internals
https://cwiki.apache.org/confluence/display/FLINK/Flink+Internals Memory Management (Batch API) In ...
- zookeeper kazoo Basic Usage
http://kazoo.readthedocs.org/en/latest/basic_usage.html Basic Usage Connection Handling To begin usi ...
- zookeeper 学习笔记 (C语言版本)
1.zookeeper简介 zookeeper是Hadoop的子项目,在大型分布式系统中,zookeeper封装好了一些复杂易出错的服务,提供简单易用的接口,给使用者提供高效稳定的服务.这些服务包括配 ...
- zookeeper curator处理会话过期session expired
本文介绍在使用curator框架的时候如何handle session expire. 1.什么是zookeeper的会话过期? 一般来说,我们使用zookeeper是集群形式,如下图,client和 ...
- HyperLedger Fabric基于zookeeper和kafka集群配置解析
简述 在搭建HyperLedger Fabric环境的过程中,我们会用到一个configtx.yaml文件(可参考Hyperledger Fabric 1.0 从零开始(八)--Fabric多节点集群 ...
随机推荐
- 给定制的vuejs组件添加v-model双向绑定支持
用过vuejs的前端工程师,对于v-model一定印象深刻.它向类似textarea,input等原生html原生添加双向数据绑定的能力非常方便.但是对于你的定制vue组件并不是能够直接应用v-mod ...
- python类的构造函数
最新的 Python3.7 中(2018.07.13),对类的构造函数进行了精简. from dataclasses import dataclass @dataclass class A: x:in ...
- java.util.DualPivotQuickSort的实现
DualPivotQuickSort汇集了多种排序算法,称之为DualPivotQuickSort并不合适.不同的排序算法有不同的使用场景.看懂此文件,排序算法就算彻底搞懂了. 本文只介绍有用的代码片 ...
- java mail 封装工具类使用
直接上代码 配置QQ邮箱的IMAP 进入qq电子邮件点击 设置->账户里开启 SMTP 服务(开启IMAP/SMTP服务) 注意:在启用QQ邮箱的14天之后才能开启此服务 创建Sendmail ...
- Java操作ElasticSearch之创建客户端连接
Java操作ElasticSearch之创建客户端连接 3 发布时间:『 2017-09-11 17:02』 博客类别:elasticsearch 阅读(3157) Java操作ElasticSe ...
- 简明conda使用指南
目录 区分conda, anaconda, miniconda conda版本 虚拟环境 分享环境 查看某个环境的位置 列出软件包 安装软件包 删除软件包 查找软件包 conda配置 conda实践: ...
- Linux Tomcat安装及端口配置
1. JDK安装配置 待写 2. Tomcat安装配置 1,下载Tomcat链接,到启动测试. 将文件apache-tomcat-8.5.50.tar.gz移动到/usr/tomcat/下,并解压 ...
- C++对c中函数的拓展,函数重载
函数参数的拓展 inline内联函数 最好 小的函数都写成内联函数, 写上inline 编译器不一定内联, C++中推荐使用内联函数替代宏代码片段 C++中使用inline关键字声明内联函数 内联函数 ...
- 1 NLP学习大纲
一.自然语言处理概述 1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容. 2) ...
- python测试开发django-72.删除表后如何重新生成表
前言 在使用ORM建表的时候,由于需要对数据库表的重新设计,需要删除原表,并通过Django的ORM功能重新同步表. 删除表之后,发现用 makemigrations 和 migrate 无法生成新的 ...