Flink HA 搭建坑
目前网上能找到的做HA的教程基本都无法真正做到多机高可用,包括官方文档,经过很久的折腾,终于做到了多机高可用,希望其它人不再被坑。
集群模式安装
前提条件:
机器已经安装好Java环境
jobManager到taskManager的机器做ssh免密登录(非必须)
以下操作都是直接使用的机器名,并保证可访问(/etc/hosts里配置)
standalone模式
该格式下一个master, 多个worker。
如下使用了三台机器,其中一台名为flink-master,另两台分别为:flink-slave1,flink-slave2
修改flink配置flink-conf.yaml,更改其jobmanager.rpc.address地址如下:
jobmanager.rpc.address: flink-master
然后修改其conf/slaves文件内容如下:
flink-slave1
flink-slave2
把该文件打包并上传至这三台机器,在master机器上启动:bin/start-cluster.sh start
在另外两台slave机器上分别执行: bin/taskmanager.sh start
ha模式
官方文档中的高可用只是针对localhost做的,是伪高可用,并且说明不细,真正在使用多机做高可用时无效,按官方说明无法搭建成功
前置条件:
java
高可用数据的存储:在此使用的hadoop,其支持多种,如HDFS, S3, Ceph, nfs等
机器准备:在此准备了三台机器,分别为flink-master1,flink-master2,flinkslave1.
在三台机器上都安装好flink
环境说明:
1. flink-master1:只运行JobManager
2. flink-master2:只运行JobManager
3. flink-slave1:只运行TaskManager
配置步骤:
1.修改conf/flink-yaml.conf,内容如下:
(master1上的配置文件)jobmanager.rpc.address: flink-master1
(master2上的配置文件)jobmanager.rpc.address: flink-master22,其他taskmanager 节点上关闭1 中的配置 (加 # 号即可)
#jobmanager.rpc.address: 。。。。。。。。
3.修改conf/flink-conf.yaml,其内容如下:
以下为必须要配置的内容:
high-availability: zookeeper
high-availability.storageDir: hdfs://192.168.0.15:9000/flink/ha/
high-availability.zookeeper.quorum: 192.168.0.15:2181
high-availability: 高可用模式,必须为zookeeper
high-availability.storageDir: JobManager的元数据持久化保存的位置
high-availability.zookeeper.quorum: zk集群地址,在此我使用已有的zk,没有使用自带的
以下两项为建议配置项,根据需要配置:
high-availability.zookeeper.path.root: /flink
high-availability.cluster-id: /default_ns,该选项只有在有多个flink集群并共用同一个zk集群时才需要,否则其默认为default
4.把以上配置同步到三台机器的flink的conf目录下。
5.重要,官网坑就在此:修改flink-master机器的flink-conf.yaml中的jobmanager.rpc.address地址为flink-master, 修改flink-slave1机器的flink-conf.yaml的jobmanager.rpc.address地址为flink-slave1。如果不修改,会导致JobManager启动成功,但TaskManager无法连接到JobManager,其官方文档里面并没有修改,目前查看网上所有资料也没有人建议更改此配置,经查看其zookeeper中/flink/default/leader/resource_manager_lock节点值,发现配置不对,确定到JobManager注册的地址不对,其配置文档中说明也有问题,经尝试,发现需要修改该地址为每台JobManager自己机器地址即可。
6.在flink-master1机器的flink/bin目录下执行:jobmanager.sh start 。然后在 master2 再同样启动 jobmanager ,, 最后再启动 所有的taskmanager 。
7.输入相应地址后(http://flink-master1:8081)后,界面如下:

这时如果停掉一个JobManager,另一个会生效(需要等一会,待其检测到并初始化JobManager的元数据后才能看到),输入另一机器的web地址,也会自动跳转到为leader的机器。
经过测试,在 1.7.2 版本,在无任务运行的情况下HA 切换无问题。在有任务运行的情况下 jobmanager 切换有问题,问题还比较严重。后续。继续研究。
Flink HA 搭建坑的更多相关文章
- Flink HA
standalone 模式的高可用 部署 flink 使用zookeeper协调多个运行的jobmanager,所以要启用flink HA 你需要把高可用模式设置成zookeeper,配置zookee ...
- Spark集群基于Zookeeper的HA搭建部署笔记(转)
原文链接:Spark集群基于Zookeeper的HA搭建部署笔记 1.环境介绍 (1)操作系统RHEL6.2-64 (2)两个节点:spark1(192.168.232.147),spark2(192 ...
- HBase HA + Hadoop HA 搭建
HBase 使用的是 1.2.9 的版本. Hadoop HA 的搭建见我的另外一篇:Hadoop 2.7.3 HA 搭建及遇到的一些问题 以下目录均为 HBase 解压后的目录. 1. 修改 co ...
- hadoop HA + HBase HA搭建:
hadoop HA搭建参考:https://www.cnblogs.com/NGames/p/11083640.html (本节:用不到YARN 所以可以不用考虑部署YARN部分) Hadoop 使用 ...
- Spark HA搭建
正文 下载Spark版本,这版本又要求必须和jdk与hadoop版本对应. http://spark.apache.org/downloads.html tar -zxvf 解压到指定目录,进入con ...
- Flink源码学习笔记(3)了解Flink HA功能的实现
使用Flink HA功能维护JobManager中组件的生命周期,可以有效的避免因为JobManager 进程失败导致任务无法恢复的情况. 接下来分享下 Flink HA功能的实现 大纲 基于Zook ...
- yarn上运行flink环境搭建
主要完成hadoop集群搭建和yarn上运行flink 1.搭建hadoop伪集群 主要是搭建hadoop MapReduce(yarn)和HDFS 1.1 下载&配置环境变量 这里下载的ha ...
- flink ha zk集群迁移实践
flink为了保证线上作业的可用性,提供了ha机制,如果发现线上作业失败,则通过ha中存储的信息来实现作业的重新拉起. 我们在flink的线上环境使用了zk为flink的ha提供服务,但在初期,由于资 ...
- Docker安装flink及避坑指南
Docker安装flink 导航 无处不在的大数据 安装flink 拉取flink镜像 编写docker-compose.yml 生成启动 查看安装效果 常见坑及解决方案 问题1 问题2 参考 本 ...
随机推荐
- python 文件下载
为了演示urllib3的使用,我们这里将会从一个网站下载两个文件.首先,需要导入urllib3库: import urllib3 这两个文件的源url为: url1 = 'http://earthqu ...
- linux缺失gcc的安装方法
linux安装gcc操作 1.查看linux是否有gcc文件 这个是没有挂载的 2. 使用df,查看系统光盘的挂载位置 3.卸载分区 umount /dev/sr0 4.将redhat系统光盘重新载入 ...
- HDU5745-La Vie en rose-字符串dp+bitset优化
这题现场的数据出水了,暴力就能搞过. 标解是拿bitset做,转移的时候用bitset优化过的操作(与或非移位)来搞,复杂度O(N*M/w) w是字长 第一份标程的思路很清晰,然而后来会T. /*-- ...
- 洛谷3707 [SDOI2017] 相关分析 【线段树】
分析: 化简一下就行了,注意一下平方和公式的运用以及精度的误差. 代码: #include<bits/stdc++.h> using namespace std; ; int n,m; i ...
- CH2101 可达性统计(算竞进阶习题)
拓扑排序+状态压缩 考虑每一个点能够到达的所有点都是与该店相邻的点的后继节点,可知: 令f[u]表示u点可到达的节点个数,f[u]={u}与f[v](u, v)的并集 于是可以利用状态压缩,能够到达的 ...
- [luogu1337][bzoj3680][JSOI2004]平衡点 / 吊打XXX【模拟退火】
题目描述 gty又虐了一场比赛,被虐的蒟蒻们决定吊打gty.gty见大势不好机智的分出了n个分身,但还是被人多势众的蒟蒻抓住了.蒟蒻们将n个gty吊在n根绳子上,每根绳子穿过天台的一个洞.这n根绳子有 ...
- cf1000E We Need More Bosses (tarjan缩点+树的直径)
题意:无向联通图,求一条最长的路径,路径长度定义为u到v必须经过的边的个数 如果把强联通分量都缩成一个点以后,每个点内部的边都是可替代的:而又因为这是个无向图,缩完点以后就是棵树,跑两遍dfs求直径即 ...
- HDU 6336 Matrix from Arrays (杭电多校4E)
遇事不决先打表. 然后会发现(个屁)大的矩形是由一个2L*2L的矩形重复出现组成的然后我们就可以这个矩形分成四个点到(0, 0)点的矩形,这样问题就变成了求四个到顶点(0, 0)的矩形的面积,然后就先 ...
- 20165223 实验一 Java开发环境的熟悉
目录 一.实验报告封面 二.实验内容 (一)命令行下的JAVA程序开发 (二)IDEA中的JAVA程序开发 (三)自主练习 三.实验总结 四.PSP时间 一.实验报告封面 北京电子科技学院(BESTI ...
- string的基本用法
#include <iostream> #include<string> #include<vector> #include<algorithm> us ...