flink笔记(三) flink架构及运行方式

架构图

Job Managers, Task Managers, Clients

JobManager(Master)
- 用于协调分布式执行。它们用来调度task，协调检查点，协调失败时恢复等。
- Flink运行时至少存在一个JobManager。
- 一个高可用的运行模式会存在多个JobManager，它们其中有一个是leader，而其他的都是standby。
TaskManager(Worker)
- 用于执行一个dataflow的task(或者特殊的subtask)、数据缓冲和data stream的交换。
- Flink运行时至少会存在一个TaskManager。
TaskManager连接到JobManager，告知自身的可用性进而获得任务分配。
客户端不是运行时和程序执行的一部分。但它用于准备并发送dataflow给master,然后户端断开连接或者维持连接以等待接收计算结果。
JobManager和TaskManager可以以如下方式中的任意一种启动:
- Standalone cluster
- Yarn
- Mesos
- Container(容器, 如由K8S管理的Docker集群)

Standalone 模式

流程如上所示
任务提交命令:
- bin/flink run -c mainclass jar_path
- webui 提交(傻瓜式)

On Yarn 模式

两种运行模式
- Yarn-session 模式
  - 该模式是预先在yarn上面划分一部分资源给flink集群用，flink提交的所有任务，共用这些资源。
  - 示意图
  - 任务提交
    - 先启动一个yarn-session,并指明分配的资源。
    - 命令:
      - ./yarn-session.sh -n 3 -jm 1024 -tm 1024 /opt/sxt/flinkTest.jar
      - -n 容器个数
      - -jm jobmanager 进程内存大小
      - -tm 指明每个 taskmanager 的进程内存大小
    - 启动yarn-session后，就可以提交任务了
    - . /flink run -m 节点:端口 jar 文件目录
    - 停止yarn上的 flink 集群
      - 先找到 application_id
      - 然后执行命令:
        yarn application -kill application_id
- Single job 模式
  - 该模式是每次提交任务，都会创建一个新的flink集群
  - 任务之间互相独立，互不影响，方便管理
  - 任务执行完成之后，flink集群也会消失
  - 示图:
  - 任务提交命令:
    - ./flink rum -m yarn-cluster -yn 并行度 jar文件路径
      - -m:
        
        后面跟的是yarn-cluster，不需要指明地址。
        
        这是由于Single job模式是每次提交任务会新建flink集群，所以它的jobmanager是不固定的。
      - -yn:
        指明taskmanager个数。
        
        其余参数可使用：./flink -h 来查看
运行原理
- flink on yarn 内部实现图
- 步骤1
  - 当启动一个新的 Flink YARN Client会话，客户端首先会检查所请求的资源（容器和内存）是否可用。
  - 之后，它会上传包含了 Flink 配置文件和 jar包到 HDFS.
- 步骤2
  - 客户端的请求一个container资源去启动 ApplicationMaster 进程
- 步骤3
  - ResourceManager选一台NodeManager机器启动AM。
  - 注意点1:
    - 因为客户端已经将配置文件和jar包作为容器的资源注册了，所以 NodeManager 会负责准备容器做一些初始化工作（例如，下载文件）。
    - 一旦这些完成了，ApplicationMaster (AM) 就启动了。
  - 注意点2:
    - JobManager 和 AM 运行在同一个容器中。
    - 一旦它们成功地启动了，AM 知道 JobManager 的地址(它自己)。
    - 它会为 TaskManager 生成一个新的 Flink 配置文件（这样它们才能连上 JobManager）。
    - 该文件也同样会上传到 HDFS。另外，AM 容器同时提供了 Flink 的 Web 界面服务。
- 步骤4
  - AM 开始为 Flink 的 TaskManager 分配容器(container)，在对应的nodemanager上面启动taskmanager
- 步骤5
  - 初始化工作，从 HDFS 下载 jar 文件和修改过的配置文件。
  - 一旦这些步骤完成了，Flink 就安装完成并准备接受任务了。

flink笔记(三) flink架构及运行方式的更多相关文章

Flink学习笔记-新一代Flink计算引擎
说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKh ...
Flink学习笔记：Flink Runtime
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...
Flink（三）Flink开发IDEA环境搭建与测试
一.IDEA开发环境 1.pom文件设置 <properties> <maven.compiler.source>1.8</maven.compiler.source&g ...
揭秘 Flink 1.9 新架构，Blink Planner 你会用了吗？
本文为 Apache Flink 新版本重大功能特性解读之 Flink SQL 系列文章的开篇,Flink SQL 系列文章由其核心贡献者们分享,涵盖基础知识.实践.调优.内部实现等各个方面,带你由浅 ...
开篇 | 揭秘 Flink 1.9 新架构，Blink Planner 你会用了吗？
本文为 Apache Flink 新版本重大功能特性解读之 Flink SQL 系列文章的开篇,Flink SQL 系列文章由其核心贡献者们分享,涵盖基础知识.实践.调优.内部实现等各个方面,带你由浅 ...
Flink 笔记(一)
简介 Flink是一个低延迟.高吞吐.统一的大数据计算引擎, Flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件. 同时Flink提供了一个Exactly-once的一致性 ...
《从0到1学习Flink》—— Apache Flink 介绍
前言 Flink 是一种流式计算框架,为什么我会接触到 Flink 呢?因为我目前在负责的是监控平台的告警部分,负责采集到的监控数据会直接往 kafka 里塞,然后告警这边需要从 kafka topi ...
8、Flink Table API & Flink Sql API
一.概述上图是flink的分层模型,Table API 和 SQL 处于最顶端,是 Flink 提供的高级 API 操作.Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时 ...
Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构标签(空格分隔): Streaming-process realtime-process Heron Architecture ...

随机推荐

No module named 'widgets'
https://blog.csdn.net/heatdeath/article/details/70313645 适配python3的. https://github.com/twz915/Djang ...
【剑指Offer面试编程题】题目1510：替换空格--九度OJ
题目描述: 请实现一个函数,将一个字符串中的空格替换成"%20".例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. 输入: 每个 ...
入门学习C链接
参考链接:http://c.biancheng.net/view/465.html 在里面链接下载了:code:block,还有C语言入门的PDF文件. 常看网站:https://www.cnblog ...
java并发AtomicReference
java并发AtomicReference AtomicReference的作用已经介绍过AtomicInteger,AtomicIntegerArray,AtomicReference是针对对象的 ...
ORACLE锁表问题
1.查询锁表的信息 select sess.sid,sess.serial#, lo.oracle_username,lo.os_user_name, ao.object_name,lo.locked ...
scrapy 实现mysql 数据保存
开始用scrapy 爬取数据的时候开始用同步操作始终会报1064 的错误因为 mysql 语法和导入的字段不兼容尝试了 n 次之后开始用异步爬取虽然一路报错但是还是能把数 ...
SQL中limit的用法
limit子句用于限制查询结果返回的数量格式: select * from tableName limit i,n # tableName:表名 # i:为查询结果的索引值(默认从0开始),当i=0 ...
关于Essay写作的Tips及整体讲解
Essay,相信在国外留学的小伙伴们都不会陌生,无论你是读本科还是硕士,甚至是读中学,都要经历Essay写作,也就是我们的小论文.那么,无论你是开始了英国学校的学习还是将要开始,你对Essay写作的了 ...
ThinkPad重大更新！5款创意设计PC齐发2日
导读日前,ThinkPad巨匠P系列专业移动工作站迎来全线更新,包括ThinkPad P1隐士2019.ThinkPad P53.ThinkPad P73.ThinkPad P43s.ThinkPa ...
OBS Studio 24.0 RC1 发布 – 有大惊喜
导读对于那些使用OBS Studio进行跨平台直播和屏幕录制需求的人来说,OBS Studio 24.0即将推出,但首先发布的是他们的候选版本,以审查进入这一重大更新的新功能. OBS Studio ...

flink笔记(三) flink架构及运行方式

架构图

Job Managers, Task Managers, Clients

Standalone 模式

On Yarn 模式

flink笔记(三) flink架构及运行方式的更多相关文章

随机推荐

热门专题