架构图

Job Managers, Task Managers, Clients

  • JobManager(Master)

    • 用于协调分布式执行。它们用来调度task,协调检查点,协调失败时恢复等。
    • Flink运行时至少存在一个JobManager。
    • 一个高可用的运行模式会存在多个JobManager,它们其中有一个是leader,而其他的都是standby。
  • TaskManager(Worker)
    • 用于执行一个dataflow的task(或者特殊的subtask)、数据缓冲和data stream的交换。
    • Flink运行时至少会存在一个TaskManager。
  • TaskManager连接到JobManager,告知自身的可用性进而获得任务分配。
  • 客户端不是运行时和程序执行的一部分。但它用于准备并发送dataflow给master,然后户端断开连接或者维持连接以等待接收计算结果。
  • JobManager和TaskManager可以以如下方式中的任意一种启动:
    • Standalone cluster
    • Yarn
    • Mesos
    • Container(容器, 如 由K8S管理的Docker集群)

Standalone 模式

  • 流程如上所示
  • 任务提交命令:
    • bin/flink run -c mainclass jar_path
    • webui 提交(傻瓜式)

On Yarn 模式

  • 两种运行模式

    • Yarn-session 模式

      • 该模式是预先在yarn上面划分一部分资源给flink集群用,flink提交的所有任务,共用这些资源。
      • 示意图
      • 任务提交
        • 先启动一个yarn-session,并指明分配的资源。
        • 命令:
          • ./yarn-session.sh -n 3 -jm 1024 -tm 1024 /opt/sxt/flinkTest.jar
          • -n 容器个数
          • -jm jobmanager 进程内存大小
          • -tm 指明每个 taskmanager 的进程内存大小
        • 启动yarn-session后,就可以提交任务了
        • . /flink run -m 节点:端口 jar 文件目录
        • 停止yarn上的 flink 集群
          • 先找到 application_id
          • 然后执行命令:
            • yarn application -kill application_id
    • Single job 模式

      • 该模式是每次提交任务,都会创建一个新的flink集群

      • 任务之间互相独立,互不影响,方便管理

      • 任务执行完成之后,flink集群也会消失

      • 示图:

      • 任务提交命令:

        • ./flink rum -m yarn-cluster -yn 并行度 jar文件路径

          • -m:

            • 后面跟的是yarn-cluster,不需要指明地址。
            • 这是由于Single job模式是每次提交任务会新建flink集群,所以它的jobmanager是不固定的。
          • -yn:
            • 指明taskmanager个数。
            • 其余参数可使用:./flink -h 来查看
  • 运行原理

    • flink on yarn 内部实现图

    • 步骤1

      • 当启动一个新的 Flink YARN Client会话,客户端首先会检查所请求的资源(容器和内存)是否可用。
      • 之后,它会上传包含了 Flink 配置文件和 jar包到 HDFS.
    • 步骤2

      • 客户端的请求一个container资源去启动 ApplicationMaster 进程
    • 步骤3

      • ResourceManager选一台NodeManager机器启动AM。
      • 注意点1:
        • 因为客户端已经将配置文件和jar包作为容器的资源注册了,所以 NodeManager 会负责准备容器做一些初始化工作(例如,下载文件)。
        • 一旦这些完成了,ApplicationMaster (AM) 就启动了。
      • 注意点2:
        • JobManager 和 AM 运行在同一个容器中。
        • 一旦它们成功地启动了,AM 知道 JobManager 的地址(它自己)。
        • 它会为 TaskManager 生成一个新的 Flink 配置文件(这样它们才能连上 JobManager)。
        • 该文件也同样会上传到 HDFS。另外,AM 容器同时提供了 Flink 的 Web 界面服务。
    • 步骤4

      • AM 开始为 Flink 的 TaskManager 分配容器(container),在对应的nodemanager上面启动taskmanager
    • 步骤5

      • 初始化工作,从 HDFS 下载 jar 文件和修改过的配置文件。
      • 一旦这些步骤完成了,Flink 就安装完成并准备接受任务了。

flink笔记(三) flink架构及运行方式的更多相关文章

  1. Flink学习笔记-新一代Flink计算引擎

    说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKh ...

  2. Flink学习笔记:Flink Runtime

    本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

  3. Flink(三)Flink开发IDEA环境搭建与测试

    一.IDEA开发环境 1.pom文件设置 <properties> <maven.compiler.source>1.8</maven.compiler.source&g ...

  4. 揭秘 Flink 1.9 新架构,Blink Planner 你会用了吗?

    本文为 Apache Flink 新版本重大功能特性解读之 Flink SQL 系列文章的开篇,Flink SQL 系列文章由其核心贡献者们分享,涵盖基础知识.实践.调优.内部实现等各个方面,带你由浅 ...

  5. 开篇 | 揭秘 Flink 1.9 新架构,Blink Planner 你会用了吗?

    本文为 Apache Flink 新版本重大功能特性解读之 Flink SQL 系列文章的开篇,Flink SQL 系列文章由其核心贡献者们分享,涵盖基础知识.实践.调优.内部实现等各个方面,带你由浅 ...

  6. Flink 笔记(一)

    简介 Flink是一个低延迟.高吞吐.统一的大数据计算引擎, Flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件. 同时Flink提供了一个Exactly-once的一致性 ...

  7. 《从0到1学习Flink》—— Apache Flink 介绍

    前言 Flink 是一种流式计算框架,为什么我会接触到 Flink 呢?因为我目前在负责的是监控平台的告警部分,负责采集到的监控数据会直接往 kafka 里塞,然后告警这边需要从 kafka topi ...

  8. 8、Flink Table API & Flink Sql API

    一.概述 上图是flink的分层模型,Table API 和 SQL 处于最顶端,是 Flink 提供的高级 API 操作.Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时 ...

  9. Twitter 新一代流处理利器——Heron 论文笔记之Heron架构

    Twitter 新一代流处理利器--Heron 论文笔记之Heron架构 标签(空格分隔): Streaming-process realtime-process Heron Architecture ...

随机推荐

  1. python中提取位图信息(AttributeError: module 'struct' has no attribute 'unstack')

    前言 今天这篇博文有点意思,它是从一个例子出发,从而体现出在编程中的种种细节和一些知识点的运用.和从前一样,我是人,离成神还有几十万里,所以无可避免的出现不严谨的地方甚至错误,请酌情阅读. 0x00 ...

  2. JavaScript 中 new 关键字结合构造函数创建对象

    步骤: new会在内存中创建一个新的空对象 new 会让this指向这个新的对象 执行构造函数(给这个新对象添加属性和方法) new会返回这个新对象

  3. 五子棋C#源码,网络对战版---转载--待学习

    五子棋C#源码,网络对战版 支持网络对战的C#五子棋源码下载,VS2010环境编译后可运行,需要先输入ip地址才行,不是单机版的.部分代码摘录如下://将接收的消息转换成自定义集合MessClass ...

  4. windows下用libevent 开发一个echo服务

    #include <stdio.h> #include <string.h> #include <errno.h> #include <iostream> ...

  5. c++中比较好用的“黑科技”

    切入正题,上黑科技 一.黑科技函数(常用的我就不写了,例如sort函数) 1.next_permutation(a+1,a+1+n) a[1-n]全排列 2.reverse(a+1,a+1+n) 将a ...

  6. Maven 使用Nexus搭建Maven私服

    Maven学习 (四) 使用Nexus搭建Maven私服 为什么要搭建nexus私服,原因很简单,有些公司都不提供外网给项目组人员,因此就不能使用maven访问远程的仓库地址,所以很有必要在局域网里找 ...

  7. 有关WordPress的Rss导入指南

    我是用cublog转过来.有一个软件博客备份软件(blog_backup)可以备份那个的blog.我用他备份后导出成rss2的文件.但我导入了很多次不成功.后来发现,原来blog_backup导出的格 ...

  8. APP自动化测试获取包名的两种方法

    获取包名的两种方法: 一.通过aapt获取 1.进入aapt.exe所在路径 2.在地址栏输入cmd回车,打开dos命令窗口. 3.在命令窗口输入 aapt dump badging 拖入apk 回车 ...

  9. MQTT 协议学习:002- 通信报文的构成

    背景 之前工作中参与有关协议调试的时候,发现对于协议帧的解析是比较重要的. 参考:<MQTT协议 -- 消息报文格式>.<基于STM32实现MQTT>.<MQTT协议从服 ...

  10. Centos7 静默安装 Oracle11G

    1.准备安装包: 安装包官网下载地址:https://www.oracle.com/technetwork/database/enterprise-edition/downloads/112010-l ...