术语表

Flink Application Cluster

Flink应用集群是一个专用的Flink集群,它只执行一个Flink应用的Flink作业。Flink集群的寿命与Flink应用的寿命绑定。

Flink Job Cluster

Flink Job Cluster是一个专用的Flink Cluster,它只执行一个Flink Job。Flink Cluster的寿命与Flink Job的寿命绑定。

Flink Cluster

一个分布式系统由(通常)一个JobManager和一个或多个Flink TaskManager进程组成。

Event

事件是关于应用程序所模拟的域的状态变化的声明。事件可以是流或批处理应用程序的输入和/或输出。事件是特殊类型的记录。

ExecutionGraph

see Physical Graph

Function

函数由用户实现,封装了Flink程序的应用逻辑。大多数Functions都由相应的Operator封装。

Instance

术语instance用于描述运行时特定类型(通常是Operator或Function)的具体实例。由于Apache Flink大部分是用Java编写的,所以对应于Java中的Instance或Object的定义。在Apache Flink的上下文中,并行实例这个术语也经常被用来强调同一个Operator或Function类型的多个实例在并行运行。

Flink Application

Flink应用程序是一个Java应用程序,它从main()方法(或通过其他方式)提交一个或多个Flink作业。提交作业通常是通过调用执行环境上的execute()来完成的。

应用程序的作业可以提交到一个长期运行的Flink会话集群,也可以提交到一个专门的Flink应用集群,或者提交到一个Flink作业集群。

Flink Job

Flink Job是指在Flink应用中通过调用execute()来创建和提交的逻辑图(也常称为数据流图)的运行时表示。

JobGraph

see Logical Graph

Flink JobManager

JobManager是Flink集群的协调器。它包含了三个不同的组件:Flink资源管理器、Flink调度器和每个运行的Flink JobMaster。Flink资源管理器、Flink调度器和每个运行中的Flink JobMaster。

Flink JobMaster

JobMasters是运行在JobManager中的组件之一。一个JobMaster负责监督单个作业的Tasks的执行情况。

Logical Graph

逻辑图是一个有向图,其中节点是操作符,边缘定义了操作符的输入/输出关系,并对应数据流或数据集。逻辑图是通过从Flink应用程序提交作业来创建的。

逻辑图也常被称为数据流图。

Managed State

Managed State描述的是已经在框架中注册的应用状态。对于托管状态,Apache Flink将负责处理持久性和重新缩放等问题。

Operator

逻辑图的节点。操作符执行某种操作,通常由Function执行。源和汇是数据摄入和数据输出的特殊操作符。

Operator Chain

一个操作者链由两个或多个连续的操作者组成,中间没有任何重新分区。同一操作者链内的操作者直接相互转发记录,而不需要经过序列化或Flink的网络栈。

Partition

分区是整个数据流或数据集的一个独立子集。通过将每条记录分配到一个或多个分区,将数据流或数据集划分为多个分区。数据流或数据集的分区在运行时由任务消耗。改变数据流或数据集分区方式的转换通常称为重新分区。

Physical Graph

物理图是翻译逻辑图的结果,以便在分布式运行时执行。节点是任务,边缘表示输入/输出关系或数据流或数据集的分区。

Record

记录是数据集或数据流的组成元素。操作符和函数接收记录作为输入,并发出记录作为输出。

(Runtime) Execution Mode

DataStream API程序可以在两种执行模式中的一种执行:BATCH或STREAMING。BATCH 或 STREAMING。请参阅执行模式了解更多详情。

Flink Session Cluster

一个长期运行的Flink Cluster,它接受多个Flink Job的执行。该Flink Cluster的寿命不受任何Flink Job寿命的约束。以前,Flink Session Cluster也被称为会话模式下的Flink Cluster。与Flink Application Cluster比较。

State Backend

对于流处理程序来说,Flink Job的状态后端决定了它的状态如何存储在每个TaskManager上(TaskManager的Java堆或(嵌入式)RocksDB),以及它在检查点时的写入位置(JobManager的Java堆或Filesystem)。

Sub-Task

子任务是指负责处理数据流的一个分区的任务。术语 "子任务 "强调同一操作员或操作员链有多个并行的Task。

Task

物理图的节点。任务是工作的基本单位,由Flink的运行时执行。任务正好封装了一个操作者或操作者链的一个并行实例。

Flink TaskManager

任务管理器是Flink集群的工作进程。任务被安排给TaskManagers执行。它们相互通信,在后续的Task之间交换数据。

Transformation

变换应用于一个或多个数据流或数据集,并产生一个或多个输出数据流或数据集。变换可能会在每条记录的基础上改变数据流或数据集,但也可能只改变其分区或执行聚合。操作符和函数是Flink的API的 "物理 "部分,而变换只是一个API概念。具体来说,大多数变换是由某些Operator实现的。

Flink-v1.12官方网站翻译-P015-Glossary的更多相关文章

  1. Flink-v1.12官方网站翻译-P005-Learn Flink: Hands-on Training

    学习Flink:实践培训 本次培训的目标和范围 本培训介绍了Apache Flink,包括足够的内容让你开始编写可扩展的流式ETL,分析和事件驱动的应用程序,同时省略了很多(最终重要的)细节.本书的重 ...

  2. Flink-v1.12官方网站翻译-P025-Queryable State Beta

    可查询的状态 注意:可查询状态的客户端API目前处于不断发展的状态,对所提供接口的稳定性不做保证.在即将到来的Flink版本中,客户端的API很可能会有突破性的变化. 简而言之,该功能将Flink的托 ...

  3. Flink-v1.12官方网站翻译-P002-Fraud Detection with the DataStream API

    使用DataStream API进行欺诈检测 Apache Flink提供了一个DataStream API,用于构建强大的.有状态的流式应用.它提供了对状态和时间的精细控制,这使得高级事件驱动系统的 ...

  4. Flink-v1.12官方网站翻译-P008-Streaming Analytics

    流式分析 事件时间和水印 介绍 Flink明确支持三种不同的时间概念. 事件时间:事件发生的时间,由产生(或存储)该事件的设备记录的时间 摄取时间:Flink在摄取事件时记录的时间戳. 处理时间:您的 ...

  5. Flink-v1.12官方网站翻译-P004-Flink Operations Playground

    Flink操作训练场 在各种环境中部署和操作Apache Flink的方法有很多.无论这种多样性如何,Flink集群的基本构件保持不变,类似的操作原则也适用. 在这个操场上,你将学习如何管理和运行Fl ...

  6. Flink-v1.12官方网站翻译-P001-Local Installation

    本地安装 按照以下几个步骤下载最新的稳定版本并开始使用. 第一步:下载 为了能够运行Flink,唯一的要求是安装了一个有效的Java 8或11.你可以通过以下命令检查Java的正确安装. java - ...

  7. Flink-v1.12官方网站翻译-P029-User-Defined Functions

    用户自定义函数 大多数操作都需要用户定义的函数.本节列出了如何指定这些函数的不同方法.我们还涵盖了累加器,它可以用来深入了解您的Flink应用. Lambda函数 在前面的例子中已经看到,所有的操作都 ...

  8. Flink-v1.12官方网站翻译-P028-Custom Serialization for Managed State

    管理状态的自定义序列化 本页面的目标是为需要使用自定义状态序列化的用户提供指导,涵盖了如何提供自定义状态序列化器,以及实现允许状态模式演化的序列化器的指南和最佳实践. 如果你只是简单地使用Flink自 ...

  9. Flink-v1.12官方网站翻译-P027-State Schema Evolution

    状态方案的演变 Apache Flink流媒体应用通常被设计为无限期或长时间运行.与所有长期运行的服务一样,应用程序需要更新以适应不断变化的需求.这对于应用程序所针对的数据模式也是一样的,它们会随着应 ...

随机推荐

  1. JavaScript基础知识梳理

    一.简单数据类型 Number.String.Boolean.Undefined.Null 1.Number: 方法: toPrecision( ) 返回指定长度的数字(范围是1到100) toFix ...

  2. python常用操作和内置函数

    一.常用数据处理方法. 1.索引:按照号码将对应位置的数据取出使用 2.list将任意类型数据用逗号分割存在列表中 3.range:产生一堆数字(顾头不顾尾) 4.切片:可以从复制数据的一部分,不影响 ...

  3. Oracle 模糊查询 优化

    模糊查询是数据库查询中经常用到的,一般常用的格式如下: (1)字段  like '%关键字%'   字段包含"关键字"的记录   即使在目标字段建立索引也不会走索引,速度最慢 (2 ...

  4. 性能超四倍的高性能.NET二进制序列化库

    二进制序列化在.NET中有很多使用场景,如我们使用分布式缓存时,通常将缓存对象序列化为二进制数据进行缓存,在ASP.NET中,很多中间件(如认证等)也都是用了二进制序列化. 在.NET中我们通常使用S ...

  5. Nginx配置请求头

    最近发现一个问题: IOS访问后台接口是,总是application/json;charset=utf-8 但是后台接口只支持大写的UTF-8,修改了Nginx的请求头之后正常. proxy_set_ ...

  6. k8s之ServiceAccount

    导读 上一篇说了k8s的RBAC授权模式,今天就来简单看一下其中涉及到的ServiceAccount. 简介 k8s创建两套独立的账号系统,原因如下: (1)User账号给用户用,Service Ac ...

  7. C语言逗号运算符(C语言学习笔记)

    什么是逗号运算符 逗号运算符 逗号运算符是指在C语言中,多个表达式可以用逗号分开,其中用逗号分开的表达式的值分别结算,但整个表达式的值是最后一个表达式的值. 用法 多个变量赋值 原因:"=& ...

  8. DDIC_TYPELENG_INCONSISTENT错误的解决办法

    当执行某个TCODE,例如SM66,出现类似如下的dump界面 大概意思就是说是ddic种的某个数据类型有问题,可能是数据结构,可能是数据元素或者是表等等 通过查阅资料了解到,对于note122290 ...

  9. 集成多种协议、用于 USBC 端口的快充协议芯片IP2723

    1. 特性  快充规格  集成 QC4/QC4+输出快充协议 - 兼容 QC2.0/QC3.0 - 支持 Class B 电压等级  集成 FCP 输出快充协议  集成 SCP 输出快充协议  集成 ...

  10. 使用存储过程在mysql中批量插入数据

    一.在mysql数据库中创建一张表test DROP TABLE IF EXISTS `test`; CREATE TABLE `test` ( `id` INT (11), `name` VARCH ...