关于Flink slot 和kafka topic 分区关系的说明

今天又有小伙伴在群里问 slot 和 kafka topic 分区(以下topic，默认为 kafka 的 topic )的关系，大概回答了一下，这里整理一份

首先必须明确的是，Flink Task Manager 的 slot 数和 topic 的分区数是没有直接关系的，而这个问题其实是问的是： 任务的并发数与 slot 数的关系

最大并发数 =  slot 数

这里有两个原因：每个算子的不同并行不能在同一slot，不同的算子可以共享 slot ，所以最大并行度就等于 slot 数。

这样就有了slot数和topic 分区数的间接关系在：我们可能会根据 kafka 的分区数配置我们 source （和后续的其他算子）算子的并行度，而算子的最大并行度决定 slot 数据（TM 的数量由 slot 的数量反向计算）

看一张官网的图：

说明：

第一个图：3 个 Task Manager，每个 3 个 slot，总共 9 个 slot

第二个图：Example 1 ，wordcount 案例，1 个并发，算子chain 在一起，只占一个 slot

第三个图：Examlple 2，wordcount 案例，2 个并发，占2 slot 。三种设置并行度的方式：

flink-conf.yaml 参数 parallelism.default: 2

flink -p 2  # 启动时加 -p 参数指定

env.setParallelism(2)

第四个图：Example 3，wordcount 案例，9 个并发，占 9 slot

第五个图：Example 3，wordcount 案例，source 9 个并发，sink 1 个并发，占 9 个slot（sink 和其中一个 source chain 在一起了）

看一个具体的任务：　　

我们要读的 topic 有 2 个 partition，我们设置 source 算子的并行度为 2，那我们最小就需要 4 个 slot，Task Manager 配置的 slot 数为2， 那最少就需要 2 个 TM 任务才能正常运行（不考虑其他算子）。

关键代码：

env.setParallelism(2)

env.addSource(source).addSink(sink)

提交到yarn 上

上面说明了算子的并发度与TM 的 slot 数的关系。

下面看下，kafka 分区数与 source 算子的并行度关系。

在不修改 kafka consumer 的分区分配策略的情况下，soure 的并行度与 topic 分区数在不同情况下，会有不同的表现，如下：

1、source 并行度 = topic 分区数，正好的情况，一个并行度，读一个分区的数据

2、source 并行读 < topic 分区数，会出现部分并行度读多个分区的情况，具体可见：flink 读取kafka 数据，partition分配

3、source 并行度 > topic 分区数，会出现部分并行度没有数据的情况

总结下问题：slot 数和 topic 的分区数并没有直接关系，以kafka 做 source 的情况最多，而 kafka topic 的分区数一般又是 Flink source 的并行度，又是 Flink 任务的最大并发度，一般情况下又是 slot 的数量，所以会有一种 slot 数和 topic 分区数有直接关系的假象。

注：Task Manager 的 slot 数在 flink-conf.yaml 中配置参数：

# The number of task slots that each TaskManager offers. Each slot runs one parallel pipeline.

taskmanager.numberOfTaskSlots: 2 # 默认值为1

官网 slot 配置说明：https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/config.html#configuring-taskmanager-processing-slots （slot 数量推荐是 standalone 集群每台机只有一个 Task Manager的情况下，具体配置要看实际任务情况）

欢迎关注Flink菜鸟公众号，会不定期更新Flink（开发技术）相关的推文

关于Flink slot 和kafka topic 分区关系的说明的更多相关文章

（三）kafka集群扩容后的topic分区迁移
kafka集群扩容后的topic分区迁移 kafka集群扩容后,新的broker上面不会数据进入这些节点,也就是说,这些节点是空闲的:它只有在创建新的topic时才会参与工作.除非将已有的partit ...
（一）kafka修改topic分区的位置
(一)kafka修改topic分区的位置环境:kafka_2.10-0.8.2.1 + JDK1.7.0_80 1. 查看分区topic的分区分布 $ le-kafka-topics.sh --de ...
kafka topic消息分配partition规则（Java源码）
我们知道Kafka 的消息通过topic进行分类.topic可以被分为若干个partition来存储消息.消息以追加的方式写入partition,然后以先入先出的顺序读取. 下面是topic和part ...
Kakfa揭秘 Day4 Kafka中分区深度解析
Kakfa揭秘 Day4 Kafka中分区深度解析今天主要谈Kafka中的分区数和consumer中的并行度.从使用Kafka的角度说,这些都是至关重要的. 分区原则 Partition代表一个to ...
Kafka Topic Partition Replica Assignment实现原理及资源隔离方案
本文共分为三个部分: Kafka Topic创建方式 Kafka Topic Partitions Assignment实现原理 Kafka资源隔离方案 1. Kafka Topic创建方式 ...
flink引出的kafka不同版本的兼容性
参考: 官网协议介绍:http://kafka.apache.org/protocol.html#The_Messages_Fetch kafka协议兼容性 http://www.cnblogs.c ...
Kafka Topic Api
Pom: <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.10 ...
Flink 中的kafka何时commit?
https://ci.apache.org/projects/flink/flink-docs-release-1.6/internals/stream_checkpointing.html @Ove ...
手动删除Kafka Topic
一.删除Kafka topic 运行./bin/kafka-topics --delete --zookeeper [zookeeper server] --topic [topic name]: ...

随机推荐

httprunner学习2-har2case录制生成脚本
前言复制毁一生,录制穷三代,如果你只是因为不想写脚本,而去录制脚本,那我建议你还是别学录制了. 录制脚本,只是一个过渡,从0到1的一个过渡,如果让你直接写脚本,你会无从下手,可以将录制的脚本快速转化 ...
python列表各种切片姿势
顺着切,反着切,想怎么切就怎么切,但是别被坑. mylist = [1,2,3,4,5,6,7,8,9] print(mylist[2:7:2]) # [3, 5, 7] print(mylist[: ...
Opencv python图像处理-图像相似度计算
一.相关概念一般我们人区分谁是谁,给物品分类,都是通过各种特征去辨别的,比如黑长直.大白腿.樱桃唇.瓜子脸.王麻子脸上有麻子,隔壁老王和儿子很像,但是儿子下巴涨了一颗痣和他妈一模一样,让你确定这是你 ...
spark累加器、广播变量
一言以蔽之: 累加器就是只写变量通常就是做事件统计用的因为rdd是在不同的excutor去执行的你在不同excutor中累加的结果没办法汇总到一起这个时候就需要累加器来帮忙完成广播变量是只 ...
Reducetask机制
Reduce大致分为copy.sort.reduce三个阶段,重点在前两个阶段.copy阶段包含一个eventFetcher来获取已完成的map列表,由Fetcher线程去copy数据,在此 ...
UI系统综述：iOS的图形绘制、动画与runloop
一.一条业务pipeline: 一个连接核心:coreanimation 二.两个进程: 1.app进程: 2.render进程: 首先,由 app 处理事件(Handle Events),如:用户的 ...
P1657选书-（dfs）
https://www.luogu.org/problemnew/show/P1657 解题:对于某个人喜欢的两本书,选或者是不选! 坑:数据有一组是0的,按dfs会出错,0本书选个屁,有啥意义?不给 ...
安装单机es
1.安装JDK(1.8)2.上传解压Elasticsearch-5.4.33.创建一个普通用户,然后将对于的目录修改为普通用户的所属用户和所属组4.修改配置文件config/elasticsearch ...
文件夹上传组件webupload插件
javaweb上传文件上传文件的jsp中的部分上传文件同样可以使用form表单向后端发请求,也可以使用 ajax向后端发请求 1.通过form表单向后端发送请求 <form id=" ...
CT107D电路解析
1.译码器: 其中,A.B.C为输入端, 对应关系如下: CBA 十进制输出(低电平) 000 0 Y0 001 1 Y1 010 ...

关于Flink slot 和kafka topic 分区关系的说明

关于Flink slot 和kafka topic 分区关系的说明的更多相关文章

随机推荐

热门专题