flink-connector-kafka consumer的topic分区分配源码

转载请注明原创地址 http://www.cnblogs.com/dongxiao-yang/p/7200599.html

flink官方提供了连接kafka的connector实现，由于调试的时候发现部分消费行为与预期不太一致，所以需要研究一下源码。

flink-connector-kafka目前已有kafka 0.8、0.9、0.10三个版本的实现，本文以FlinkKafkaConsumer010版本代码为例。

FlinkKafkaConsumer010类的父类继承关系如下，FlinkKafkaConsumerBase包含了大多数实现。

FlinkKafkaConsumer010<T> extends FlinkKafkaConsumer09<T> extends FlinkKafkaConsumerBase<T>

其中每个版本的FlinkKafkaConsumerBase内部都实现了一个对应的AbstractFetcher用来拉取kafka数据，继承关系如下

Kafka010Fetcher<T> extends Kafka09Fetcher<T>extends AbstractFetcher<T, TopicPartition>

FlinkKafkaConsumerBase类定义如下，继承了RichParallelSourceFunction和CheckpointedFunction等接口。

public abstract class FlinkKafkaConsumerBase<T> extends RichParallelSourceFunction<T> implements

        CheckpointListener,

        ResultTypeQueryable<T>,

        CheckpointedFunction,

        CheckpointedRestoring<HashMap<KafkaTopicPartition, Long>> {

FlinkKafkaConsumer内部各方法的执行细节

initializeState

    public void initializeState(FunctionInitializationContext context) throws Exception {

        OperatorStateStore stateStore = context.getOperatorStateStore();

        offsetsStateForCheckpoint = stateStore.getSerializableListState(DefaultOperatorStateBackend.DEFAULT_OPERATOR_STATE_NAME);

        if (context.isRestored()) {

            if (restoredState == null) {

                restoredState = new HashMap<>();

                for (Tuple2<KafkaTopicPartition, Long> kafkaOffset : offsetsStateForCheckpoint.get()) {

                    restoredState.put(kafkaOffset.f0, kafkaOffset.f1);

                }

                LOG.info("Setting restore state in the FlinkKafkaConsumer.");

                if (LOG.isDebugEnabled()) {

                    LOG.debug("Using the following offsets: {}", restoredState);

                }

            }

            if (restoredState != null && restoredState.isEmpty()) {

                restoredState = null;

            }

        } else {

            LOG.info("No restore state for FlinkKafkaConsumer.");

        }

    }

根据运行日志，initializeState会在flinkkafkaconusmer初始化的时候最先调用，方法通过运行时上下文FunctionSnapshotContext调用getOperatorStateStore和getSerializableListState拿到了checkpoint里面的state对象，如果这个task是从失败等过程中恢复的过程中，context.isRestored()会被判定为true，程序会试图从flink checkpoint里获取原来分配到的kafka partition以及最后提交完成的offset。

open

    public void open(Configuration configuration) {

        // determine the offset commit mode

        offsetCommitMode = OffsetCommitModes.fromConfiguration(

                getIsAutoCommitEnabled(),

                enableCommitOnCheckpoints,

                ((StreamingRuntimeContext) getRuntimeContext()).isCheckpointingEnabled());

        switch (offsetCommitMode) {

            case ON_CHECKPOINTS:

                LOG.info("Consumer subtask {} will commit offsets back to Kafka on completed checkpoints.",

                        getRuntimeContext().getIndexOfThisSubtask());

                break;

            case KAFKA_PERIODIC:

                LOG.info("Consumer subtask {} will commit offsets back to Kafka periodically using the Kafka client's auto commit.",

                        getRuntimeContext().getIndexOfThisSubtask());

                break;

            default:

            case DISABLED:

                LOG.info("Consumer subtask {} has disabled offset committing back to Kafka." +

                        " This does not compromise Flink's checkpoint integrity.",

                        getRuntimeContext().getIndexOfThisSubtask());

        }

        // initialize subscribed partitions

        List<KafkaTopicPartition> kafkaTopicPartitions = getKafkaPartitions(topics);

        Preconditions.checkNotNull(kafkaTopicPartitions, "TopicPartitions must not be null.");

        subscribedPartitionsToStartOffsets = new HashMap<>(kafkaTopicPartitions.size());

        if (restoredState != null) {

            for (KafkaTopicPartition kafkaTopicPartition : kafkaTopicPartitions) {

                if (restoredState.containsKey(kafkaTopicPartition)) {

                    subscribedPartitionsToStartOffsets.put(kafkaTopicPartition, restoredState.get(kafkaTopicPartition));

                }

            }

            LOG.info("Consumer subtask {} will start reading {} partitions with offsets in restored state: {}",

                getRuntimeContext().getIndexOfThisSubtask(), subscribedPartitionsToStartOffsets.size(), subscribedPartitionsToStartOffsets);

        } else {

            initializeSubscribedPartitionsToStartOffsets(

                subscribedPartitionsToStartOffsets,

                kafkaTopicPartitions,

                getRuntimeContext().getIndexOfThisSubtask(),

                getRuntimeContext().getNumberOfParallelSubtasks(),

                startupMode,

                specificStartupOffsets);

            if (subscribedPartitionsToStartOffsets.size() != 0) {

                switch (startupMode) {

                    case EARLIEST:

                        LOG.info("Consumer subtask {} will start reading the following {} partitions from the earliest offsets: {}",

                            getRuntimeContext().getIndexOfThisSubtask(),

                            subscribedPartitionsToStartOffsets.size(),

                            subscribedPartitionsToStartOffsets.keySet());

                        break;

                    case LATEST:

                        LOG.info("Consumer subtask {} will start reading the following {} partitions from the latest offsets: {}",

                            getRuntimeContext().getIndexOfThisSubtask(),

                            subscribedPartitionsToStartOffsets.size(),

                            subscribedPartitionsToStartOffsets.keySet());

                        break;

                    case SPECIFIC_OFFSETS:

                        LOG.info("Consumer subtask {} will start reading the following {} partitions from the specified startup offsets {}: {}",

                            getRuntimeContext().getIndexOfThisSubtask(),

                            subscribedPartitionsToStartOffsets.size(),

                            specificStartupOffsets,

                            subscribedPartitionsToStartOffsets.keySet());

                        List<KafkaTopicPartition> partitionsDefaultedToGroupOffsets = new ArrayList<>(subscribedPartitionsToStartOffsets.size());

                        for (Map.Entry<KafkaTopicPartition, Long> subscribedPartition : subscribedPartitionsToStartOffsets.entrySet()) {

                            if (subscribedPartition.getValue() == KafkaTopicPartitionStateSentinel.GROUP_OFFSET) {

                                partitionsDefaultedToGroupOffsets.add(subscribedPartition.getKey());

                            }

                        }

                        if (partitionsDefaultedToGroupOffsets.size() > 0) {

                            LOG.warn("Consumer subtask {} cannot find offsets for the following {} partitions in the specified startup offsets: {}" +

                                    "; their startup offsets will be defaulted to their committed group offsets in Kafka.",

                                getRuntimeContext().getIndexOfThisSubtask(),

                                partitionsDefaultedToGroupOffsets.size(),

                                partitionsDefaultedToGroupOffsets);

                        }

                        break;

                    default:

                    case GROUP_OFFSETS:

                        LOG.info("Consumer subtask {} will start reading the following {} partitions from the committed group offsets in Kafka: {}",

                            getRuntimeContext().getIndexOfThisSubtask(),

                            subscribedPartitionsToStartOffsets.size(),

                            subscribedPartitionsToStartOffsets.keySet());

                }

            }

        }

    }

open方法会在initializeState技术后调用，主要逻辑分为几个步骤

1 判断offsetCommitMode。根据kafka的auto commit ，setCommitOffsetsOnCheckpoints()的值（默认为true）以及flink运行时有没有开启checkpoint三个参数的组合，

offsetCommitMode共有三种模式：ON_CHECKPOINTS checkpoint结束后提交offset；KAFKA_PERIODIC kafkaconsumer自带的定期提交功能；DISABLED 不提交

2 分配kafka partition 。如果initializeState阶段已经拿到了state之前存储的partition，直接继续读取对应的分区，如果是第一次初始化，调initializeSubscribedPartitionsToStartOffsets

方法计算当前task对应的分区列表

    protected static void initializeSubscribedPartitionsToStartOffsets(

            Map<KafkaTopicPartition, Long> subscribedPartitionsToStartOffsets,

            List<KafkaTopicPartition> kafkaTopicPartitions,

            int indexOfThisSubtask,

            int numParallelSubtasks,

            StartupMode startupMode,

            Map<KafkaTopicPartition, Long> specificStartupOffsets) {

        for (int i = 0; i < kafkaTopicPartitions.size(); i++) {

            if (i % numParallelSubtasks == indexOfThisSubtask) {

                if (startupMode != StartupMode.SPECIFIC_OFFSETS) {

                    subscribedPartitionsToStartOffsets.put(kafkaTopicPartitions.get(i), startupMode.getStateSentinel());

                } else {

                    if (specificStartupOffsets == null) {

                        throw new IllegalArgumentException(

                            "Startup mode for the consumer set to " + StartupMode.SPECIFIC_OFFSETS +

                                ", but no specific offsets were specified");

                    }

                    KafkaTopicPartition partition = kafkaTopicPartitions.get(i);

                    Long specificOffset = specificStartupOffsets.get(partition);

                    if (specificOffset != null) {

                        // since the specified offsets represent the next record to read, we subtract

                        // it by one so that the initial state of the consumer will be correct

                        subscribedPartitionsToStartOffsets.put(partition, specificOffset - 1);

                    } else {

                        subscribedPartitionsToStartOffsets.put(partition, KafkaTopicPartitionStateSentinel.GROUP_OFFSET);

                    }

                }

            }

        }

    }

可以看到，flink采用分区号逐个对flink并发任务数量取余的方式来分配partition，如果i % numParallelSubtasks == indexOfThisSubtask，那么这个i分区就归属当前分区拥有。

partition的分区结果记录在私有变量Map<KafkaTopicPartition, Long> subscribedPartitionsToStartOffsets 里，用于后续初始化consumer。

run方法

    @Override

    public void run(SourceContext<T> sourceContext) throws Exception {

        if (subscribedPartitionsToStartOffsets == null) {

            throw new Exception("The partitions were not set for the consumer");

        }

        // we need only do work, if we actually have partitions assigned

        if (!subscribedPartitionsToStartOffsets.isEmpty()) {

            // create the fetcher that will communicate with the Kafka brokers

            final AbstractFetcher<T, ?> fetcher = createFetcher(

                    sourceContext,

                    subscribedPartitionsToStartOffsets,

                    periodicWatermarkAssigner,

                    punctuatedWatermarkAssigner,

                    (StreamingRuntimeContext) getRuntimeContext(),

                    offsetCommitMode);

            // publish the reference, for snapshot-, commit-, and cancel calls

            // IMPORTANT: We can only do that now, because only now will calls to

            //            the fetchers 'snapshotCurrentState()' method return at least

            //            the restored offsets

            this.kafkaFetcher = fetcher;

            if (!running) {

                return;

            }

            // (3) run the fetcher' main work method

            fetcher.runFetchLoop();

        }

        else {

            // this source never completes, so emit a Long.MAX_VALUE watermark

            // to not block watermark forwarding

            sourceContext.emitWatermark(new Watermark(Long.MAX_VALUE));

            // wait until this is canceled

            final Object waitLock = new Object();

            while (running) {

                try {

                    //noinspection SynchronizationOnLocalVariableOrMethodParameter

                    synchronized (waitLock) {

                        waitLock.wait();

                    }

                }

                catch (InterruptedException e) {

                    if (!running) {

                        // restore the interrupted state, and fall through the loop

                        Thread.currentThread().interrupt();

                    }

                }

            }

        }

    }

可以看到计算好的subscribedPartitionsToStartOffsets被传到了拥有consumerThread的AbstractFetcher实例内部，KafkaConsumerThread通过调用consumerCallBridge.assignPartitions(consumer, convertKafkaPartitions(subscribedPartitionStates));方法最终调用到了consumer.assign(topicPartitions);手动向consumer实例指定了topic分配。

参考文档：

Working with State

flink-connector-kafka consumer的topic分区分配源码的更多相关文章

Kafka消费分组和分区分配策略
Kafka消费分组,消息消费原理同一个消费组里的消费者不能消费同一个分区,不同消费组的消费组可以消费同一个分区 Kafka分区分配策略在 Kafka 内部存在两种默认的分区分配策略:Range 和 ...
kafka 0.8.1 新producer 源码简单分析
1 背景最近由于项目需要,需要使用kafka的producer.但是对于c++,kafka官方并没有很好的支持. 在kafka官网上可以找到0.8.x的客户端.可以使用的客户端有C版本客户端,此客户 ...
Kafka服务端之网络连接源码分析
#### 简介上次我们通过分析KafkaProducer的源码了解了生产端的主要流程,今天学习下服务端的网络层主要做了什么,先看下 KafkaServer的整体架构图 ![file](https:/ ...
Flink中接收端反压以及Credit机制 (源码分析)
先上一张图整体了解Flink中的反压可以看到每个task都会有自己对应的IG(inputgate)对接上游发送过来的数据和RS(resultPatation)对接往下游发送数据, 整个反压机制通 ...
Flink 如何通过2PC实现Exactly-once语义（源码分析）
Flink通过全局快照能保证内部处理的Exactly-once语义但是端到端的Exactly-once还需要下游数据源配合,常见的通过幂等或者二阶段提交这两种方式保证这里就来分析一下Sink二阶段 ...
从flink-example分析flink组件(3)WordCount 流式实战及源码分析
前面介绍了批量处理的WorkCount是如何执行的 <从flink-example分析flink组件(1)WordCount batch实战及源码分析> <从flink-exampl ...
Flink中TaskManager端执行用户逻辑过程(源码分析)
TaskManager接收到来自JobManager的jobGraph转换得到的TDD对象,启动了任务,在StreamInputProcessor类的processInput()方法中通过一个whi ...
Flink Sql 之 Calcite Volcano优化器（源码解析）
Calcite作为大数据领域最常用的SQL解析引擎,支持Flink , hive, kylin , druid等大型项目的sql解析同时想要深入研究Flink sql源码的话calcite也是必备 ...
Spark(二)【sc.textfile的分区策略源码分析】
sparkcontext.textFile()返回的是HadoopRDD! 关于HadoopRDD的官方介绍,使用的是旧版的hadoop api ctrl+F12搜索 HadoopRDD的getPar ...

随机推荐

CentOS 7.1 中文正式版下载 - 最流行的免费开源企业级 Linux 服务器操作系统
如果说 Ubuntu 是现今最受桌面用户欢迎的 Linux 操作系统,那么 CentOS 就是最受公司.企业.IDC 喜爱的 Linux 发行版了.得益于极为出色的稳定性,全球范围内无数著名网站均选用 ...
[Contest20171028]火神的鱼
火神最爱的就是吃鱼了,所以某一天他来到了一个池塘边捕鱼.池塘可以看成一个二维的平面,而他的渔网可以看成一个与坐标轴平行的矩形.池塘里的鱼不停地在水中游动,可以看成一些点.有的时候会有鱼游进渔网,有的时 ...
【循环节】 Codeforces Round #401 (Div. 2) A. Shell Game
容易发现存在循环节. #include<cstdio> using namespace std; int n,x,a[3][6]={{0,1,2,2,1,0},{1,0,0,1,2,2}, ...
[SourceTree]--记录Win10 安装SourceTree免注册登陆
记录SourceTree一次安装不成功的过程及解决办法 SourceTree简介按照官网介绍:SourceTree是一款用于Windows和Mac的免费Git客户端.简化了用户与Git存储(仓)库的 ...
Android 架构 2.界面
其中,最上层的界面,是变化最频繁的一个层面,也是最复杂最容易出问题的一个层面,如果规划不好,很容易做着做着,又乱成一团了.要规划好界面层,至少应该遵循几条基本的原则: 保持规范性:定义好开发规范,包括 ...
[Bug]转：使用jquery的 uploadify，在谷歌浏览器上总会崩溃的解决方法
最近做的项目使用了jquery的uploadify,但是在谷歌浏览器测试总是会出现崩溃.如: 因为是java项目. 解决的办法是: 给引入的js加上一个参数,时间戳就可以,防止缓存,使每一次都请求.( ...
设置cookie和查找cookie的方法
1.设置cookie(名称,值,过期时间) function setCookie(key,value,d){ if(d === undefined){ document.cookie = encode ...
折腾kubernetes各种问题汇总
折腾fluend-elasticsearch日志,折腾出一大堆问题,解决这些问题过程中,感觉又了解了不少. 1.如何删除不一致状态下的rc,deployment,service. 在某些情况下,经常发 ...
python之web路径扫描工具
# coding: UTF-8 import sys, os, time, httplibimport relist_http=[] #http数组 def open_httptxt(): #打开 ...
Windows 2003 R2
微软发布Windows Server 2003 R2版的目的是希望透过它填补Windows Server 2003 SP1和Longhorn Server之间的产品发布时间间隔. 微软向产品测试人员表 ...

flink-connector-kafka consumer的topic分区分配源码

flink-connector-kafka consumer的topic分区分配源码的更多相关文章

随机推荐

热门专题