kafka消费组、消费者

consumer group

consumer instance

一个消费组可能有一个或者多个消费者。同一个消费组可以订阅一个或者多个主题。主题的某一个分区只能被消费组的某一个消费者消费。那么分区和消费者之间是如何对应的呢？

假设消费组cg1(group.id=cg1)订阅了topic1，cg1有3个消费者c1、c2、c3，topic1有5个分区p1、p2、p3、p4、p5。那么c1消费topic1的哪个或者哪些分区呢？p1要被cg1的哪个消费者消费呢？

kafka2.2.0源码中有一个PartitionAssignor接口(在kafka-client.jar的org.apache.kafka.clients.consumer.internals包中)，该接口有2个实现类：AbstractPartitionAssignor(在kafka-client.jar的org.apache.kafka.clients.consumer.internals包中)和StreamsPartitionAssignor(在kafka-stream.jar的org.apache.kafka.streams.processor.internals包中)。AbstractPartitionAssignor有3个子类：RangeAssignor(在kafka-client.jar的org.apache.kafka.clients.consumer包中)、RoundRobinAssignor(在kafka-client.jar的org.apache.kafka.clients.consumer包中)、StickyAssignor(在kafka-client.jar的org.apache.kafka.clients.consumer包中)。这些非抽象类分别实现了不同的策略：

记录在消费者这边用ConsumerRecord表示，成员变量有：

String topic、int partition、long offset、long timestamp、TimestampType timestampType、int serializedKeySize、int serializedValueSize、Headers headers、K key、V value、Optional<Integer> leaderEpoch

其中leaderEpoch最不好理解，其意思是？？？

KafkaConsumer实例就是一个kafka消费者客户端，从kafka集群消费记录。消费者客户端透明地处理kafka代理的故障，透明地适应主题分区。同一消费组的各消费者会负载均衡消息的消费。消费者维护与kafka代理的TCP连接，以取数据(fetch data)。消费者客户端在使用完之后要close，否则就会有资源泄露。和生产者客户端不同，消费者客户端不是线程安全的。

Offsets and Consumer Position
Kafka maintains a numerical offset for each record in a partition. This offset acts as a unique identifier of a record within that partition, and also denotes the position of the consumer in the partition. For example, a consumer which is at position 5 has consumed records with offsets 0 through 4 and will next receive the record with offset 5. There are actually two notions of position relevant to the user of the consumer:
The {@link #position(TopicPartition) position} of the consumer gives the offset of the next record that will be given out. It will be one larger than the highest offset the consumer has seen in that partition. It automatically advances every time the consumer receives messages in a call to {@link #poll(Duration)}.
The {@link #commitSync() committed position} is the last offset that has been stored securely. Should the process fail and restart, this is the offset that the consumer will recover to. The consumer can either automatically commit offsets periodically; or it can choose to control this committed position manually by calling one of the commit APIs (e.g. {@link #commitSync() commitSync} and {@link #commitAsync(OffsetCommitCallback) commitAsync}).
This distinction gives the consumer control over when a record is considered consumed. It is discussed in further detail below.

简单用例：

    public static void main(String[] args) {

        Properties props = new Properties();

        props.setProperty("bootstrap.servers", "127.0.0.1:9092");

        props.setProperty("group.id", "my-test-consumer-group2");

        props.setProperty("enable.auto.commit", "true");

        props.setProperty("auto.commit.interval.ms", "500");

        props.setProperty("auto.offset.reset", "earliest");

        props.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        props.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);

        consumer.subscribe(Collections.singletonList("test"));

        while (true) {

            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(10000));

            System.out.println(System.currentTimeMillis());

            for (ConsumerRecord<String, String> record : records) {

                System.out.println(record);

            }

        }

    }

消费者客户端从kafka集群拉数据的方式是poll(Duration timeout)，返回ConsumerRecords类型。ConsumerRecords类实现了Iterable<ConsumerRecord<K, V>>接口。在消费者这里，记录用ConsumerRecord实例表示。ConsumerRecords表示记录的集合。上例中，poll方法会最多阻塞1000ms。在fetch不到数据的时候才会阻塞，比如先启动了消费者，但是还没启动生产者的情况。

enable.auto.commit，这个值默认为true，即自动向kafka提交消费者偏移量。消费者必须向kafka提交消费偏移量，否则会一直重复消费同一条消息。除了默认的自动提交外，还可以设置为手动提交，手动提交需要我们显式地调用KafkaConsumer实例的commitXXX方法，如无参的commitSync()方法。auto.commit.interval.ms默认值是5000，即每5000ms才提交一次消费偏移量，时间太长了，设为500ms左右比较合适。

实测，真不提交偏移量的话，随着生产者往topic中生产数据，通过命令查看kafka-consumer-groups --describe --group my-test-consumer-group2 --bootstrap-server 127.0.0.1:9092，发现log-end-offset一直在增大，但是current-offset一直不变，lag也一直在变大。log-end-offset是分区消息偏移量，current-offset是消费偏移量，lag是消费延迟。当重启消费者后，消费者又从上一次启动后消费的起始位置即current-offset开始消费，这就重复消费了。

auto.offset.reset，这个默认为latest，即消费者第一次消费时从最大偏移量开始消费。假如先往topic中放了一些消息，然后才启动了消费者，那么消费者消费不了这些消息，只能消费之后放入topic中的消息。

我们可以显式地把auto.offset.reset设置为earliest，这样子，第一次启动消费者后就可以消费到启动之前topic已有的消息。

注意，这个只会影响消费者第一次的消费情况，只要不是第一次启动，即已经有了消费记录的消费者再次启动后都会接着上次的消费偏移量消费，不管auto.offset.reset的值是latest还是earliest。

每次poll多少条记录呢？或者说每次poll多少数据量呢？

由以下几个参数控制：

fetch.min.bytes，每次poll最小数据量，默认值为1byte

fetch.max.bytes，每次poll最大数据量，默认值为50MB

max.partition.fetch.bytes，每次poll每个分区最大数据量，默认值为1MB

max.poll.records，每次poll最大记录个数，默认值为1048676。

kafka消费组、消费者的更多相关文章

Kafka 消费组消费者分配策略
body { margin: 0 auto; font: 13px / 1 Helvetica, Arial, sans-serif; color: rgba(68, 68, 68, 1); padd ...
Kafka设计解析（十三）Kafka消费组(consumer group)
转载自 huxihx,原文链接 Kafka消费组(consumer group) 一直以来都想写一点关于kafka consumer的东西,特别是关于新版consumer的中文资料很少.最近Kafka ...
kafka 消费组功能验证以及消费者数据重复数据丢失问题说明 3
原创声明:作者:Arnold.zhao 博客园地址:https://www.cnblogs.com/zh94 背景上一篇文章记录了kafka的副本机制和容错功能的说明,本篇则主要在上一篇文章的基础上 ...
Kafka消费组(consumer group)
一直以来都想写一点关于kafka consumer的东西,特别是关于新版consumer的中文资料很少.最近Kafka社区邮件组已经在讨论是否应该正式使用新版本consumer替换老版本,笔者也觉得时 ...
Kafka技术内幕读书笔记之（五）协调者——消费者加入消费组
消费者客户端轮询的3个步骤:发送拉取请求,客户端轮询,获取拉取结果 . 消费者在发送拉取请求之前,必须首先满足下面的两个条件.- 确保消费者已经连接协调者, 即找到服务端中管理这个消费者的协调者节点 ...
Kafka技术内幕读书笔记之（五）协调者——消费组状态机
协调者保存的消费组元数据中记录了消费组的状态机 , 消费组状态机的转换主要发生在“加入组请求”和“同步组请求”的处理过程中 .协调者处理“离开消费组请求”“迁移消费组请求”“心跳请求” “提交偏移量请 ...
kafka中的消费组
一直以来都想写一点关于kafka consumer的东西,特别是关于新版consumer的中文资料很少.最近Kafka社区邮件组已经在讨论是否应该正式使用新版本consumer替换老版本,笔者也觉得时 ...
Kafka 0.11新功能介绍：空消费组延迟rebalance
Kafka 0.11新功能介绍:空消费组延迟rebalance 在0.11之前的版本中,多个consumer实例加入到一个空消费组将导致多次的rebalance,这是由于每个consumer inst ...
Kafka 0.11版本新功能介绍 —— 空消费组延时rebalance
在0.11之前的版本中,多个consumer实例加入到一个空消费组将导致多次的rebalance,这是由于每个consumer instance启动的时间不可控,很有可能超出coordinator确定 ...

随机推荐

控制 input 输入框不能输入中文，即不能在输入框中使用输入法
设置输入框的样式,代码如下 <span style="font-size:18px;"><input type = "text" id = & ...
观察者模式(jdk实现)
1.定义在对象中定义一对多的依赖,当一个对象改变状态,依赖它的对象会收到通知并更新. 2.实现 (主要通过jdk自己定义的观察者实现) 以气象站通知展示板为例子,当气象站收到的各种参数改变的时候 ...
【ABAP系列】SAP ABAP 仓库库存-物料拆分的算法
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[ABAP系列]SAP ABAP 仓库库存-物料 ...
LeetCode——160 Intersection of Two Linked Lists
题目 Input: intersectVal = 8, listA = [4,1,8,4,5], listB = [5,0,1,8,4,5], skipA = 2, skipB = 3 Output: ...
c# 对象相等性和同一性
一:对象相等性和同一性 System.Object提供了名为Equals的虚方法,作用是在两个对象包含相同值的前提下返回true,内部实现 public class Object { public v ...
SQLServer中的Merge使用
Merge DML 作用: 数据同步数据转换基于源表对目标表做Insert,Update,Delete操作 Merge关键字的一些限制使用Merge关键字只能更新一个表源表中不能有重复的记录 ...
C语言如何操作内存
1.用变量名来访问内存(c语言对内存地址的封装.数据类型.函数名)--直接访问内存(使用地址) 如 int a; 编译器将申请32bit的内存(4个内存单元),同时将内存地址和变量名a绑定,操作a时, ...
如何创建Windows虚拟机
Windows虚拟机搭建第1步:运行"Vmware WorkStation",看到主页面,创建新的虚拟机第2步:新建虚拟机向导——典型(推荐) 第3步:选择光盘映像文件第4步 ...
[Python3] 008 列表内涵，“满腹经纶”
目录简述少废话,上例子例1 用 for 创建列表例2 看看乘法"向"着谁例3 给列表加一张"滤纸" 例4 列表生成式可以嵌套例5 列表生式还能嵌入条 ...
Python 批量文件下载
python文件批量下载 .图片批量下载 ,批量请求.爬虫 #==================================================================== ...

kafka消费组、消费者

kafka消费组、消费者的更多相关文章

随机推荐

热门专题