Kafka提交offset机制

在kafka的消费者中，有一个非常关键的机制，那就是offset机制。它使得Kafka在消费的过程中即使挂了或者引发再均衡问题重新分配Partation，当下次重新恢复消费时仍然可以知道从哪里开始消费。它好比看一本书中的书签标记，每次通过书签标记(offset)就能快速找到该从哪里开始看(消费)。

Kafka对于offset的处理有两种提交方式：(1) 自动提交(默认的提交方式) (2) 手动提交(可以灵活地控制offset)

(1) 自动提交偏移量:

Kafka中偏移量的自动提交是由参数enable_auto_commit和auto_commit_interval_ms控制的，当enable_auto_commit=True时，Kafka在消费的过程中会以频率为auto_commit_interval_ms向Kafka自带的topic(__consumer_offsets)进行偏移量提交，具体提交到哪个Partation是以算法：partation=hash(group_id)%50来计算的。

如：group_id=test_group_1，则partation=hash("test_group_1")%50=28

自动提交偏移量示例：

 import pickle

 import uuid

 from kafka import KafkaConsumer

 consumer = KafkaConsumer(

     bootstrap_servers=['192.168.33.11:9092'],

     group_id="test_group_1",

     client_id="{}".format(str(uuid.uuid4())),

     max_poll_records=500,

     enable_auto_commit=True,  # 默认为True 表示自动提交偏移量

     auto_commit_interval_ms=100,  # 控制自动提交偏移量的频率 单位ms 默认是5000ms

     key_deserializer=lambda k: pickle.loads(k),

     value_deserializer=lambda v: pickle.loads(v)

 )

 # 订阅消费round_topic这个主题

 consumer.subscribe(topics=('round_topic',))

 try:

     while True:

         consumer_records_dict = consumer.poll(timeout_ms=1000)

         # consumer.assignment()可以获取每个分区的offset

         for partition in consumer.assignment():

             print('主题:{} 分区:{},需要从下面的offset开始消费:{}'.format(

                 str(partition.topic),

                 str(partition.partition),

                 consumer.position(partition)

             ))

         # 处理逻辑.

         for k, record_list in consumer_records_dict.items():

             print(k)

             for record in record_list:

                 print("topic = {},partition = {},offset = {},key = {},value = {}".format(

                     record.topic, record.partition, record.offset, record.key, record.value)

                 )

 finally:

     # 调用close方法的时候会触发偏移量的自动提交 close默认autocommit=True

     consumer.close()

返回结果：

在上述代码中，最后调用consumer.close()时候也会触发自动提交，因为它默认autocommit=True，源码如下：

     def close(self, autocommit=True):

         """Close the consumer, waiting indefinitely for any needed cleanup.

         Keyword Arguments:

             autocommit (bool): If auto-commit is configured for this consumer,

                 this optional flag causes the consumer to attempt to commit any

                 pending consumed offsets prior to close. Default: True

         """

         if self._closed:

             return

         log.debug("Closing the KafkaConsumer.")

         self._closed = True

         self._coordinator.close(autocommit=autocommit)

         self._metrics.close()

         self._client.close()

         try:

             self.config['key_deserializer'].close()

         except AttributeError:

             pass

         try:

             self.config['value_deserializer'].close()

         except AttributeError:

             pass

         log.debug("The KafkaConsumer has closed.")

对于自动提交偏移量，如果auto_commit_interval_ms的值设置的过大，当消费者在自动提交偏移量之前异常退出，将导致kafka未提交偏移量，进而出现重复消费的问题，所以建议auto_commit_interval_ms的值越小越好。

(2) 手动提交偏移量:

鉴于Kafka自动提交offset的不灵活性和不精确性(只能是按指定频率的提交)，Kafka提供了手动提交offset策略。手动提交能对偏移量更加灵活精准地控制，以保证消息不被重复消费以及消息不被丢失。

对于手动提交offset主要有3种方式：1.同步提交 2.异步提交 3.异步+同步组合的方式提交

1.同步手动提交偏移量

同步模式下提交失败的时候一直尝试提交，直到遇到无法重试的情况下才会结束，同时同步方式下消费者线程在拉取消息会被阻塞，在broker对提交的请求做出响应之前，会一直阻塞直到偏移量提交操作成功或者在提交过程中发生异常，限制了消息的吞吐量。

 """

 同步的方式10W条消息  4.58s

 """

 import pickle

 import uuid

 import time

 from kafka import KafkaConsumer

 consumer = KafkaConsumer(

     bootstrap_servers=['192.168.33.11:9092'],

     group_id="test_group_1",

     client_id="{}".format(str(uuid.uuid4())),

     enable_auto_commit=False,  # 设置为手动提交偏移量.

     key_deserializer=lambda k: pickle.loads(k),

     value_deserializer=lambda v: pickle.loads(v)

 )

 # 订阅消费round_topic这个主题

 consumer.subscribe(topics=('round_topic',))

 try:

     start_time = time.time()

     while True:

         consumer_records_dict = consumer.poll(timeout_ms=100)  # 在轮询中等待的毫秒数

         print("获取下一轮")

         record_num = 0

         for key, record_list in consumer_records_dict.items():

             for record in record_list:

                 record_num += 1

         print("---->当前批次获取到的消息个数是:{}<----".format(record_num))

         record_num = 0

         for k, record_list in consumer_records_dict.items():

             for record in record_list:

                 print("topic = {},partition = {},offset = {},key = {},value = {}".format(

                     record.topic, record.partition, record.offset, record.key, record.value)

                 )

         try:

             # 轮询一个batch 手动提交一次

             consumer.commit()  # 提交当前批次最新的偏移量. 会阻塞  执行完后才会下一轮poll

             end_time = time.time()

             time_counts = end_time - start_time

             print(time_counts)

         except Exception as e:

             print('commit failed', str(e))

 finally:

     consumer.close()  # 手动提交中close对偏移量提交没有影响

从上述可以看出，每轮循一个批次，手动提交一次，只有当前批次的消息提交完成时才会触发poll来获取下一轮的消息，经测试10W条消息耗时4.58s

2.异步手动提交偏移量+回调函数

异步手动提交offset时，消费者线程不会阻塞，提交失败的时候也不会进行重试，并且可以配合回调函数在broker做出响应的时候记录错误信息。

 """

 异步的方式手动提交偏移量(异步+回调函数的模式) 10W条消息 3.09s

 """

 import pickle

 import uuid

 import time

 from kafka import KafkaConsumer

 consumer = KafkaConsumer(

     bootstrap_servers=['192.168.33.11:9092'],

     group_id="test_group_1",

     client_id="{}".format(str(uuid.uuid4())),

     enable_auto_commit=False,  # 设置为手动提交偏移量.

     key_deserializer=lambda k: pickle.loads(k),

     value_deserializer=lambda v: pickle.loads(v)

 )

 # 订阅消费round_topic这个主题

 consumer.subscribe(topics=('round_topic',))

 def _on_send_response(*args, **kwargs):

     """

     提交偏移量涉及回调函数

     :param args: args[0] --> {TopicPartition:OffsetAndMetadata}  args[1] --> Exception

     :param kwargs:

     :return:

     """

     if isinstance(args[1], Exception):

         print('偏移量提交异常. {}'.format(args[1]))

     else:

         print('偏移量提交成功')

 try:

     start_time = time.time()

     while True:

         consumer_records_dict = consumer.poll(timeout_ms=10)

         record_num = 0

         for key, record_list in consumer_records_dict.items():

             for record in record_list:

                 record_num += 1

         print("当前批次获取到的消息个数是:{}".format(record_num))

         for record_list in consumer_records_dict.values():

             for record in record_list:

                 print("topic = {},partition = {},offset = {},key = {},value = {}".format(

                     record.topic, record.partition, record.offset, record.key, record.value))

         # 避免频繁提交

         if record_num != 0:

             try:

                 consumer.commit_async(callback=_on_send_response)

             except Exception as e:

                 print('commit failed', str(e))

         record_num = 0

 finally:

     consumer.close()

对于args参数：args[0]是一个dict，key是TopicPartition，value是OffsetAndMetadata，表示该主题下的partition对应的offset；args[1]在提交成功是True，提交失败时是一个Exception类。

对于异步提交，由于不会进行失败重试，当消费者异常关闭或者触发了再均衡前，如果偏移量还未提交就会造成偏移量丢失。

3.异步+同步组合的方式提交偏移量

针对异步提交偏移量丢失的问题，通过对消费者进行异步批次提交并且在关闭时同步提交的方式，这样即使上一次的异步提交失败，通过同步提交还能够进行补救，同步会一直重试，直到提交成功。

 """

 同步和异步组合的方式提交偏移量

 """

 import pickle

 import uuid

 import time

 from kafka import KafkaConsumer

 consumer = KafkaConsumer(

     bootstrap_servers=['192.168.33.11:9092'],

     group_id="test_group_1",

     client_id="{}".format(str(uuid.uuid4())),

     enable_auto_commit=False,  # 设置为手动提交偏移量.

     key_deserializer=lambda k: pickle.loads(k),

     value_deserializer=lambda v: pickle.loads(v)

 )

 # 订阅消费round_topic这个主题

 consumer.subscribe(topics=('round_topic',))

 def _on_send_response(*args, **kwargs):

     """

     提交偏移量涉及的回调函数

     :param args:

     :param kwargs:

     :return:

     """

     if isinstance(args[1], Exception):

         print('偏移量提交异常. {}'.format(args[1]))

     else:

         print('偏移量提交成功')

 try:

     start_time = time.time()

     while True:

         consumer_records_dict = consumer.poll(timeout_ms=100)

         record_num = 0

         for key, record_list in consumer_records_dict.items():

             for record in record_list:

                 record_num += 1

         print("---->当前批次获取到的消息个数是:<----".format(record_num))

         record_num = 0

         for k, record_list in consumer_records_dict.items():

             print(k)

             for record in record_list:

                 print("topic = {},partition = {},offset = {},key = {},value = {}".format(

                     record.topic, record.partition, record.offset, record.key, record.value)

                 )

         try:

             # 轮询一个batch 手动提交一次

             consumer.commit_async(callback=_on_send_response)

             end_time = time.time()

             time_counts = end_time - start_time

             print(time_counts)

         except Exception as e:

             print('commit failed', str(e))

 except Exception as e:

     print(str(e))

 finally:

     try:

         # 同步提交偏移量,在消费者异常退出的时候再次提交偏移量,确保偏移量的提交.

         consumer.commit()

         print("同步补救提交成功")

     except Exception as e:

         consumer.close()

通过finally在最后不管是否异常都会触发consumer.commit()来同步补救一次，确保偏移量不会丢失

Kafka提交offset机制的更多相关文章

Kafka文件存储机制及partition和offset
转载自: https://yq.aliyun.com/ziliao/65771 参考: Kafka集群partition replication默认自动分配分析如何为kafka选择合适的p ...
Kafka文件存储机制及offset存取
Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx ...
kafka消费端提交offset的方式
Kafka 提供了 3 种提交 offset 的方式自动提交复制 1234 consumer.commitSync(); 手动异步提交 offset 复制 1 consumer.commitAsy ...
Kafka的存储机制以及可靠性
一.kafka的存储机制 kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment. 所谓的分区其实就是在kafka对应存储目录下创建的文件夹 ...
图解 Kafka 水印备份机制
高可用是很多分布式系统中必备的特征之一,Kafka 日志的高可用是通过基于 leader-follower 的多副本同步实现的,每个分区下有多个副本,其中只有一个是 leader 副本,提供发送和消费 ...
kafka知识体系-kafka设计和原理分析-kafka文件存储机制
kafka文件存储机制 topic中partition存储分布假设实验环境中Kafka集群只有一个broker,xxx/message-folder为数据文件存储根目录,在Kafka broker中 ...
Kafka文件存储机制那些事
Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx ...
关于SpringKafka消费者的几个监听器:[一次处理单条消息和一次处理一批消息]以及[自动提交offset和手动提交offset]
自己在使用Spring Kafka 的消费者消费消息的时候的实践总结: 接口 KafkaDataListener 是spring-kafka提供的一个供消费者接受消息的顶层接口,也是一个空接口; pu ...
spring-kafka手动提交offset
<?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.sp ...

随机推荐

python2 配置环境变量
复习 '''重点:1.进制转换:二进制与十六进制2.内存分布:栈区与堆区 # 124810101001110111 => 2a77abf1 => 1010101111110001 ...
DataTable行列转置
DataTable dtNew = new DataTable(); dtNew.Columns.Add("ColumnName", typeof(string)); ; i &l ...
Mathematica 代码
s1 = ContourPlot3D[x^2 + z^2 == 1, {x, -1, 1}, {y, 0, 1}, {z, -1, 1}] s2 = ContourPlot3D[ y == 1 + S ...
IntelliJ IDEA 的默认文件编码
建好项目,首先注意改项目默认编码 File->Settings(快捷键Ctrl+Alt+S)->Editor->File Encodings File->Other Setti ...
小程序 <web-view></web-view> 中使用 form 表单提交
在最近的小程序项目中,使用到了 <web-view></web-view> 内嵌 H5 页面,在 H5 中需要使用 form 表单提交数据. H5 使用的技术框架是 vue+v ...
Laravel框架中打印sql
在使用Laravel框架的时候,调试的时候,需要将查询的SQL输出校验,这是需要将SQL打印出来. 一.方法 DB::connection()->enableQueryLog(); // 开 ...
java中几种加/解密API
如基本的单向加密算法: BASE64 严格地说,属于编码格式,而非加密算法 MD5(Message Digest algorithm 5,信息摘要算法) SHA(Secure Hash Algorit ...
Python爬虫案例-获取最新的中国行政区域划分
源网页:中国统计局标准 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/ 打开网页后可以分析出行政区域划分共分为5层根据传入参数,生成网页 ...
L2-004 这是二叉搜索树吗？（25 分) （树）
链接:https://pintia.cn/problem-sets/994805046380707840/problems/994805070971912192 题目: 一棵二叉搜索树可被递归地定义为 ...
json中的json.dumps()
Json简介 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式.它基于JavaScript(Standard ECMA-262 3rd Edition - ...

Kafka提交offset机制

Kafka提交offset机制的更多相关文章

随机推荐

热门专题