Apache Kafka（八）- Kafka Delivery Semantics for Consumers

Kafka Delivery Semantics

在Kafka Consumer中，有3种delivery semantics，分别为：至多一次（at most once）、至少一次（at least once）、以及准确一次（exactly once），下面我们分别介绍这3种Delivery 语义。

1. At Most Once

在message batch在被consumer接收后，立即commit offsets。此时若是在消息处理逻辑中出现异常，则未被处理的消息会丢失（不会再次被读取）。

此场景一个例子如下图：

此例流程如下：

Consumer读一个batch的消息
在接收到消息后，Consumer commits offsets
Consumer 处理数据，例如发送邮件，但是此时一个batch中的最后两条消息由于consumer异常宕机而未被正常处理
Consumer 重启并重新开始读数据。但是此时由于已经committed offset，所以consumer会在最新的offset处读一个batch的消息，之前上一个batch中由于异常而未被处理的消息会丢失

所以at most once 会有丢失数据的风险，但若是应用可以承受丢失数据的风险，则可以使用此方式。

2. At Least Once

在消息被consumer接收并处理后，offsets才被 commit。若是在消息处理时发生异常，则消息会被重新消费。也就是说，会导致消息被重复处理。

At Least Once 是默认使用的语义，在这种情况下，需要保证应用是idempotent 类型（处理重复的消息不会对应用产生影响）。

此场景一个例子如下：

此示例流程如下：

Consumer 读一个batch的消息
在接收到消息并正常处理
在consumer 正常处理消息完毕后，commits offset
继续读并处理下一个batch 的消息。若是在此过程中发生异常（例如consumer 重启），则consumer会从最近的 offset 开始读一个batch的消息并处理。所以此时会导致有重复消息被处理（此例中为4263、4264、4265）

3. Exactly once

此语义较难实现，在kafka中仅能在Kafka => Kafka的工作流中，通过使用Kafka Stream API 实现。对于Kafka => Sink 的工作流，请使用 idempotent consumer。

对于大部分应用程序，我们应使用at least once processing，并确保consumer端的transformation/processing 是idempotent类型。

4. 构建 idempotent consumer

一个idempotent consumer可以在处理重复消息时，不影响整个应用的逻辑。在ElasticSearch 中，通过一个_id 字段唯一识别一条消息。所以在这个场景下，为了实现idempotent consumer，我们需要对同样_id字段的消息做同样的处理。

之前给出的Elastic Search Consumer的例子中，每条消息的 _id 都是默认随机生成的，也就是说：若是处理之前重复的消息，生成的id也是一条新的随机_id，此行为不符合一个idempotent consumer。对此，我们可以自定义一个_id 模式，修改代码如下：

// poll for new data

while(true){

    ConsumerRecords<String, String> records =

            consumer.poll(Duration.ofMinutes(100));

    for(ConsumerRecord record : records) {

        // construct a kafka generic ID

        String kafka_generic_id = record.topic() + "_" + record.partition() + "_" + record.offset();

        // where we insert data into ElasticSearch

        IndexRequest indexRequest = new IndexRequest(

                "kafkademo"

        ).id(kafka_generic_id).source(record.value(), XContentType.JSON);

        IndexResponse indexResponse = client.index(indexRequest, RequestOptions.DEFAULT);

        String id = indexResponse.getId();

        logger.info(id);

        try {

            Thread.sleep(1000); // introduce a small delay

        } catch (InterruptedException e) {

            e.printStackTrace();

        }

    }

    }

打印出id结果为：

可以看到新的 id 由 kafka topic + partition + offset 这3 部分组成，可以唯一定位一个 record。所以即使重复处理一条record，它发往 ElasticSearch 的 id 也是一样的（即处理逻辑一样）。在这个场景下，即为一个imdepotent consumer。

Apache Kafka（八）- Kafka Delivery Semantics for Consumers的更多相关文章

Apache Kafka安全| Kafka的需求和组成部分
1.目标 - 卡夫卡安全今天,在这个Kafka教程中,我们将看到Apache Kafka Security 的概念 .Kafka Security教程包括我们需要安全性的原因,详细介绍加密.有了这 ...
Apache ZooKeeper在Kafka中的角色 - 监控和配置
1.目标今天,我们将看到Zookeeper在Kafka中的角色.本文包含Kafka中需要ZooKeeper的原因.我们可以说,ZooKeeper是Apache Kafka不可分割的一部分.在了解Zo ...
Message Delivery Semantics
4.6 Message Delivery Semantics Now that we understand a little about how producers and consumers wor ...
kafka实战教程(python操作kafka)，kafka配置文件详解
kafka实战教程(python操作kafka),kafka配置文件详解应用往Kafka写数据的原因有很多:用户行为分析.日志存储.异步通信等.多样化的使用场景带来了多样化的需求:消息是否能丢失?是 ...
CentOS 7部署Kafka和Kafka集群
CentOS 7部署Kafka和Kafka集群注意事项需要启动多个shell脚本交互客户端进行验证,运行中的客户端不要停止. 准备工作: 安装java并设置java环境变量,在`/etc/prof ...
Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...
【Kafka】Kafka集群环境搭建
目录一.初始环境准备二.下载安装包并上传解压三.修改配置文件四.启动ZooKeeper 五.启动Kafka集群一.初始环境准备必须安装了JDK和ZooKeeper,并保证Zookeeper ...
Kafka(3)--kafka消息的存储及Partition副本原理
消息的存储原理: 消息的文件存储机制: 前面我们知道了一个 topic 的多个 partition 在物理磁盘上的保存路径,那么我们再来分析日志的存储方式.通过 [root@localhost ~]# ...
Kafka记录-Kafka简介与单机部署测试
1.Kafka简介 kafka-分布式发布-订阅消息系统,开发语言-Scala,协议-仿AMQP,不支持事务,支持集群,支持负载均衡,支持zk动态扩容 2.Kafka的架构组件 1.话题(Topic) ...

随机推荐

array every
every() 方法测试一个数组内的所有元素是否都能通过某个指定函数的测试.它返回一个布尔值.
Vasya and a Tree CodeForces - 1076E
很好的思维转化为对树上的深度差分回朔的思想对查询离线 #include<iostream> #include<cstdio> #include<cmath> ...
树莓派3b 换国内源更新源
在国内要更新源的时候,因为是国外的源,总会出现网速太慢的问题, 以下是对于安装了,2017-11-29-raspbian-stretch 系统源更换最好用root登陆操作 sudo passwd r ...
Maven修改test/rsource的output folder报错Test source folder 'src/test/java'... is not also used for main s
eclipse新建maven项目时候,只出来三个文件夹,然后大都督手动添加了缺失的src/test/resource 的文件夹,最后想修改一下 Output folder的路径为 (原来是 d ...
WPF Dispatcher.BeginInvoke子线程更新UI
在开发WPF应用时出现:”调用线程无法访问此对象,因为另一个线程拥有该对象.“ 是因为UI线程是WPF应用的主线程,若尝试子线程更新UI线程应使用Dispatcher.BeginInvoke()或者I ...
19新生赛谁更nb
题目描述: 有一堆石子共有N个.syx xxh两个人轮流拿,syx先拿.每次最少拿1颗,最多拿K颗,拿到最后1颗石子的人获胜.syx xxh都非常聪明,拿石子的过程中不会出现失误.给出N和K,问最后 ...
BZOJ3531 SDOI2014 旅行 - 树链剖分,主席树
题意:给定一棵树,树上每个点有权值和类型.支持:修改某个点的类型:修改某个点的权值:询问某条链上某个类型的点的和/最大值.点数/类型数/询问数<=100000. 分析: 树链剖分,对每个类型的点 ...
php Allowed memory size of 134217728 bytes exhausted
报错:PHP Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 72 bytes) in ...
C语言-const再理解（转）
有时候我们希望定义这样一种变量,它的值不能被改变,在整个作用域中都保持固定.例如,用一个变量来表示班级的最大人数,或者表示缓冲区的大小.为了满足这一要求,可以使用const关键字对变量加以限定: co ...
SpringBoot学习- 2、使用IDEA创建项目
SpringBoot学习足迹上一节使用sts创建项目,感觉只是基于eclipse做了一些界面定制,还是改使用IDEA开发,为了跟上时代,将使用IDEA最新版本,安装各种最新插件. 1.下载IDEA ...

Apache Kafka（八）- Kafka Delivery Semantics for Consumers

Apache Kafka（八）- Kafka Delivery Semantics for Consumers的更多相关文章

随机推荐

热门专题