Kafka auto.offset.reset值详解

发表于2017/7/6 11:25:22 1010人阅读

分类： Kafka

昨天在写一个java消费kafka数据的实例，明明设置auto.offset.reset为earliest，但还是不从头开始消费，官网给出的含义太抽象了。
earliest: automatically reset the offset to the earliest offset，自动将偏移量置为最早的。难道不是topic中各分区的开始？结果还真不是，具体含义如下：

auto.offset.reset值含义解释

earliest

当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，从头开始消费

latest

当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，消费新产生的该分区下的数据

none

topic各分区都存在已提交的offset时，从offset后开始消费；只要有一个分区不存在已提交的offset，则抛出异常

以下为测试详细：

1.同分组下测试

1.1测试一

1.1.1测试环境

Topic为lsztopic7，并生产30条信息。lsztopic7详情：

创建组为“testtopi7”的consumer，将enable.auto.commit设置为false，不提交offset。依次更改auto.offset.reset的值。此时查看offset情况为：

1.1.2测试结果

earliest
客户端读取30条信息，且各分区的offset从0开始消费。
latest
客户端读取0条信息。
none
抛出NoOffsetForPartitionException异常。

1.1.3测试结论

新建一个同组名的消费者时，auto.offset.reset值含义：
earliest 每个分区是从头开始消费的。
none 没有为消费者组找到先前的offset值时，抛出异常

1.2测试二

1.2.1测试环境

测试场景一下latest时未接受到数据，保证该消费者在启动状态，使用生产者继续生产10条数据，总数据为40条。

1.2.2测试结果

latest
客户端取到了后生产的10条数据

1.2.3测试结论

当创建一个新分组的消费者时，auto.offset.reset值为latest时，表示消费新的数据（从consumer创建开始，后生产的数据），之前产生的数据不消费。

1.3测试三

1.3.1测试环境

在测试环境二，总数为40条，无消费情况下，消费一批数据。运行消费者消费程序后，取到5条数据。
即，总数为40条，已消费5条，剩余35条。

1.3.2测试结果

earliest
消费35条数据，即将剩余的全部数据消费完。

latest
消费9条数据，都是分区3的值。
offset:0 partition:3
offset:1 partition:3
offset:2 partition:3
offset:3 partition:3
offset:4 partition:3
offset:5 partition:3
offset:6 partition:3
offset:7 partition:3
offset:8 partition:3

none
抛出NoOffsetForPartitionException异常。

1.3.3测试结论

earliest 当分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，从头开始消费。
latest 当分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，消费新产生的该分区下的数据。
none 当该topic下所有分区中存在未提交的offset时，抛出异常。

1.4测试四

1.4.1测试环境

再测试三的基础上，将数据消费完，再生产10条数据，确保每个分区上都有已提交的offset。
此时，总数为50，已消费40，剩余10条

1.4.2测试结果

none
消费10条信息，且各分区都是从offset开始消费
offset:9 partition:3
offset:10 partition:3
offset:11 partition:3
offset:15 partition:0
offset:16 partition:0
offset:17 partition:0
offset:18 partition:0
offset:19 partition:0
offset:20 partition:0
offset:5 partition:2

1.4.3测试结论

值为none时，topic各分区都存在已提交的offset时，从offset后开始消费；只要有一个分区不存在已提交的offset，则抛出异常。

2.不同分组下测试

2.1测试五

2.1.1测试环境

在测试四环境的基础上：总数为50，已消费40，剩余10条，创建不同组的消费者，组名为testother7

2.1.2 测试结果

earliest
消费50条数据，即将全部数据消费完。

latest
消费0条数据。

none
抛出异常

2.1.3测试结论

组与组间的消费者是没有关系的。
topic中已有分组消费数据，新建其他分组ID的消费者时，之前分组提交的offset对新建的分组消费不起作用。

Kafka管理工具介绍

Consumer Offset Checker

　　Consumer Offset Checker主要是运行kafka.tools.ConsumerOffsetChecker类，对应的脚本是kafka-consumer-offset-checker.sh，会显示出Consumer的Group、Topic、分区ID、分区对应已经消费的Offset、logSize大小，Lag以及Owner等信息。

如果运行kafka-consumer-offset-checker.sh脚本的时候什么信息都不输入，那么会显示以下信息：

[iteblog@www.iteblog.com /]$ bin/kafka-consumer-offset-checker.sh

Check the offset of your consumers.

Option                                  Description

------                                  -----------

--broker-info                           Print broker info

--group                                 Consumer group.

--help                                  Print this message.

--retry.backoff.ms <Integer> Retry back-off to use for failed

offset queries. (default: 3000)

--socket.timeout.ms <Integer> Socket timeout to use when querying

for offsets. (default: 6000)

--topic Comma-separated list of consumer

topics (all topics if absent).

--zookeeper ZooKeeper connect string. (default:

localhost:2181)

我们根据提示，输入的命令如下：

[iteblog@www.iteblog.com /]$ bin/kafka-consumer-offset-checker.sh --zookeeper www.iteblog.com:2181 --topic test --group spark --broker-info

Group           Topic      Pid Offset          logSize         Lag             Owner

spark test 0 34666914 34674392 7478 none

spark test 1 34670481 34678029 7548 none

spark test 2 34670547 34678002 7455 none

spark test 3 34664512 34671961 7449 none

spark test 4 34680143 34687562 7419 none

spark test 5 34672309 34679823 7514 none

spark test 6 34674660 34682220 7560 none

BROKER INFO

2 -> www.iteblog.com:9092

5 -> www.iteblog.com:9093

4 -> www.iteblog.com:9094

7 -> www.iteblog.com:9095

1 -> www.iteblog.com:9096

3 -> www.iteblog.com:9097

6 -> www.iteblog.com:9098

https://www.iteblog.com/archives/1605.html

--------------------------------------------------------------------------------------------------------------------------------------

kafka 怎么保证的exactly once的更多相关文章

Kafka如何保证消息不丢失不重复
首先需要思考下边几个问题: 消息丢失是什么造成的,从生产端和消费端两个角度来考虑消息重复是什么造成的,从生产端和消费端两个角度来考虑如何保证消息有序如果保证消息不重不漏,损失的是什么大概总结下 ...
Kafka如何保证数据不丢失
Kafka如何保证数据不丢失 1.生产者数据的不丢失 kafka的ack机制:在kafka发送数据的时候,每次发送消息都会有一个确认反馈机制,确保消息正常的能够被收到,其中状态有0,1,-1. 如果是 ...
kafka如何保证数据可靠性和数据一致性
数据可靠性 Kafka 作为一个商业级消息中间件,消息可靠性的重要性可想而知.本文从 Producter 往 Broker 发送消息.Topic 分区副本以及 Leader 选举几个角度介绍数据的可靠 ...
[转帖]kafka 如何保证数据不丢失
kafka 如何保证数据不丢失 https://www.cnblogs.com/MrRightZhao/p/11498952.html 一般我们在用到这种消息中件的时候,肯定会考虑要怎样才能保证数 ...
Kafka如何保证消息的可靠性传输
1.消费端弄丢了数据唯一可能导致消费者弄丢数据的情况,就是说,你消费到了这个消息,然后消费者那边自动提交了 offset,让 Kafka 以为你已经消费好了这个消息,但其实你才刚准备处理这个消息,你 ...
Spark Streaming和Kafka整合保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制.为了体验这个关键的特性,你需要满足以下几个先决条件: 1.输入的数据来自可靠的数据源 ...
Kafka如何保证高吞吐量
1.顺序读写 kafka的消息是不断追加到文件中的,这个特性使kafka可以充分利用磁盘的顺序读写性能顺序读写不需要硬盘磁头的寻道时间,只需很少的扇区旋转时间,所以速度远快于随机读写生产者负责写入 ...
kafka 如何保证数据不丢失
一般我们在用到这种消息中件的时候,肯定会考虑要怎样才能保证数据不丢失,在面试中也会问到相关的问题.但凡遇到这种问题,是指3个方面的数据不丢失,即:producer consumer 端数据不丢失 b ...
Kafka如何保证百万级写入速度以及保证不丢失不重复消费
一.如何保证百万级写入速度: 目录 1.页缓存技术 + 磁盘顺序写 2.零拷贝技术 3.最后的总结 “这篇文章来聊一下Kafka的一些架构设计原理,这也是互联网公司面试时非常高频的技术考点. Kafk ...

随机推荐

基于matplotlib的数据可视化 - 柱状图bar
柱状图bar 柱状图常用表现形式为: plt.bar(水平坐标数组,高度数组,宽度比例,ec=勾边色,c=填充色,label=图例标签) 注:当高度值为负数时,柱形向下 1 语法 bar(*args, ...
RecylerView 的使用方法
package com.cardvalue.sys.fragment; import android.content.Intent; import android.net.Uri; import an ...
Fiddler高级用法-设置断点
我们知道Fiddler是位于客户端和服务器之间的代理,它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据.设置断点.调试web应用.修改请求的数据,甚至可以修改 ...
Jedis工具类（含分布式锁的调用和释放）
个人把工具类分为两部分: 一.连接池部分 import org.slf4j.Logger; import org.slf4j.LoggerFactory; import redis.clients.j ...
DVWA安装——一个菜鸟的入门教程
DVWA的安装非常简单: 1.更改config/config.inc.php文件中的数据库配置信息 2.访问setup.php,点击create/reset database即可 3.默认用户名/密码 ...
我是跨域的JSONP
1.出现原因:因为web中的同源策略(域名,协议,端口号)限制了跨域访问. 2.区别于json (个人理解)json是数据交换格式,jsonp是数据通信中的交互方式 3.jsonp的get与p ...
C#基础第五天-作业答案-用DataTable制作名片集
.DataTable 实现 DataTable PersonCard = new DataTable(); //创建一个DataTable DataTable PersonCardCopy = new ...
CentOS 安装Mosquitto及测试
系统信息,阿里云服务器安装工具 yum install gcc gcc-c++ yum install openssl-devel yum install c-ares-devel yum inst ...
使用mysql innodb 使用5.7的json类型遇到的坑和解决办法
---------------------------------------------- #查询JSON的某个字段 select data -> '$.Host' from temp #创建 ...
php分享二十七：批量插入mysql
一:思考 1:如果插入的某个字段大于数据库定义的长度了,数据库会怎么处理? 1>如果数据库引擎是myisam,则数据库会截断后插入,不报错 2>如果数据库引擎是innodb,则数据库会报 ...

kafka 怎么保证的exactly once