kafka入门之broker-水印和leader epoch
每个kafka副本对象都持有2个重要的属性:日志末端位移LEO,高水印HW
Kafka对leader副本和follower副本的LEO更新机制是不同的,后面我们会详细讨论。
Kafka对leader副本和follower副本的hw值更新机制也是不同的。
消费者无法消费分区leader副本上那些位移大于分区hw的消息。分区hw就是leader副本的hw值。
关于LEO
2套follower副本LEO属性:一套LEO值保存在follower副本所在broker的缓存上;另一套LEO值保存在leader副本所在的broker的缓存上。
follwer副本的LEO:每写一条消息就+1
leader上的副本LEO:收到FETCH请求之后,先从自己的log中读取相应的数据,但是在给follower返回数据之前它先去更新follower的LEO
关于HW(时机+算法)
follower更新hw:follower更新hw发生在其更新LEO之后,一旦follower向log写完数据,它就会尝试更新HW值,具体的算法就是比较当前LEO值与FETCH响应中leader的HW值,取两者的小者作为新的HW值。
leader更新hw的时机:
1.副本成为leader时
2.broker出现崩溃导致副本被踢出ISR时
3.producer向leader副本写入消息时
4.leader处理followerFETCH请求时:首先会从底层的log读取数据,之后再尝试更新分区HW值。
如何更新:
当确定分区hw时,它会选出所有满足条件的副本,比较他们的LEO,并选择最小的LEO值作为HW值,这里的满足条件主要是指副本满足一下两个条件之一:
1.出于ISR中
2.副本LEO落后于leaderLEO的时长不大于replica.lag.time.max.ms参数值(默认时10秒)
特殊情况:
Hw值的更新通常需要另一轮FETCH请求才能完成,故这种设计在本质上是存在缺陷的。可能引起,备份数据丢失,备份数据不一致。
fetch请求没有新消息时返回什么?leader会更新leo吗。答:follower发送过来的FETCH请求因为无数据而暂时被寄存到leader端的purgatory中,待500毫秒后超时会强制完成。
leader宕机时hw之外的消息会丢失?
hw在第二轮刚开始的时候宕机,新leader的没更新hw,这个时候它本地没有LEO,怎么更新hw。 是不是需要一轮其他副本fetch请求之后才能确定hw,和生成本地leo缓存。
基于·水印备份机制的缺陷:hw过期
在0.11.0.0版本之前,kafka一直使用基于水印的备份机制
1.数据丢失
前提:min.insync.replicas=1
follower副本在重启后将leo截断至hw(为什么要截断)。此时在给leader发FETCH,若leader此时宕机那么被截断的那部分就丢失了.
2.数据不一致/数据离散
前提:min.insync.replicas=1
A leo=2 hw=2,B leo=1 hw=1;AB同时挂掉,B先重连并且写入一条消息hw=2,A再重启后发现hw与分区相同,会不作调整继续工作。
0.11.0.0版本解决之道
leader epoch取代hw,leader端多开辟一段内存区域专门保存leader的epoch信息。
所谓leader epoch,实际上是一对值,epoch表示leader的版本号,从0开始,当leader变更过1次,epoch就会加1,而offset则对应与该epoch版本的leader写入第一条消息的位移,假设存在两对值(0,0)和(1,120)那么表示第一个leader从位移0开始写入消息,供血了120条。
每个leader broker中会保存这样一个缓存,并定期写入一个检查点文件中,当leader写滴成log时,它会尝试更新整个缓存--如果这个leader首次写消息,则会在缓存中增加一个条目,否则就不做更新,而每次副本重新成为leader时会查询这部分混存,获取对应leader版本的位移,这就不会发生数据不一致和丢失的情况。
这里offsetsForLeaderEpochRequest如果A在响应之前就宕机了怎么办
kafka入门之broker-水印和leader epoch的更多相关文章
- Kafka水位(high watermark)与leader epoch的讨论
~~~这是一篇有点长的文章,希望不会令你昏昏欲睡~~~ 本文主要讨论0.11版本之前Kafka的副本备份机制的设计问题以及0.11是如何解决的.简单来说,0.11之前副本备份机制主要依赖水位(或水印) ...
- Kafka设计解析(二十一)Kafka水位(high watermark)与leader epoch的讨论
转载自 huxihx,原文链接 Kafka水位(high watermark)与leader epoch的讨论 本文主要讨论0.11版本之前Kafka的副本备份机制的设计问题以及0.11是如何解决的. ...
- kafka入门(三)备份
一.相关概念 备份相关的角色 Kafka消息备份分三个角色:分别是Leader副本.Follower副本.ISR集合 Leader副本 负责直接响应client端的读写请求,即和生产者和消费者直接对接 ...
- kafka入门教程链接
http://www.aboutyun.com/forum.php?mod=viewthread&tid=12882 经典入门教程 1.Kafka独特设计在什么地方?2.Kafka如何搭建及创 ...
- 《OD大数据实战》Kafka入门实例
官网: 参考文档: Kafka入门经典教程 Kafka工作原理详解 一.安装zookeeper 1. 下载zookeeper-3.4.5-cdh5.3.6.tar.gz 下载地址为: http://a ...
- kafka 入门笔记 #1
kafka 入门笔记(#1) 单机测试 下载版本,解压 tar -xzf kafka_2.11-0.10.1.1.tgz cd kafka_2.11-0.10.1.1 启动服务 Kafka用到了Zoo ...
- 超详细“零”基础kafka入门篇
1.认识kafka 1.1 kafka简介 Kafka 是一个分布式流媒体平台 kafka官网:http://kafka.apache.org/ (1)流媒体平台有三个关键功能: 发布和订阅记录流,类 ...
- Kafka入门 --安装和简单实用
一.安装Zookeeper 参考: Zookeeper的下载.安装和启动 Zookeeper 集群搭建--单机伪分布式集群 二.下载Kafka 进入http://kafka.apache.org/do ...
- 项目17-超详细“零”基础kafka入门篇
分类: Linux服务篇,Linux架构篇 1.认识kafka 1.1 kafka简介 Kafka 是一个分布式流媒体平台 kafka官网:http://kafka.apache.org/ (1) ...
随机推荐
- 《Head First 设计模式》:迭代器模式
正文 一.定义 迭代器模式提供一种方法顺序访问一个聚合对象中的各个元素,而又不暴露其内部的表示. 要点: 迭代器模式把在元素之间游走的责任交给迭代器,而不是聚合对象.这样简化了聚合的接口和实现,也让责 ...
- OpenCascade拓扑对象之:拓扑对象的层次结构
@font-face { font-family: "Times New Roman" } @font-face { font-family: "宋体" } @ ...
- python中的evalexec 将字符串当做代码执行
eval/exec 将字符串当做代码执行 eval/exec 这两个函数可以将字符串解析为代码并执行. 区别 1.eval 解析变量和表达式, 而 exec 解析语句 a = '1' print(ev ...
- LDA与PCA
参考: https://www.cnblogs.com/pinard/p/6244265.html https://blog.csdn.net/qq_25680531/article/details/ ...
- Android基础——项目的文件结构(二)
Android基础--项目的文件结构(二) AndroidManifest.xml文件分析 [注]此项目文件结构仅限于Android Studio下的Android项目!!! 在一个Android项目 ...
- MySQL全面瓦解9:查询的排序、分页相关
概述 数据库中的数据直接呈现出来一般不是我们想要的,所以我们上两节演示了如何对数据进行过滤的方法.除了对数据进行过滤, 我们可能还需要对数据进行排序,比如想从列表中了解消费最高的项,就可能需要对金额字 ...
- php 正则金额验证
$money_reg = '/^[1-9]\d*|^[1-9]\d*.\d+[1-9]$/';if(!preg_match($money_reg, $money)){ $this->ajaxEr ...
- 数据采集与融合第四次作业:多线程以及scrapy框架的使用
数据采集第四次作业:多线程以及scrapy框架的使用 任务一:单多线程的使用 单线程代码: from bs4 import BeautifulSoup from bs4 import UnicodeD ...
- MyBatis 中 @Param 注解的四种使用场景
https://juejin.im/post/6844903894997270536 第一种:方法有多个参数,需要 @Param 注解 第二种:方法参数要取别名,需要 @Param 注解 第三种:XM ...
- MCscan-Python-jcvi 共线性画图最后一章更新
经过几轮调试和修改,共线性图终于可以上眼了.如下: 图中红色的为目标基因,蓝色的为reference species目标基因周围15个基因,天蓝色为再往外15个基因,黄色为与reference spe ...