我的 Kafka 旅程 - 文件存储机制

存储机制

Topic在每个Broker下存储所属的Partition，Partition下由 Index、Log 两类文件组成。

写入

Log 由多个Segment文件组成，每个Segment文件容量最多为1GB，接收到的新消息永远是以追加的方式于Segment中(只追加不修改的方式减少了查询的消耗)，每个消息有自增编号。

查询

Index 文件仅记录固定消息量的索引编号范围，Kafka在查询时，先从Index中定位到小范围的索引编号区间，再去Log中在小范围的数据块中查询具体数据，此索引区间的查询方式称为 - 稀疏索引。

高效读写

分布式、多分区、各线程并行处理
稀疏索引 - 小范围快速定位要消费的数据
数据文件，只追加不修改的顺序写方式（利用了物理磁盘的优势）
缓存技术 - 大量减少IO（由系统层面负责IO动作）
零拷贝技术 - 解放CPU，大量减少数据块的Copy，数据直接从磁盘到网卡送出（利用了操作系统的技术）

文件清理

过期时长

# 数据文件过期时长配置项，三选一

log.retention.hours			# 小时，默认7天

log.retention.minutes			# 分钟

log.retention.ms			# 毫秒

# 删除的容量警戒值，默认-1无穷大

log.retention.bytes

# 检查过期间隔，默认5分钟

log.retention.check.interval.ms

清理方式

log.cleanup.policy = delect | compact

delect

1、以Segment文件最后一条消息的时间为删除依据，删除整个Segment文件。

2、以Log文件总大小，以 log.retention.bytes 的配置为准，删除最早的Segment文件。

compact

对于相同的key，仅保留最后一次的value，所有数据启用压缩策略（offset的id就不会连续，后续说明）。

我的 Kafka 旅程 - 文件存储机制的更多相关文章

kafka知识体系-kafka设计和原理分析-kafka文件存储机制
kafka文件存储机制 topic中partition存储分布假设实验环境中Kafka集群只有一个broker,xxx/message-folder为数据文件存储根目录,在Kafka broker中 ...
Kafka文件存储机制及partition和offset
转载自: https://yq.aliyun.com/ziliao/65771 参考: Kafka集群partition replication默认自动分配分析如何为kafka选择合适的p ...
Kafka文件存储机制及offset存取
Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx ...
Kafka文件存储机制那些事
Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx ...
Kafka 文件存储机制那些事 - 美团技术团队
出处:https://tech.meituan.com/2015/01/13/kafka-fs-design-theory.html 自己总结: Kafka 文件存储机制_结构图:https://ww ...
kafka学习之-文件存储机制
Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx ...
转】 Kafka文件存储机制那些事
原博文出自于:http://tech.meituan.com/kafka-fs-design-theory.html 感谢! Kafka是什么 Kafka是最初由Linkedin公司开发,是一个 ...
深入了解Kafka【二】工作流程及文件存储机制
1.Kafka工作流程 Kafka中的消息以Topic进行分类,生产者与消费者都是面向Topic处理数据. Topic是逻辑上的概念,而Partition是物理上的概念,每个Partition分为多个 ...
Kafka与RocketMq文件存储机制对比
一个商业化消息队列的性能好坏,其文件存储机制设计是衡量一个消息队列服务技术水平和最关键指标之一. 开头问题 kafka文件结构和rocketMQ文件结构是什么样子?特点是什么? 一.目录结构 Kafk ...

随机推荐

[Android开发学iOS系列] 语言篇: Swift vs Kotlin
Swift vs Kotlin 这篇文章是想着帮助Android开发快速学习Swift编程语言用的. (因为这个文章的作者立场就是这样.) 我不想写一个非常长, 非常详尽的文章, 只是想写一个快速的版 ...
YII 技巧
大部分来源于 https://getyii.com/topic/47#comment24 获取当前Controller name和action name(在控制器里面使用) echo $this-& ...
CMake教程——Leeds_Garden
本系列适合乐于学习新知识的人想要深入学习C++的人赞美作者的人系列目录初步入门基本操作 (更新中) 创作不易,欢迎分享,把知识分享给更多有需要的人.
在生鲜零售业，DolphinScheduler 还能这么玩！
点击上方蓝字关注我们 ✎ 编者按 2021 年,Apache DolphinScheduler 社区又迎来了新的蓬勃发展,社区活跃度持续提高.目前,项目 GitHub Star 已达 6.7k, ...
BZOJ3037 创世纪（基环树DP）
基环树DP,攻的当受的儿子,f表选,g表不选.并查集维护攻受关系.若有环则记录,DP受的后把它当祖宗,再DP攻的. #include <cstdio> #include <iostr ...
Luogu1099 树网的核（暴力？，floyd？）（还未想正解，暴力就A了）
阅读理解两小时,手敲暴力思考5分钟.然后$n^3$就A了暴力代码 #include <iostream> #include <cstdio> #include <c ...
数据库运维之路——关于tempdb暴增实战案例
转眼间,2021年的第一个季度已经到了最后一个月了,由于疫情原因,最近一段时间一直在北京,基本上没有出差,每天上班下班的日子感觉时间过的好快,新的一年继续努力奋斗啊. 仔细回想一下,自己踏入到sql ...
java-重载、包修饰词以及堆栈管理
1.方法的重写(Override):重新写.覆盖 1)发生在父子类中,方法名称相同,参数列表相同,方法体不同 2)重写方法被调用时,看对象的类型2.重写与重载的区别: 1)重写(Override): ...
.net 温故知新：【7】IOC控制反转，DI依赖注入
IOC控制反转大部分应用程序都是这样编写的:编译时依赖关系顺着运行时执行的方向流动,从而生成一个直接依赖项关系图. 也就是说,如果类 A 调用类 B 的方法,类 B 调用 C 类的方法,则在编译时, ...
ThreadLocal for Golang
背景由于官方不支持 ThreadLocal,在业务中传参经常需要传递 context,造成参数混乱,开发效率低下,跨方法实现传参变得困难. 需要解决的核心问题: 1. 数据存储,g.labels u ...