1.概述

　　Kafka 快速稳定的发展，得到越来越多开发者和使用者的青睐。它的流行得益于它底层的设计和操作简单，存储系统高效，以及充分利用磁盘顺序读写等特性，和其实时在线的业务场景。对于Kafka来说，它是一个分布式的，可分区的，多副本，多订阅者的，基于Zookeeper统一协调的分布式日志系统。常见的可以用于系统日志，业务日志，消息数据等。那今天笔者给大家分析Kafka的存储机制和副本的相关内容。

2.Replication

　　Replication是Kafka的重要特性之一，针对其Kafka Brokers进行自动调优Replication数，是比较有难度的。原因之一在于要知道怎么避免Follower进入和退出同步 ISR （In-Sync Replicas）。再消息生产的过程当中，在有一大批海量数据写入时，可能会引发Broker告警。如果某些Topic的部分Partition长期处于 “under replicated”，这样是会增加丢失数据的几率的。Kafka 通过多副本机制实现高可用，确保当Kafka集群中某一个Broker宕机的情况下，仍然可用。而 Kafka 的复制算法保证，如果Leader发生故障或者宕机，一个新的Leader会被重新选举出来，并对外提供服务，供客户端写入消息。Kafka 在同步的副本列表中选举一个副本为Leader。

　　在Topic中，每个分区有一个预写式日志文件，每个分区都由一系列有序，不可变的消息组成，这些消息被连续的追加到分区中，分区中的每个消息都包含一个连续的序列号，即：offset。它用于确定在分区中的唯一位置。如下图所示：

　　在Kafka中，假如每个Topic的分区有N个副本，由于Kafka通过多副本机制实现故障自动转移，这里需要说明的是，当KafkaController出现故障，进而不能继续管理集群，则那些KafkaController Follower开始竞选新的Leader，而启动的过程则是在KafkaController的startup方法中完成的，如下所示：

 def startup() = {

    inLock(controllerContext.controllerLock) {

      info("Controller starting up")

      registerSessionExpirationListener()

      isRunning = true

      controllerElector.startup

      info("Controller startup complete")

    }

  }

　　然后启动ZookeeperLeaderElector，在创建临时节点，进行session检查，更新leaderId等操作完成后，会调用故障转移函数onBecomingLeader，也就是KafkaController中的onControllerFailover方法，如下所示：

def onControllerFailover() {

    if(isRunning) {

      info("Broker %d starting become controller state transition".format(config.brokerId))

      readControllerEpochFromZookeeper()

      incrementControllerEpoch(zkUtils.zkClient)

      // before reading source of truth from zookeeper, register the listeners to get broker/topic callbacks

      registerReassignedPartitionsListener()

      registerIsrChangeNotificationListener()

      registerPreferredReplicaElectionListener()

      partitionStateMachine.registerListeners()

      replicaStateMachine.registerListeners()

      initializeControllerContext()

      // We need to send UpdateMetadataRequest after the controller context is initialized and before the state machines

      // are started. The is because brokers need to receive the list of live brokers from UpdateMetadataRequest before

      // they can process the LeaderAndIsrRequests that are generated by replicaStateMachine.startup() and

      // partitionStateMachine.startup().

      sendUpdateMetadataRequest(controllerContext.liveOrShuttingDownBrokerIds.toSeq)

      replicaStateMachine.startup()

      partitionStateMachine.startup()

      // register the partition change listeners for all existing topics on failover

      controllerContext.allTopics.foreach(topic => partitionStateMachine.registerPartitionChangeListener(topic))

      info("Broker %d is ready to serve as the new controller with epoch %d".format(config.brokerId, epoch))

      maybeTriggerPartitionReassignment()

      maybeTriggerPreferredReplicaElection()

      if (config.autoLeaderRebalanceEnable) {

        info("starting the partition rebalance scheduler")

        autoRebalanceScheduler.startup()

        autoRebalanceScheduler.schedule("partition-rebalance-thread", checkAndTriggerPartitionRebalance,

          5, config.leaderImbalanceCheckIntervalSeconds.toLong, TimeUnit.SECONDS)

      }

      deleteTopicManager.start()

    }

    else

      info("Controller has been shut down, aborting startup/failover")

  }

　　正因为有这样的机制存在，所示当Kafka集群中的某个Broker宕机后，仍然保证服务是可用的。在Kafka中发生复制操作时，确保分区的预写式日志有序的写到其他节点，在N个复制因子中，其中一个复制因子角色为Leader，那么其他复制因子的角色则为Follower，Leader处理分区的所有读写请求，同时，Follower会被动的定期去复制Leader上的数据。以上分析可以总结为以下几点，如下所示：

Leader负责处理分区的所有读写请求。
Follower会复制Leader上数据。
Kafka 的故障自动转移确保服务的高可用。

3.存储

　　对于消息对应的性能评估，其文件存储机制设计是衡量的关键指标之一，在分析Kafka的存储机制之前，我们先了解Kafka的一些概念：

Broker：Kafka消息中间件节点，一个节点代表一个Broker，多个Broker可以组建成Kafka Brokers，即：Kafka集群。
Topic：消息存储主题，即可以理解为业务数据名，Kafka Brokers能够同时负责多个Topic的处理。
Partition：针对于Topic来说的，一个Topic上可以有多个Partition，每个Partition上的数据是有序的。
Segment：对于Partition更小粒度，一个Partition由多个Segment组成。
Offset：每个Partition上都由一系列有序的，不可变的消息组成，这些消息被连续追加到Partition中。而在其中有一个连续的序列号offset，用于标识消息的唯一性。

3.1 Topic存储

　　在Kafka文件存储中，同一个Topic下有多个不同的Partition，每个Partition为一个单独的目录，Partition的命名规则为：Topic名称＋有序序号，第一个Partition序号从0开始，序号最大值等于Partition的数量减1，如下图所示：

3.2 分区文件存储

　　每个分区相当于一个超大的文件被均分到多个大小相等的Segment数据文件中，但是每个Segment消息数量不一定相等，正因为这种特性的存在，方便了Old Segment File快速被删除。而对于每个分区只需要支持顺序读写即可，Segment文件生命周期由服务端配置的参数决定。这样即可快速删除无用数据文件，有效提高磁盘利用率。

3.3 Segment文件存储

　　这里，Segment文件由Index File和Data File组成，文件是一一对应的，后缀为 .index 表示索引文件， .log 表示数据文件，如下图所示：

　　如上图所示，Segment文件命名规则由分区全局第一个Segment从0开始，后续每一个Segment文件名为上一个Segment文件最后一个消息的Offset值。这里Segment数据文件由许多消息组成，消息物理结构如下所示：

Key	Describer
offset	用于标识每个分区中每条消息的唯一性，Offset的数值标识该分区的第几条消息
message Size	消息大小
CRC32	用CRC32校验消息
“magic”	当前发布Kafka服务程序的协议版本号
“attribute”	独立版本，或标识压缩类型，或者编码类型
key length	key的长度
key	可选
payload length	实际消息数据

3.4 分区中查找消息

　　在分区中，可以通过offset偏移量来查找消息，如上图中，文件00000000000046885905.index的消息起始偏移量为46885906=46885905+1，其他文件依此类推，以起始偏移量命名并排序这些文件，这样能够快速的定位到具体的文件。通过segment file，当offset为46885906时，我们可以定位到00000000000046885905.index元数据物理位置和00000000000046885905.log物理偏移地址。

4.总结

　　通过对副本和存储机制的分析，我们可以清楚的知道，Kafka通过自动故障转移来确保服务的高可用，Leader负责分区的所有读写操作，Follower会复制Leader上的数据。Kafka针对Topic，使某一个分区中的大文件分成多个小文件，通过多个小的segment file，使之便捷定期清理或删除已经消费的文件，减少磁盘占用。另外，通过索引文件稀疏存储，可以大幅度降低索引文件元数据所占用的空间。

5.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉。

Kafka 存储机制和副本的更多相关文章

kafka存储机制
kafka存储机制 @(博客文章)[storm|大数据] kafka存储机制一关键术语二topic中partition存储分布三 partiton中文件存储方式四 partiton中segme ...
Kafka存储机制(转)
转自:https://www.cnblogs.com/jun1019/p/6256514.html Kafka存储机制同一个topic下有多个不同的partition,每个partition为一个目 ...
kafka存储机制以及offset
1.前言一个商业化消息队列的性能好坏,其文件存储机制设计是衡量一个消息队列服务技术水平和最关键指标之一.下面将从Kafka文件存储机制和物理结构角度,分析Kafka是如何实现高效文件存储,及实际应用 ...
kafka知识体系-kafka设计和原理分析-kafka文件存储机制
kafka文件存储机制 topic中partition存储分布假设实验环境中Kafka集群只有一个broker,xxx/message-folder为数据文件存储根目录,在Kafka broker中 ...
Kafka(3)--kafka消息的存储及Partition副本原理
消息的存储原理: 消息的文件存储机制: 前面我们知道了一个 topic 的多个 partition 在物理磁盘上的保存路径,那么我们再来分析日志的存储方式.通过 [root@localhost ~]# ...
Kafka文件存储机制及offset存取
Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx ...
Kafka文件存储机制那些事
Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx ...
kafka学习之-文件存储机制
Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式.分区的.多副本的.多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx ...
转】 Kafka文件存储机制那些事
原博文出自于:http://tech.meituan.com/kafka-fs-design-theory.html 感谢! Kafka是什么 Kafka是最初由Linkedin公司开发,是一个 ...

随机推荐

python爬虫从入门到放弃前奏之学习方法
首谈方法最近在整理爬虫系列的博客,但是当整理几篇之后,发现一个问题,不管学习任何内容,其实方法是最重要的,按照我之前写的博客内容,其实学起来还是很点枯燥不能解决传统学习过程中的几个问题: 这个是普通 ...
如果导入的项目只有源码，可以将其他项目中的.classpath 和 .project复制到根目录下即可。
如果导入的项目只有源码,没有对应的项目配置如web项目,可以将其他项目中的.classpath 和 .project复制到根目录下即可.
iOS- 解决iOS10 App启动时放大铺满App Icon的问题
0.前言 iOS10 App启动时放大铺满App图标 iPad Application shows app icon as launch screen in iOS 10 如图,点击APP后APP图标 ...
C# Socket编程笔记（自己看，转载）
看到这个题目,是不是很眼熟?在博客园里搜下,保证会发现关于这个东东的文章实在是太多了~~~真得是没有写得必要,而且我也有点懒得去琢磨字句.(看到这,肯定得来个转折的了,不然就看不到下文了,不是吗)但是 ...
DDD理论学习系列（9）-- 领域事件
DDD理论学习系列--案例及目录 1. 引言 A domain event is a full-fledged part of the domain model, a representation o ...
【Python3之多进程】
一.进程和线程的简单解释进程(process)和线程(thread)是操作系统的基本概念,但是它们比较抽象,不容易掌握. 用生活举例: (转自阮一峰网络日志) 1.计算机的核心是CPU,它承担了所有 ...
VB6之WM_COPYDATA
WM_COPYDATA消息是一种进程间通信的一种方式,参考文档如下: http://msdn.microsoft.com/en-us/library/windows/desktop/ms649011( ...
acm->stl
容器 queue 队列定义 queue的定义需要两个参数,一个是元素类型,一个容器类型,元素类型是必要的,容器类型是可选的,默认为deque类型基本方法 push(x) 入队,将x接到队列的末端 ...
一颗简单的hibernate栗子
Hibernate是一个开源的ORM框架,顾名思义,它的核心思想即ORM(Object Relational Mapping,对象关系映射),可以通过对象来操作数据库中的信息,据说开发者一开始是不太熟 ...
关于Docker中的Images与Containers
Docker engine提供了启动Images和containers核心的技术的支持.当你运行docker run hello-world 命令时,实际上可分为三个部分: 告诉你操作系统你正在使用的 ...

Kafka 存储机制和副本