本文介绍了 Kafka Topic 的体系结构,并讨论了如何使用分区进行故障转移和并行处理。

1. Kafka Topic, Log, Partition

Kafka Topic(主题) 是一个有名字的记录流,Kafka 把 Record(记录)存储在 log 日志文件中。

一个主题被分解为多个 Partition(分区)

Kafka 把 log 的多个分区分散到多个服务器中。

把一个 Topic 分解为多个分区,是为了速度、扩展性、存储量。

Topic 是天生的发布/订阅类型的消息传递方式,一个 Topic 可以有 0 个或者多个订阅者(consumer group 消费者组)。

Kafka Topic Partitions

一个 Topic 包含多个 Partition,一个 Partition 里面包含多条记录。

一条记录具体存储在那个分区呢?

如果记录有 key,那么就会根据 key 指定分区。

如果记录没有 key,默认使用轮询的方式指定分区。

Kafka 通过多分区的方式,使主题具有了扩展性,可以跨多个服务器,这样 producer 的写性能就提升了,多分区同样也提升了 consumer 的消费性能,因为可以并行消费,并行的上限就是分区的数量。

每个分区里面的记录是保证顺序的,如果是根据 key 指定分区的,那么相同 key 的记录都在同一个分区里,对于需要回放日志的场景非常有用。

Kafka 会对每个分区都进行复制,以保证高可用,便于做故障转移。

Kafka 记录的顺序

Kafka 只保证分区内的记录是有序的,不保证主题内的记录有序。

分区是一个有序的、不可变的记录序列。

Kafka 把分区作为一个结构化的提交日志,持续向分区中追加记录。

分区中每条记录都被指定一个序号,叫做 “offset”,offset 指定了每条记录在分区中的位置。

主题分区使 Kafka 日志可以扩展到超出单个服务器的大小。

分区必须适合其所在的服务器,但主题可以有多个分区,所以主题就可以跨越多个服务器。

一个分区是一个并行单元,一个分区一次只能由消费者组中的一个消费者操作。

如果消费者组中的一个消费者停止了,Kafka 会把其对应的分区再分配给组内其他消费者。

Kafka 主题分区复制

Kafka 可以对分区进行跨服务器复制,复制几份是可以配置的,复制分区是用于容错。

每个分区复制了多份,其中有一个是 leader,其他为 follower,leader 负责此分区的所有读写请求。

follower 从 leader 复制记录,并关注 leader 的存活状态。

2. 复制:分区的 Leader, Follower, and ISR

Kafka 通过 ZooKeeper 从多个分区中选举出一个 leader。

分区 leader 所在的服务器负责处理此分区的所有读写请求,写请求会从 leader 复制到 follower。

在所有 follower 当中,与 leader 保持同步复制的,称为 ISR(in-sync replica),如果 leader 故障了,会从 ISR 中选举出一个新的 leader。

被所有 ISR 都复制完成的记录才是 “committed 已提交” 的,只有已提交的记录才能被消费者读取。

3. 常见问题

ISR 是什么?

一个 ISR 是一个同步复制 leader 的 follower。

如果 leader 故障了,只有 ISR 有资格竞选 leader。

消费者与分区的对应关系

一个消费者可以对应多个分区,但一个分区一次只能被一个消费者组中的一个消费者使用。

如果一个主题只有一个分区,那么就只能有一个消费者。

Leader Follower 是什么?

leader 处理本分区的所有读写请求,follower 复制 leader。

kafka 如何做消费者的故障转移?

消费者组的一个消费者如果故障了,那么之前分配给这个消费者的分区会被重新分配给组内的其他消费者。

kafka 如何做 broker 的故障转移?

如果一个 broker 故障了,kafka 会将其持有的分区领导权重新分配给其他 broker。

内容翻译整理自:

https://dzone.com/articles/kafka-topic-architecture-replication-failover-and

推荐阅读:

Kafka Topic 体系结构 - 复制 故障转移 并行处理的更多相关文章

  1. Kafka主题体系架构-复制、故障转移和并行处理

    本文讨论了Kafka主题的体系架构,讨论了如何将分区用于故障转移和并行处理. Kafka主题,日志和分区 Kafka将主题存储在日志中.主题日志分为多个分区.Kafka将日志的分区分布在多个服务器或磁 ...

  2. mongoDB研究笔记:复制集故障转移机制

    上面的介绍的数据同步(http://www.cnblogs.com/guoyuanwei/p/3293668.html)相当于传统数据库中的备份策略,mongoDB在此基础还有自动故障转移的功能.在复 ...

  3. sqlserver2008 复制,镜像,日志传输及故障转移集群区别

    一, 数据库复制 SQL Server 2008数据库复制是通过发布/订阅的机制进行多台服务器之间的数据同步,我们把它用于数据库的同步备份.这里的同步备份指的是备份服务器与主服务器进行 实时数据同步, ...

  4. sql server 复制,镜像,日志传输及故障转移集群区别

    一, 数据库复制 SQL Server 2008数据库复制是通过发布/订阅的机制进行多台服务器之间的数据同步,我们把它用于数据库的同步备份.这里的同步备份指的是备份服务器与主服务器进行 实时数据同步, ...

  5. MongoDb复制集实现故障转移,读写分离

    前言 数据库技术是信息系统的一个核心技术,发展很快,各种功能类型数据库层出不穷,之前工作中使用过关系型数据库(mysql.oracle等).面相对象数据库(db4o).key-value存储(Memc ...

  6. redis集群复制和故障转移

    #### 一.集群的问题- 1.当某个主节点宕机后,对应的槽位没有节点承担,整个集群处于失败状态,不可用,怎么办- 2.如何判断某个主节点是否真正的岩机?- 3.如果从某个主节点的所有从节点中选举出一 ...

  7. _00017 Kafka的体系结构介绍以及Kafka入门案例(0基础案例+Java API的使用)

    博文作者:妳那伊抹微笑 itdog8 地址链接 : http://www.itdog8.com(个人链接) 博客地址:http://blog.csdn.net/u012185296 博文标题:_000 ...

  8. 第7章 性能和可靠性模式 Failover Cluster(故障转移群集)

    上下文 您已经决定在设计或修改基础结构层时使用群集以提供高度可用的服务. 问题 您应该如何设计一个高度可用的基础结构层,来防止因单台服务器或它所运行的软件出现故障而导致的服务丢失? 影响因素 在设计高 ...

  9. Kafka学习笔记(3)----Kafka的数据复制(Replica)与Failover

    1. CAP理论 1.1 Cosistency(一致性) 通过某个节点的写操作结果对后面通过其他节点的读操作可见. 如果更新数据后,并发访问的情况下可立即感知该更新,称为强一致性 如果允许之后部分或全 ...

随机推荐

  1. Mockito -- 入门篇

    Mockito是一种mock工具/框架.我理解EasyMock有点过时了,Mockito是现在比较流行的. 什么是mock?说的直白一点,大家都知道unit test应该是尽可能独立的.对一个clas ...

  2. Comb CodeForces - 46E (动态规划)

    题面 Having endured all the hardships, Lara Croft finally found herself in a room with treasures. To h ...

  3. Pandas处理缺失数据

    利用pandas.DataFrame.dropna处理含有缺失值的数据 1.使用形式: DataFrame.dropna(axis=0, how='any', thresh=None, subset= ...

  4. Struts2 基于XML校验(易百教程)

    以下是的各类字段级和非字段级验证在Struts2列表: date validator: <field name="birthday"> <field-valida ...

  5. docker 使用elasticsearch+logstash

    1.1部署elasticsearch:6.5.4 docker pull elasticsearch:6.5.4 docker run -d --name elasticsearch -p 9200: ...

  6. 使用 HttpClient 进行表单提交时,遇到的问题

    问题 在开发微信支付的小微商户进件接口时,需要通过表单来上传身份证图片等数据.在微信支付接口文档也说明了,需要使用 multipart/form-data 的方式发送请求..NET 提供了 Multi ...

  7. 【一起学源码-微服务】Nexflix Eureka 源码十:服务下线及实例摘除,一个client下线到底多久才会被其他实例感知?

    前言 前情回顾 上一讲我们讲了 client端向server端发送心跳检查,也是默认每30钟发送一次,server端接收后会更新注册表的一个时间戳属性,然后一次心跳(续约)也就完成了. 本讲目录 这一 ...

  8. NET Core 3.1 PATCH HTTP 的使用注意事项

    使用Postman请求示例: 一.在Headers要声明请求类型Content-Type 二.body提交要使用raw,且声明为json格式传输 三.如果有authorization验证还需要带上(如 ...

  9. tensorflow之tf.train.exponential_decay()指数衰减法

    exponential_decay(learning_rate,  global_steps, decay_steps, decay_rate, staircase=False, name=None) ...

  10. h5项目中关于ios手机软键盘导致页面变形的完美解决方案

    1.项目背景:vue项目,手机加短信验证码登录: 2.问题: 在ios中input吊起软键盘,输入完成后,收起软件盘,页面不会回弹,导致页面下方出现空白,也就是页面变形: 3.最开始的解决方案是,用i ...