深入理解Kafka核心设计及原理(一):初识Kafka
转载请注明出处:
1.1 kafka简介
Kafka 起初是由 Linkedin 公司采用 Scala 语言开发的一个多分区、多副本且基于 ZooKeeper协调的分布式消息系统,现己被捐献给 Apache 基金会 。 目前 Kafka 已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。
1.2 Kafka应用角色
目前越来越多的开源分布式处理系统如 Cloudera 、Storm 、Spark 、Flink 等都支持与 Kafka 集成 。Kafka 之所以受到越来越多的青睐,与它所“扮演 ”的三大角色是分不开的 :
消息系统: Kafka 和传统的消息系统(也称作消息中间件〉都具备系统解稿、冗余存储、流量削 峰、缓冲、异步通信、扩展性、 可恢复性等功能。与此同时,Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费 的功能 。
存储系统: Kafka 把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险 。 也正是得益于 Kafka 的消息持久化功能和多副本机制,我们可以把 Kafka 作为长期的数据存储系统来使用,只需要把对应的数据保留策略设置为“永久”或启用主题的日志压缩功能即可 。
流式处理平台: Kafka 不仅为每个流行的流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理类库,比如窗口、连接、变换和聚合等各类操作 。
1.3 Kafka体系结构——Producer/Consumer/Broker
整个 Kafka 体系结构中引入了以下 3 个术语。:
( 1 ) Producer :生产者,也就是发送消息的一方。生产者负责创建消息 , 然后将其投递到Kafka 中 。
( 2) Consumer:消费者,也就是接收消息的一方。消费者连接到 Kafka 上并接收消息,进而进行相应的业务逻辑处理 。
(3) Broker:服务代理节点。对于 Kafka 而言,Broker 可以简单地看作一个独立的 Kafka服务节点或 Kafka 服务实例。大多数情况下也可以将 Broker 看作一台 Kafka 服务器,前提是这台服务器上只部署了一个 Kafka 实例。一个或多个 Broker 组成了 一个 Kafka 集群 。一般而言,我们更习惯使用首字母小写的 broker 来表示服务代理节点。

1.4 Kafka高可用,高可靠——主题/分区/副本
在 Kafka 中还有两个特别重要的概念一一主题( Topic )与分区( Partition )。 Kafka 中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到 Kafka 集群中的每一 条消息都要指定一个主题),而消费者负责订阅主题并进行消费。 主题是一个逻辑上的概念,它还可以细分为多个分区,一个分区只属于单个主题,很多时候也会把分区称为主题分区( Topic-Partition )。同一主题下的不同分区包含的消息是不同的,分区在存储层面可以看作一个可追加的日志( Log )文件,消息在被追加到分区日志、文件的时候都会分配一个特定的偏移量( offset )。offset 是消息在分区中的唯一标识,Kafka 通过它来保证消息在分区内的顺序性,不过 offset 并不跨越分区,也就是说,Kafka 保证的是分区有序而不是主题有序。
每一条消息被发送到 broker 之前,会根据分区规则选择存储到哪个具体的分区 。 如果分区规则设定得合理,所有的消息都可以均匀地分配到不同的分区中 。 如果一个主题只对应一个文件,那么这个文件所在的机器I/O 将会成为这个主题的性能瓶颈,而分区解决了这个问题 。 在创建主题的时候可以通过指定的参数来设置分区的个数,当然也可以在主题创建完成之后去修改分区的数量,通过增加分区的数量可以实现水平扩展。 Kafka 为分区引入了多副本( Replica ) 机制,通过增加副本数量可以提升容灾能力。同一分区的不同副本中保存的是相同的消息(在同一时刻,副本之间并非完全一样),副本之间是“ 一主多从”的关系,其中 leader 副本负责处理读写请求 ,follower 副本只负 责与 leader 副本的消息同步,很多时候 follower 副本中的消息相对 leader副本而言会有一定的滞后。副本处于不同的 broker 中 ,当 leader 副本出现故障时,从 fo llower 副本中重新选举新的 leader 副本对外提供服务。 Kafka 通过多副本机制实现了故障的自动转移,当 Kafka 集群中某个 broker 失效时仍然能保证服务可用 。

Kafka 消费端也具备一定 的容灾能力。Consumer 使用拉( Pull )模式从服务端拉取消息,并且保存消费 的具体位置 ,当消费者开机后恢复上线时可以根据之前保存的消费位置重新拉取需要的消息进行消 费 ,这样就不会造成消息丢失 。 分区中 的所有副本统称为 AR (Assigned Replicas )。 所有与 leader 副本保持一定程度同步的副本(包括 leader 副本在内〕组成 ISR On-Sync Replicas ) , ISR 集合是 AR 集合中 的一个子集 。 消息会先发送到 leader 副本,然后 follower 副本才能从 leader 副本中拉取消息进行同步,同步期间内follower 副本相对于 leader 副本而言会有一定程度的滞后 。 前面所说的“ 一定程度的同步”是指可忍受的滞后范围,这个范围可以通过参数进行配置 。 与 leader 副本同步滞后过多的副本(不包括 leader 副本)组成 OSR (Out-of-Sync Replicas ),由 此可见, AR=ISR+OSR 。在正常情况下,所有 的 follower 副本都应该与 leader 副本保持一定程度 的同步,即 AR=ISR, OSR 集合为空。
leader 副本负 责维护和跟踪 ISR 集合中所有 follower 副本 的滞后状态, 当 follower 副本落后太多或失效时,leader 副本会把它从 ISR 集合中剔除 。 如果 OSR 集合中有 follower 副本 “追上’了 leader 副本,那么 leader 副本会把它从 OSR 集合转移至 ISR 集合 。 默认情况下,当 leader 副本发生故障时,只 有在 ISR 集合中的副本才有资格被选举为新的 leader , 而在 OSR 集合中的副本则没有任何机会(不过这个原则也可以通过修改相应的参数配置来改变)。
ISR 与 HW 和 LEO 也有紧密的关系 。 HW 是 High Watermark 的缩写,俗称高水位,它标识了 一个特定 的消息偏移量( offset ),消费者只能拉取到这个 offset 之前的消息 。 如图 所示,它代表一个日志文件,这个日志文件 中有 9 条消息,第一条消息的offset( LogStartOffset )为 0,最后一条消息的 offset 为 8,offset 为 9 的消息用虚线框表示,代表下一条待写入的消息 。日志文件的 HW 为 6,表示消费者只能拉取到 offset 在 0 至 5 之间的消息,而 offset 为 6 的消息对消 费者而言是不可见 的 。

LEO 是 Log End Offset 的缩写,它标识当前日志文件中下一条待写入消息 的 offset,图中 offset 为 9 的位置即为当前日志文件的 LEO,LEO 的大小相 当于当前日 志分区中最后一条消息的 offset 值加l 。分区 ISR 集合中的每个副本都会维护自身的 LEO ,而 ISR 集合中最小的 LEO即为分区的 HW ,对消费者而言只能消费 HW 之前的消息 。(高水位可理解为多个副本中最小的offset位移量)
1.5 Kafka 与 zookeeper
ZooKeeper 是安装 Kafka 集群的必要组件, Kafka 通过 ZooKeeper 来实施对元数据信息 的管理 ,包括集群 、broker、主题、 分区等 内 容。
ZooKeeper 是一个开源的分布式协调服务,是 Google Chubby 的一个开源实现。分布式应用程序可 以基于 ZooKeeper 实现诸如数据发布/订阅 、负载均衡、 命名 服务、分布式协调/通知 、 集群管理、 Master 选举、配置维护等功能。在 ZooKeeper 中共有 3 个角色: leader 、 follower 和 obsever ;同一时刻ZooKeeper 集群中只会有一个 leader,其他的都是 follower 和 obsever ;obsever 不参与投票,默认情况下ZooKeeper 中只有 leader 和follower 两个角色。
深入理解Kafka核心设计及原理(六):Controller选举机制,分区副本leader选举机制,再均衡机制
深入理解Kafka核心设计及原理(一):初识Kafka的更多相关文章
- 深入理解Kafka核心设计及原理(三):消费者
转载请注明出处:https://www.cnblogs.com/zjdxr-up/p/16114877.html 深入理解Kafka核心设计及原理(一):初识Kafka 深入理解Kafka核心设计及原 ...
- 深入理解Kafka核心设计及原理(四):主题管理
转载请注明出处:https://www.cnblogs.com/zjdxr-up/p/16124354.html 目录: 4.1创建主题 4.2 优先副本的选举 4.3 分区重分配 4.4 如何选择合 ...
- 深入理解Kafka核心设计及原理(五):消息存储
转载请注明出处:https://www.cnblogs.com/zjdxr-up/p/16127749.html 目录: 5.1文件目录布局 5.2消息压缩 5.3日志索引 5.4日志文件及索引文件分 ...
- 深入理解Kafka核心设计及原理(二):生产者
转载请注明出处: 2.1Kafka生产者客户端架构 2.2 Kafka 进行消息生产发送代码示例及ProducerRecord对象 kafka进行消息生产发送代码示例: public class Ka ...
- Kafka从入门到放弃(一) —— 初识Kafka
消息中间件的使用已经越来越广泛,基本上具有一定规模的系统都会用到它,在大数据领域也是个必需品,但为什么使用它呢?一个技术的广泛使用必然有它的道理. 背景与问题 以前一些传统的系统,基本上都是" ...
- 分布式公布订阅消息系统 Kafka 架构设计
我们为什么要搭建该系统 Kafka是一个消息系统,原本开发自LinkedIn,用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的基础. 如今它已为多 ...
- kafka核心原理总结
新霸哥发现在新的技术发展时代,消息中间件也越来越受重视,很多的企业在招聘的过程中着重强调能够熟练使用消息中间件,所有做为一个软件开发爱好者,新霸哥在此提醒广大的软件开发朋友有时间多学习. 消息中间件利 ...
- Kafka 设计与原理详解
一.Kafka简介 本文综合了我之前写的kafka相关文章,可作为一个全面了解学习kafka的培训学习资料. 转载请注明出处 : 本文链接 1.1 背景历史 当今社会各种应用系统诸如商业.社交.搜索. ...
- kafka知识体系-kafka设计和原理分析
kafka设计和原理分析 kafka在1.0版本以前,官方主要定义为分布式多分区多副本的消息队列,而1.0后定义为分布式流处理平台,就是说处理传递消息外,kafka还能进行流式计算,类似Strom和S ...
- 最全Kafka 设计与原理详解【2017.9全新】
一.Kafka简介 1.1 背景历史 当今社会各种应用系统诸如商业.社交.搜索.浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战: 如何收集这些巨大的信息 如何分析它 如何 ...
随机推荐
- PanguHA,一款Windows双机热备工具
1.简介 PanguHA是Windows平台的双机热备集群系统,是提供系统高可用性的解决方案,一般由两个节点构成,分为活动节点及备用节点(两者之间可以相互切换),软件界面如下 PanguHA下载地址 ...
- 后端程序员必会的前端知识-02:JavaScript
第二章. Javascript 它是一种脚本语言,可以用来更改页面内容,控制多媒体,制作图像.动画等等 例子 修改页面内容 js 代码位置 <script> // js 代码 </s ...
- JVM整理笔记
1.JVM位置 JVM是作用在操作系统之上的,它与硬件没有直接的交互 2.JVM体系结构 3.类装载器ClassLoader 类装载器:负责加载class文件,class文件在文件开头有特定的文件标示 ...
- CSP_J
- 整一个工具类【根据URL地址获取file文件对象】
整一个工具类[根据URL地址获取file文件对象] 直接将网络url文件转换为file对象 import java.io.*; import java.net.URL; public class Im ...
- 如何从零开始实现TDOA技术的 UWB 精确定位系统(1)
前言 这是一个系列文章,将向你介绍如何从零开始实现一个使用TDOA技术的 UWB 精确定位系统. 重要提示(劝退说明): Q:做这个定位系统需要基础么? A:文章不是写给小白看的,需要有电子技术和软件 ...
- Python——第二章:字符串操作——总结
总结: f"{变量}" 格式化字符串最优方法 索引.切片.步长: 索引:从0开始计算的.[5] 切片:s[start: end: step],end位置的数据永远拿不到,左闭又开 ...
- MySQL运维实战(1.3)安装部署:源码编译安装
作者:俊达 引言 在大多数情况下,我们不需要自己编译MySQL源码,因为编译的MySQL和二进制包的内容基本一致.然而,有些特殊情况可能需要我们采用源码编译的方式安装MySQL: 安装非标准版本的My ...
- pacman下载时经常出现Operation too slow. Less than 1 bytes/sec transferred the last 10 seconds
问题 我在manjaro系统上使用pacman下载软件的时候,经常出现以下报错: 错误:无法从 mirrors.tuna.tsinghua.edu.cn : Operation too slow. L ...
- kubernetes安装(一)
参考: https://www.cnblogs.com/liuyangQAQ/p/17299871.html 部署组件包 名称 安装包 kubeadm集群组件 kubelet-1.20.9 kubea ...