[Kafka]Kafka学习 -- 初识Kafka
Kafka学习 -- 初识Kafka
参考资料:稀土掘金《图解Kafka
之实战指南》https://juejin.cn/book/6844733793220165639
Kafka
是一个多分区、多副本、基于Zookeeper
协调的分布式消息系统,它定义为一个分布式流式处理平台,以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。
应用场景:
日志收集
可以用
Kafka
来收集各种服务的Log
,通过Kafka
以统一接口服务的方式开放给各种Consumer
消息系统
Kafka
以及其他的消息中间件都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。同时还提供了大多数消息中间件难以实现的,消息顺序性保障以及回溯消费的功能。用户活动跟踪
Kafka
经常被用来记录Web用户或者App
用户的各种活动,比如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到Kafka
的Topic
中,然后消费者通过订阅这些Topic
来做实时监控分析,也可以保存到数据库。运营指标
Kafka
也经常用来记录运营监控数据。包括收集各种分布式应用的数据,产生各种操作的几种反馈,比如报警和报告。流式处理平台
Kafka
不仅为每个流行的流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理类库,比如窗口、连接、变换和聚合等各类操作。
基本概念
Producer
(生产者)负责将消息发送到
Broker
。也就是发送消息的一方。生产者负责创建消息,然后将其投递到
Kafka
中。Broker
(服务器代理节点)负责将收到的消息存储到磁盘中。
可以把
Broker
简单的看做一个独立的Kafka
服务节点或者Kafka
服务实例,或者也可以将Broker
看做一台Kafka
服务器,前提是这台服务器上只部署了一个Kafka
实例。一个或多个
Broker
组成一个Kafka
集群。习惯使用首字母小写的
broker
来表示服务代理节点。Consumer
(消费者)负责从
Broker
订阅并消费消息。也就是接受消息的一方。消费者连接到
Kafka
上并接受消息,进而进行相应的业务逻辑处理。Consumer Group
(消费者组)一个消费者组可以包含一个或者多个消费者。同一个消费组中的消费者不会重复消费消息,同样的不同消费组中的消费者消费消息时互补影响。
使用多分区 + 多消费者方式可以极大提高数据下游的处理速度。
Kafka
就是通过消费组的方式来实现消息P2P
模式和广播模式。Topic
(主题)Kafka
中的消息以Topic
为单位进行划分,生产者将消息发送到特定的Topic
,而消费者负责订阅Topic
的消息进行消费。Partition
(分区)Topic
是一个逻辑的概念,它还可以细分为多个Partition
。Offset
(偏移量)offset
是消息在分区中的唯一标识,Kafka
也是通过它来保证消息在分区中的顺序性,但是offset
不跨越分区。也就是说Kafka
保证的是分区有序性而不是主题有序性。Replication
(副本)Kafka
保证数据高可用的方式。也就是Kafka
在同一分区的数据可以在多个Broker
上存在多个副本。一般只有主副本提供读写服务,从副本只做同步数据用。Record
(消息记录)实际写入
Kafka
中并可以被读取的消息记录。每个record
包含了key
、value
、timestamp
。Zookeeper
集群负责集群元数据的管理、控制器的选举等操作。
Kafka
将Broker
、Topic
和Partition
的元数据信息存储在Zookeeper
上。通过在Zookeeper
上建立相应的数据节点,并监听节点的变化。Kafka
使用Zookeeper
完成以下功能:Kafka Controller
的Leader
选举Kafka
集群成员管理Topic
配置管理- 分区副本管理
主题与分区
在Kafka
中还有两个特别重要的概念就是主题(Topic
)和分区(Partition
)。
Kafka
中的消息以主题为单位进行归类。生产者负责将消息发送到特定的主题(发送到Kafka
集群中的每一条消息都要指定一个主题),而消费者负责订阅主题并进行消费。
主题是一个逻辑上的概念,它还可以细分为多个分区,一个分区只属于单个主题,很多时候也会把分区称之为在主题分区。
同一个主题下的不同分区包含的消息是不同的。
分区在存储层面可以看做一个可追加的日志文件(Log
),消息在被追加到分区日志文件的时候都会分配一个特定的偏移量(offset
)。
offset
是消息在分区中的唯一标识,Kafka
通过它来保证消息在分区内的顺序性,不过offset
不跨越分区。也就是说Kafka
保证的是分区有序而不是主题有序。
如图。
主题有4个分区,消息被顺序追加到每个分区日志文件的尾部。
Kafka
的分区可以分布在不同的服务器上(broker
),也就是说一个主题可以横跨多个broker
,来提供更大的性能。
每条消息在被发送到broker
之前,会根据分区规则选择存储到哪个具体的分区。如果分区规则设定的合理,所有的消息都可以均匀的分配到不同的分区中。如果一个主题只对应一个文件,那么这个文件所在的机器IO将会成为这个主题的性能瓶颈。而分区解决了这个问题。在创建主题的时候可以通过指定的参数来设置分区的个数,当然也可以在主题创建完成之后去修改分区的数量,通过增加分区的数量来实现水平扩展。
多副本机制
Kafka
为分区还引入了多副本机制,通过增加副本数量可以提上容灾能力。
同一个分区的不通过副本中保存的是相同的消息,但在同一时刻,副本之间的内容并非完全一致。
副本之间是一主多从的关系。
leader
副本负责处理读写请求
follower
副本负责与
leader
副本的消息同步
副本处于不同的broker
中,当leader
副本出现故障时,从follower
副本中重新选举新的leader
副本,以对外提供服务。
Kafka
通过多副本机制实现了故障的自动转移,当Kafka
集群中的某个broker
失效时仍然能保证服务的可用。
生产者和消费者只与leader
副本进行交互,而follower
副本只负责消息的同步,所以很多时候follower
副本中的消息相对leader
副本而言会有一定的滞后。
Kafka
消费端也具备一定的容灾能力。
消费者使用pull
(拉)模式从服务端拉取消息,并保存消费的具体位置,当消费者宕机后恢复上线时可以根据之前保存的消费位置重新拉取需要的消息进行消费,这样就不会造成消息丢失。
AR\ISR\OSR
AR
:分区中的所有副本统称为AR(Assigned Replicas)
ISR
:所有与leader
副本保持一定程度同步的副本(包括leader
副本在内)组成ISR(In-Sync Replicas)
。ISR
集合是AR
集合的一个子集。
消息会先发送到 leader
副本,然后 follower
副本才能从 leader
副本中拉取消息进行同步,同步期间内 follower
副本相对于 leader
副本而言会有一定程度的滞后。
OSR
:与 leader
副本同步滞后过多的副本(不包括 leader
副本)组成 OSR(Out-of-Sync Replicas)
。
前面所说的“一定程度的同步”是指可忍受的滞后范围,这个范围可以通过参数进行配置。
由此可见,AR=ISR+OSR
。
在正常情况下,所有的 follower
副本都应该与 leader
副本保持一定程度的同步,即 AR=ISR
,OSR
集合为空。
leader
副本负责维护和跟踪 ISR
集合中所有 follower
副本的滞后状态,当 follower
副本落后太多或失效时,leader
副本会把它从 ISR
集合中剔除。如果 OSR
集合中有 follower
副本“追上”了 leader
副本,那么 leader
副本会把它从 OSR
集合转移至 ISR
集合。
默认情况下,当 leader
副本发生故障时,只有在 ISR
集合中的副本才有资格被选举为新的 leader
,而在 OSR
集合中的副本则没有任何机会(不过这个原则也可以通过修改相应的参数配置来改变)。
HW\LEO
ISR
与 HW
和 LEO
也有紧密的关系。
HW
HW
是 High Watermark
的缩写,俗称高水位,它标识了一个特定的消息偏移量(offset
),消费者只能拉取到这个 offset
之前的消息。
如图,它代表一个日志文件。这个日志文件中有9条消息,第一条消息的 offset(LogStartOffset)
为0,最后一条消息的 offset
为8,offset
为9的消息用虚线框表示,代表下一条待写入的消息。
日志文件的 HW
为6,表示消费者只能拉取到 offset
在0至5之间的消息,而 offset
为6的消息对消费者而言是不可见的。
LEO
LEO
是 Log End Offset
的缩写,它标识当前日志文件中下一条待写入消息的 offset
,上图中 offset
为9的位置即为当前日志文件的 LEO
,LEO
的大小相当于当前日志分区中最后一条消息的 offset
值加1。
分区 ISR
集合中的每个副本都会维护自身的 LEO
,而 ISR
集合中最小的 LEO
即为分区的 HW
,对消费者而言只能消费 HW
之前的消息。
很多资料中误将上图中的
offset
为5的位置看作HW
,而把 offset 为8的位置看作LEO
,这显然是不对的。
为了更好地理解 ISR
集合,以及 HW
和 LEO
之间的关系,下面通过一个简单的示例来进行相关的说明。
如图。假设某个分区的 ISR
集合中有3个副本,即一个 leader
副本和2个 follower
副本,此时分区的 LEO
和 HW
都为3。消息3和消息4从生产者发出之后会被先存入 leader
副本。
在消息写入 leader
副本之后,follower
副本会发送拉取请求来拉取消息3和消息4以进行消息同步。
在同步过程中,不同的 follower
副本的同步效率也不尽相同。
,在某一时刻 follower1
完全跟上了 leader
副本而 follower2
只同步了消息3,如此 leader
副本的 LEO
为5,follower1
的 LEO
为5,follower2
的 LEO
为4,那么当前分区的 HW
取最小值4,此时消费者可以消费到 offset
为0至3之间的消息。
当所有的副本都成功写入了消息3和消息4,整个分区的 HW
和 LEO
都变为5,因此消费者可以消费到 offset
为4的消息了。
可知,Kafka
的复制机制既不是完全的同步复制,也不是单纯的异步复制。
同步复制要求所有能工作的 follower
副本都复制完,这条消息才会被确认为已成功提交,这种复制方式极大地影响了性能。而在异步复制方式下,follower
副本异步地从 leader
副本中复制数据,数据只要被 leader
副本写入就被认为已经成功提交。在这种情况下,如果 follower
副本都还没有复制完而落后于 leader
副本,突然 leader
副本宕机,则会造成数据丢失。
Kafka
使用的这种 ISR
的方式则有效地权衡了数据可靠性和性能之间的关系。
[Kafka]Kafka学习 -- 初识Kafka的更多相关文章
- kafka 教程(一)-初识kafka
消息队列 MQ 消息队列就是 消息 message 加 队列 queue,是一种消息传输的容器,提供生产和消费 API 来存储和获取消息. 消息队列分两种:点对点(p2p).发布订阅(pub/sub) ...
- Kafka初学习
Kafka初学习 摘要:在之前的消息队列学习中,我已经了解了消息队列的基本概念以及基本用法,同时也了解到了市面上的几款消息队列中间件,其中我了解到了卡夫卡这款消息队列中间件是一款最为快速的消息队列 ...
- kafka学习(一)初识kafka
文章更新时间:2020/06/08 一.简介 定义:kafka是一个分布式,基于zookeeper协调的发布/订阅模式的消息系统,本质是一个MQ(消息队列Message Queue),主要用于大数据实 ...
- 初识Kafka:构架、生产消费模型以及其他相关概念
当前使用的事件总线采用的是Kafka分布式消息队列来完成的,近来项目需要接入到事件总线中,故开启了kafka的学习之旅(之前一直在听说kafka这玩意儿,但是学习计划中还没有将它安排进去,借着这个机会 ...
- 初识 Kafka Producer 生产者
目录 1.KafkaProducer 概述 2.KafkaProducer 类图 3.KafkaProducer 简单示例 温馨提示:整个 Kafka Client 专栏基于 kafka-2.3.0 ...
- [Kafka][1][初识Kafka]
目录 第1章 初识Kafka 1.1 发布与订阅消息系统 1.1.1 如何开始 1.1.2 独立的队列系统 1.2 Kafka登场 1.2.1 消息和批次(Message and batch) 1.2 ...
- Kafka入门学习(一)
====常用开源分布式消息系统 *集群:多台机器组成的系统叫集群. *ActiveMQ还是支持JMS的一种消息中间件. *阿里巴巴metaq,rocketmq都有kafka的影子. *kafka的动态 ...
- 【kafka学习之五】kafka运维:kafka操作日志设置和主题删除
一.操作日志 首先附上kafka 操作日志配置文件:log4j.properties 根据相应的需要设置日志. #日志级别覆盖规则 优先级:ALL < DEBUG < INFO <W ...
- 初识kafka
简介 Kafka经常用于实时流数据架构,用于提供实时分析.本篇将会简单介绍kafka以及它为什么能够广泛应用. kafka的增长是爆炸性的.2017年超过三分之一的世界五百强公司在使用kafk ...
- Kafka权威指南 读书笔记之(一)初识Kafka
发布与订阅消息系统 数据(消息)的发送者(发布者)不会直接把消息发送给接收者,这是发布与订阅消息系统的一个特点.发布者以某种方式对消息进行分类,接收者(订阅者)订阅它们, 以便接收特定类型的消息.发布 ...
随机推荐
- freeswitch的gateway实现出中继的主备方案
概述 freeswitch是一款简单好用的VOIP开源软交换平台. 某些呼叫场景中,我们有2条出中继线路可选,2条出中继需要按照主备模式来配置,优先使用主中继呼叫,当主中继出现问题时,呼叫自动转移到备 ...
- 概率图模型 · 概率论基础 | 讲的非常好的 KL 散度博客
知乎博客链接:https://zhuanlan.zhihu.com/p/425693597 感觉讲的非常好,谢谢善良的博主
- Spring 事务失效场景总结
本文为博主原创,未经允许不得转载: 1. spring的事务注解@Transactional只能放在public修饰的方法上才起作用,如果放在其他非public(private,protected)方 ...
- React报错之The tag is unrecognized in this browser
正文从这开始~ 总览 当我们使用一个在浏览器中不存在的标签或以小写字母开头的组件名称时,会产生"The tag is unrecognized in this browser"Re ...
- c#(nanoframework)安装单片机环境;如何使用c#写类似于c的单片机驱动
.NET nanoFramework 安装教程 准备材料 esp32单片机(支持wifi蓝牙) 安卓数据线(需要支持传输) 注意!请先安装esp32驱动程序 ESP32驱动链接 安装 .NET n ...
- DFT Architecture
Design For Test 在实际生产过程中产生的physical defect是导致芯片功能出错的根本原因 如何根据结构产生测试向量呢?主要考虑physical defect physical ...
- [粘贴]TiDB Lightning 断点续传
https://www.bookstack.cn/read/tidb-6.1-zh/tidb-lightning-tidb-lightning-checkpoints.md 大量的数据导入一般耗时数小 ...
- [转帖]MinIO系列7 - Minio性能压测
https://www.zhihu.com/people/keen-wang 前言 声明:此文为本人历史笔记的整理,文章实际撰写时间为2021年2月份,所以本中所使用的相关组件版本较老.此文是通过压力 ...
- Jmeter之二_JSR223取样器,断言等添加失败的解决办法
Jmeter之二_JSR223取样器,断言等添加失败的解决办法 背景 最近在学习jmeter 但是发现在进行JSR223的相关取样器以及断言处理时出现了错误: java.lang.NoClassDef ...
- [转帖]原创经典:SQLSERVER SendStringParametersAsUnicode引发的疑案 推荐
https://developer.aliyun.com/article/429563 简介: 上周五碰到开发的请求协助解决数据预定程序中对单头等几个表检索数据时检索条件尾数是9的数据特别慢.第一时间 ...