Apache Kafka教程--Kafka新手入门

Kafka Assistant 是一款 Kafka GUI 管理工具——管理Broker,Topic,Group、查看消费详情、监控服务器状态、支持多种消息格式。

摘要

今天,我们开始了我们的新旅程,这就是Apache Kafka教程。在这个Kafka教程中,我们将看到什么是Kafka,Apache Kafka的历史,为什么是Kafka。此外,我们还将学习Kafka架构、Kafka的组件和Kafka分区。此外,我们还将讨论Kafka的各种比较和Kafka的使用案例。除此之外,我们将在这个Kafka教程中看到各种术语,如Kafka Broker、Kafka Cluster、Kafka Consumer、Kafka Topics等。

那么,让我们开始学习Apache Kafka教程吧。

什么是Kafka?

当涉及到使用基于消息的主题实现生产者和消费者之间的通信时,我们使用Apache Kafka。Apache Kafka是一个快速、可扩展、容错、发布-订阅的消息传递系统。基本上,它为高端的新一代分布式应用设计了一个平台。同时,它允许大量的永久性或临时性的消费者。Kafka的一个最好的特点是,它具有高度的可用性和对节点故障的弹性,并支持自动恢复。这个特点使得Apache Kafka成为现实世界数据系统中大规模数据系统组件之间的理想通信和集成工具。

此外,这项技术取代了传统的消息 Broker,能够像JMS、AMQP等一样给出更高的吞吐量、可靠性和复制。此外,Kafka提供了一个Kafka Broker、一个Kafka Producer和一个Kafka Consumer。Kafka Broker是Kafka集群上的一个节点,它的作用是坚持和复制数据。Kafka生产者将消息推送到称为Kafka Topic的消息容器中。而Kafka消费者则从Kafka Topic中提取消息。

在继续学习Kafka教程之前,让我们先了解一下Kafka中Messaging System这一术语的实际含义。

Kafka中的消息传递系统

当我们将数据从一个应用程序转移到另一个应用程序时,我们使用了消息传递系统。它的结果是,不用担心如何分享数据,应用程序可以只关注数据。分布式消息传递是建立在可靠的消息队列上。虽然,消息在客户端应用程序和消息传递系统之间是异步排队的。有两种类型的消息传递模式,即点对点和发布-订阅(pub-sub)消息传递系统。然而,大多数的消息传递模式都遵循pub-sub。

  • 点对点消息传递系统

    在这里,消息被保存在一个队列中。虽然,一个特定的消息最多只能被一个消费者消费,即使一个或多个消费者可以订阅队列中的消息。同时,它确保一旦消费者阅读了队列中的消息,它就会从该队列中消失。

  • 发布-订阅消息系统

    在这里,消息被持久化在一个主题中。在这个系统中,Kafka消费者可以订阅一个或多个主题并消费该主题中的所有消息。此外,消息生产者是指发布者,消息消费者是指订阅者。

Apache Kafka的历史

此前,LinkedIn面临着的问题是,将网站上的大量数据低延迟地输入到一个能够处理实时事件的lambda架构中。作为一个解决方案,Apache Kafka在2010年被开发出来,因为之前没有一个解决方案可以处理这个问题。

然而,有一些技术可用于批处理,但这些技术的部署细节是与下游用户共享的。因此,当涉及到实时处理时,这些技术并不适合。然后,在2011年,Kafka被开源了。

为什么我们要使用Apache Kafka集群?

我们都知道,大数据中存在着巨大的数据量。而且,当涉及到大数据时,有两个主要挑战。一个是收集大量的数据,而另一个是分析收集到的数据。因此,为了克服这些挑战,我们需要一个消息传递系统。那么Apache Kafka已经证明了它的效用。Apache Kafka有许多好处,例如:

  • 通过存储/发送实时进程的事件来跟踪网络活动。
  • 提醒和报告业务指标。
  • 将数据转换为标准格式。
  • 连续处理流媒体数据。

因此,由于其广泛的使用,这项技术正在给一些最流行的应用程序,如ActiveMQ、RabbitMQ、AWS等带来激烈的竞争。

Kafka教程 - 先决条件

在继续学习Apache Kafka教程之前,你必须对Java和Linux环境有良好的了解。

Kafka架构

下面我们将在这个Apache Kafka教程中讨论四个核心API。

  • Kafka Producer API

    这个Kafka Producer API允许一个应用程序将消息发布到一个或多个Kafka主题。

  • Kafka Consumer API

    为了订阅一个或多个主题并处理应用程序中产生的消息,我们使用这个Kafka Consumer API。

  • Kafka Streams API

    为了充当流处理器,从一个或多个主题消费输入流,并向一个或多个输出主题产生输出流,同时有效地将输入流转化为输出流,这个Kafka Streams API给应用程序提供了便利。

  • Kafka Connector API

    这个Kafka连接器API允许构建和运行可重用的生产者或消费者,将Kafka主题连接到现有的应用程序或数据系统。例如,一个连接到关系型数据库的连接器可能会捕获一个表的每一个变化。

Kafka组件

利用以下组件,Kafka实现了信息传递。

  • Kafka主题

    基本上,消息的集合就是Topic。此外,我们还可以对Topic进行复制和划分。这里,复制指的是拷贝,划分指的是分区。另外,把它们想象成日志,Kafka在其中存储消息。然而,这种复制和划分主题的能力是实现Kafka的容错性和可扩展性的因素之一。

  • Kafka生产者

    它将消息发布到一个Kafka主题。

  • Kafka消费者

    这个组件订阅一个(多个)主题,读取和处理来自该主题的消息。

  • Kafka Broker

    Kafka Broker管理主题中的消息存储。如果Kafka有一个以上的Broker,这就是我们所说的Kafka集群。

  • Kafka Zookeeper

    为了给Broker提供关于系统中运行的进程的元数据,并促进健康检查和Broker领导权的选举,Kafka使用Kafka zookeeper。

Kafka教程--日志剖析

在这个Kafka教程中,我们将日志视为分区。基本上,一个数据源会向日志写消息。其中一个好处是,在任何时候,一个或多个消费者从他们选择的日志中读取。在这里,下图显示了数据源正在写日志,而消费者在不同的偏移点上正在读取日志。

Kafka教程 - 数据日志

通过Kafka,消息被保留了相当长的时间。而且,消费者可以根据自己的方便来阅读。然而,如果Kafka被配置为保留消息24小时,而消费者的停机时间超过24小时,消费者就会丢失消息。而且,如果消费者的停机时间只有60分钟,那么可以从最后的已知偏移量读取消息。Kafka并不保留消费者从一个主题中读取的状态。

消费者会向一个叫作 __consumer_offset 的主题发送

消息,消息里包含每个分区的偏移量。如果消费者一直处于运行状态,那么偏移量就没有

什么实际作用。但是,如果消费者发生崩溃或有新的消费者加入群组,则会触发再均衡。

再均衡完成之后,每个消费者可能会被分配新的分区,而不是之前读取的那个。为了能够

继续之前的工作,消费者需要读取每个分区最后一次提交的偏移量,然后从偏移量指定的

位置继续读取消息。

Kafka教程 - Kafka的分区

每个Kafka Broker中都有几个分区。此外,每个分区可以是一个领导者,也可以是一个主题的副本。此外,随着新数据对副本的更新,领导者负责对一个主题的所有写和读。如果领导者以某种方式失败了,副本就会作为新的领导者接管。

Java在Apache Kafka中的重要性

Apache Kafka是用纯Java编写的,Kafka的本地API也是java。然而,许多其他语言如C++、Python、.Net、Go等也支持Kafka。不过,一个不需要使用第三方库的平台还是Java。另外,我们可以说,用Java以外的语言写代码,会有一点开销。

此外,如果我们需要Kafka上标准的高处理率,我们可以使用Java语言。同时,Java为Kafka消费者客户端提供了良好的社区支持。因此,用Java实现Kafka是一个正确的选择。

Kafka使用案例

有几个Kafka的使用案例,显示了我们为什么实际使用Apache Kafka。

  • 消息代理

    对于一个比较传统的消息代理,Kafka可以很好的作为一个替代品。我们可以说Kafka有更好的吞吐量,内置的分区、复制和容错功能,这使得它成为大规模消息处理应用的良好解决方案。

  • 运营监测

    对于运营监测数据,Kafka找到了很好的应用。它包括聚合来自分布式应用的统计数据,以产生集中式的运营数据反馈。

  • 事件源

    由于它支持非常大的存储日志数据,这意味着Kafka是一个优秀的事件源应用的后端。

Kafka教程 - Kafka的比较

许多应用程序提供了与Kafka相同的功能,如ActiveMQ、RabbitMQ、Apache Flume、Storm和Spark。那你为什么要选择Apache Kafka而不是其他呢?

让我们来看看下面的比较。

Apache Kafka 和 Apache Flume 对比

  • 工具的类型

    Apache Kafka- 对于多个生产者和消费者来说,它是一个通用的工具。Apache Flum- 而对于特定的应用来说,它是一个特殊用途的工具。

  • 复制功能

    Apache Kafka-使用摄入管道,它复制事件。 Apache Flum-它不复制事件。

RabbitMQ 和 Apache Kafka 对比

最重要的Apache Kafka替代品之一是RabbitMQ。因此,让我们看看它们之间有什么不同。

  • 特点

    Apache Kafka - 基本上,Kafka是分布式的。同时,在保证耐久性和可用性的情况下,数据被共享和复制。RabbitMQ - 它对这些功能的支持相对较少。

  • 性能

    Apache Kafka--它的性能率很高,达到100,000条消息/秒的程度。RabbitMQ - 而RabbitMQ的性能率约为20,000消息/秒。

  • 处理

    Apache Kafka - 它允许可靠的日志分布式处理。此外,Kafka流中还内置了流处理语义。RabbitMQ - 在这里,消费者只是基于FIFO,从HEAD中读取并逐一处理。

传统消息队列系统与Apache Kafka的对比

  • 信息保留

    传统的队列系统--大多数队列系统在消息被处理后通常会从队列的末端删除。Apache Kafka - 在这里,消息即使在被处理后也会持续存在。它们不会在消费者收到它们时被删除。

  • 基于逻辑的处理

    传统的队列系统--它不允许基于类似消息或事件的逻辑处理。Apache Kafka - 它允许根据类似的消息或事件来处理逻辑。

所以,这就是关于Apache Kafka教程的全部内容。希望你喜欢我们的解释。


参考资料:

Apache Kafka教程--Kafka新手入门的更多相关文章

  1. jmeter安装教程与新手入门(附jdk安装教程)

    一.前言 最近要对网站做性能测试,提到了并发数测试,查了下,还是决定使用jmeter来完成这项测试,这里总结了jmeter完整的安装教程,附上新手使用教程. 二.jmeter安装 1.jdk安装(jm ...

  2. yii2实战教程之新手入门指南-简单博客管理系统

    作者:白狼 出处:http://www.manks.top/document/easy_blog_manage_system.html 本文版权归作者,欢迎转载,但未经作者同意必须保留此段声明,且在文 ...

  3. [Axure教程]0001.新手入门基础

    Axure RP是一个专业的快速原型设计工具.Axure(发音:Ack-sure),代表美国Axure公司:RP则是Rapid Prototyping(快速原型)的缩写.Axure RP已被一些大公司 ...

  4. Apache Kafka教程

    1.卡夫卡教程 今天,我们正在使用Apache Kafka Tutorial开始我们的新旅程.在这个Kafka教程中,我们将看到什么是Kafka,Apache Kafka历史以及Kafka的原因.此外 ...

  5. Kafka教程(一)基础入门:基本概念、安装部署、运维监控、命令行使用

    Kafka教程(一)基础入门   1.基本概念   背景   领英->Apache   分布式.消息发布订阅系统   角色   存储系统   消息系统   流处理平台-Kafka Streami ...

  6. Windows OS上安装运行Apache Kafka教程

    Windows OS上安装运行Apache Kafka教程 下面是分步指南,教你如何在Windows OS上安装运行Apache Zookeeper和Apache Kafka. 简介 本文讲述了如何在 ...

  7. kafka技术分享02--------kafka入门

    kafka技术分享02--------kafka入门 1. 消息系统 ​ 所谓的Messaging System就是一组规范,企业利用这组规范在不同的系统之间传递语义准确对的消息,实现松耦合的异步数据 ...

  8. Apache Kafka安全| Kafka的需求和组成部分

    1.目标 - 卡夫卡安全 今天,在这个Kafka教程中,我们将看到Apache Kafka Security 的概念  .Kafka Security教程包括我们需要安全性的原因,详细介绍加密.有了这 ...

  9. Apache ZooKeeper在Kafka中的角色 - 监控和配置

    1.目标 今天,我们将看到Zookeeper在Kafka中的角色.本文包含Kafka中需要ZooKeeper的原因.我们可以说,ZooKeeper是Apache Kafka不可分割的一部分.在了解Zo ...

  10. kafka 教程(四)-原理进阶

    kafka 最初由 Linkedin 公司开发,是一个 分布式.支持分区.多副本的,基于 zookeeper 协调的分布式发布订阅消息系统,该公司在 2010 年将 kafka 贡献给 apache ...

随机推荐

  1. cadence报错:Class must be one of IC, IO, DISCRETE, MECHANICAL, PLATING_BAR or DRIVER_CELL.

    在原理图文件上右键选择Edit Object Properties, 然后在class一栏中修改class为IC, IO, DISCRETE, MECHANICAL, PLATING_BAR or D ...

  2. 基于Face-Recognition的计算机人脸识别安全认证程序

    20202411 2020-2021-2 <Python程序设计>实验四报告 基于Face-Recognition的计算机人脸识别安全认证程序 课程:<Python程序设计> ...

  3. 3MP/5MPNetwork-Camera摄像头默认口令

    网络资产搜索: shodan: 找到5MP-Network-Carema 登陆:admin/a***n End!!!

  4. JavaScript 之 数组在内存中的存储方式(连续或不连续)

    最近在纠结一个问题,就是数组这个引用类型在JavaScript 中是不是和其他语言一样开辟了一个连续的内存来存储,但是在JS 中每个元素又可以是不同的类型,这就导致了没办法用一个相同大小的存储,所以数 ...

  5. 【批量下载】url——wget,给定网址,批量下载文件

    写在前面:最近在学习批量下载sci文章并传入noteexpress,从网上学来了一些方法,其中有一步需要使用url将sci-hub上面的文章批量下载下来. 学习网址:[研究生]快速批量下载 Web o ...

  6. 身为一个java开发人员对目前java开发的一些小小的认识

    为什么要学java? 第一要工作,第二想要高薪 首先身为java开发工作人员你的思想认知程度要搞,思想认知程度决定你的专业技能水平 JavaSE工程师     B/S 架构   ----    浏览器 ...

  7. pads:数据格式不正确,网络必须包含一个以上管脚

    1,如果已经有pcb封装,则在pads logic软件里面-元件编辑器-重新做封装,在--编辑电参数--里面匹配对应pcb封装, 2,点击-工具--,--从库中更新--,更新一下,之后导入pcb la ...

  8. pyahocorasick 安装和使用问题总结

    因系统中用到了ahocorasick,但是程序跑起来有BUG,故而10.1假期研究了一下,趟过几个坑,分享一下. 一.安装过程中的坑 直接安装pip install  pyahocorasick 是会 ...

  9. Liunx安装eclipse-mosquitto之docker容器

    1.docker拉取 docker pull eclipse-mosquitto 2.查看镜像 docker images 3.建立配置目录 mkdir -p /mnt/mosquitto/confi ...

  10. 微信小程序基本总结

    小程序目录结构 project.config.json 配置项目文件,用的最多的就是配置是否开启HTTPS校检 app.js 设置一些全局的基础数据 app.json 设置底部tabbar,标题栏和路 ...