什么是Kafka？

通过Kafka的快速入门 https://www.cnblogs.com/tree1123/p/11150927.html

能了解到Kafka的基本部署，使用，但他和其他的消息中间件有什么不同呢？

Kafka的基本原理，术语，版本等等都是怎么样的？到底什么是Kafka呢？

一、Kafka简介

http://kafka.apache.org/intro

2011年，LinkIn开源， November 1, 2017 1.0版本发布 July 30, 2018 2.0版本发布

参考官网的图：

Kafka®用于构建实时数据管道和流式应用程序。它具有水平可扩展性、容错性、速度极快，并在数千家公司投入生产。

kafka官网最新的定义：Apache Kafka® is a distributed streaming platform

也就是分布式流式平台。

介绍：

三个特点：

Publish and subscribe to streams of records, similar to a message queue or enterprise messaging system.
Store streams of records in a fault-tolerant durable way.
Process streams of records as they occur.

消息持久化流处理

两类应用：

Building real-time streaming data pipelines that reliably get data between systems or applications
Building real-time streaming applications that transform or react to the streams of data

实时流数据管道实时流应用程序

几个概念
- Kafka is run as a cluster on one or more servers that can span multiple datacenters.
- The Kafka cluster stores streams of records in categories called topics.
- Each record consists of a key, a value, and a timestamp
  
  集群 topic record
  
  四个核心api
  - The Producer API allows an application to publish a stream of records to one or more Kafka topics.
  - The Consumer API allows an application to subscribe to one or more topics and process the stream of records produced to them.
  - The Streams API allows an application to act as a stream processor, consuming an input stream from one or more topics and producing an output stream to one or more output topics, effectively transforming the input streams to output streams.
  - The Connector API allows building and running reusable producers or consumers that connect Kafka topics to existing applications or data systems. For example, a connector to a relational database might capture every change to a table.
  Producer API Consumer API Streams API Connector API

客户端服务器通过tcp协议支持多种语言

主题和日志

一个主题可以有零个，一个或多个消费者订阅写入它的数据

对于每个主题，Kafka群集都维护一个分区日志

每个分区都是一个有序的，不可变的记录序列，不断附加到结构化的提交日志中。

分区中的记录每个都被分配一个称为偏移的顺序ID号，它唯一地标识分区中的每个记录。

Kafka集群持久地保留所有已发布的记录 - 无论它们是否已被消耗 - 使用可配置的保留期。可以配置这个时间。

Kafka的性能在数据大小方面实际上是恒定的，因此长时间存储数据不是问题。

每个消费者保留的唯一元数据是该消费者在日志中的偏移或位置。

这种偏移由消费者控制：通常消费者在读取记录时会线性地提高其偏移量，但事实上，由于消费者控制位置，它可以按照自己喜欢的任何顺序消费记录。例如，消费者可以重置为较旧的偏移量以重新处理过去的数据，或者跳到最近的记录并从“现在”开始消费。

这使得消费者特别容易使用。

生产者：

生产者将数据发布到他们选择的主题。

为了负载均衡，可以选择多个分区。

消费者：

消费者组

传统的消息队列发布订阅都有弊端

队列可以扩展但不是多用户，发布订阅每条消费发给每个消费者，无法扩展。

但是kafka这个模式解决了这些问题

kafka确保使用者是该分区的唯一读者并按顺序使用数据，由于有许多分区，这仍然可以

平衡许多消费者实例的负载。

作为存储系统

作为流处理系统

二、常见使用

http://kafka.apache.org/uses

消息

Kafka可以替代更传统的消息代理。消息代理的使用有多种原因（将处理与数据生成器分离，缓冲未处理的消息等）。与大多数消息传递系统相比，Kafka具有更好的吞吐量，内置分区，复制和容错功能，这使其成为大规模消息处理应用程序的理想解决方案。

根据我们的经验，消息传递的使用通常相对较低，但可能需要较低的端到端延迟，并且通常取决于Kafka提供的强大的耐用性保证。

在这个领域，Kafka可与传统的消息传递系统（如ActiveMQ或 RabbitMQ）相媲美。

三、官方文档-核心机制

http://kafka.apache.org/documentation/

简介使用快速入门都已经学习过了

生态：这里有一些kafka的生态，各种Connector 可以直接连接数据库 es等等还可以连接其他的流处理还有各种管理工具

confluent公司专门做kafka的生态

https://cwiki.apache.org/confluence/display/KAFKA/Ecosystem

kafka connect stream management

kafka考虑的几个问题：

吞吐量：用到了page cache 并不是硬盘读写

消息持久化：这个还是靠他独特的offset设计

负载均衡：分区副本机制

由于应用零拷贝技术客户端应用epoll 所以kafka部署在linux上性能更高。

消息：kafka的消息由 key value timestamp组成消息头里定义了一些压缩版本号的信息

crc 版本号属性时间戳长度 key长度 key value长度 value

用的是二进制不用java类

topic和partition：

这是kafka最核心，也是最重要的机制，这个机制让他区别于其他。

offset是指某一个分区的偏移量。

topic partition offset 这三个唯一确定一条消息。

生产者的offset其实就是最新的offset。

消费者的offset是他自己维护的，他可以选择分区最开始，最新，也可以记住他消费到哪了。

消费者数大于分区，就会有消费者空着。消费者数小于分区，就会均衡消费。

因为kafka的设计是在一个partition上是不允许并发的，所以consumer数不要大于partition数，浪费。

如果consumer从多个partition读到数据，不保证数据间的顺序性，kafka只保证在一个partition上数据是有序的，但多个partition，根据你读的顺序会有不同。

增减consumer，broker，partition会导致rebalance，所以rebalance后consumer对应的partition会发生变化。

消费者组是为了不同组的消费者可以同时消费一个分区的消息。

replica

这是为了防止服务器挂掉。

分为两类 leader replica 和 follow replica

只有 leader replica会响应客户端。

一旦leader replica所在的broker宕机，会选出新的leader。

kafka保证一个partition的多个replica一定不会分配到同一台broker上。

follow与leader实时同步。

ISR

in-sync replica 与leader replica保持同步的replica集合

正常时，所有的replica都在ISR中，但如果响应太慢，就会踢出ISR。之后追上来再加进来。

ISR中至少有一个replica是活着的。

ISR中所有replica都收到消息，这个消息才是已提交状态。

更多实时计算相关技术博文，欢迎关注实时流式计算

什么是Kafka？的更多相关文章

Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
消息队列 Kafka 的基本知识及 .NET Core 客户端
前言最新项目中要用到消息队列来做消息的传输,之所以选着 Kafka 是因为要配合其他 java 项目中,所以就对 Kafka 了解了一下,也算是做个笔记吧. 本篇不谈论 Kafka 和其他的一些消息 ...
kafka学习笔记：知识点整理
一.为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险. ...
.net windows Kafka 安装与使用入门(入门笔记)
完整解决方案请参考: Setting Up and Running Apache Kafka on Windows OS 在环境搭建过程中遇到两个问题,在这里先列出来,以方便查询: 1. \Jav ...
kafka配置与使用实例
kafka作为消息队列,在与netty.多线程配合使用时,可以达到高效的消息队列
kafka源码分析之一server启动分析
0. 关键概念关键概念 Concepts Function Topic 用于划分Message的逻辑概念,一个Topic可以分布在多个Broker上. Partition 是Kafka中横向扩展和一 ...
Kafka副本管理—— 为何去掉replica.lag.max.messages参数
今天查看Kafka 0.10.0的官方文档,发现了这样一句话:Configuration parameter replica.lag.max.messages was removed. Partiti ...
Kafka：主要参数详解（转）
原文地址:http://kafka.apache.org/documentation.html ############################# System ############### ...
kafka
2016-11-13 20:48:43 简单说明什么是kafka? Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息 ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...

随机推荐

kuangbin专题专题一简单搜索 Dungeon Master POJ - 2251
题目链接:https://vjudge.net/problem/POJ-2251 题意:简单的三维地图思路:直接上代码... #include <iostream> #include & ...
2. 软件数据流图(DFD)
数据流图,简称DFD,是SA方法中用于表示系统逻辑模型的一种工具,它以图形的方式描绘数据在系统中流动和处理的过程,由于它只反映系统必须完成的逻辑功能,所以它是一种功能模型. 下图是一个飞机机票预订系统 ...
Java并发之线程封闭
读者们好! 在这篇博客中,我们将探讨线程封闭是什么意思,以及我们如何实现它. 所以,让我们直接开始吧. 1. 线程封闭大多数的并发问题仅发生在我们想要在线程之间共享可变变量或可变状态时.如果在多个线 ...
android_activity_研究(一)
android中活动的概念(activity)是一个很重要的东东.这里有很多东东值得好好研究.最好的研究来源当然是官网啦,所以本人这里写一点对官网文章的研究心得. 一.活动(activity)的概念 ...
微信小程序之楼层效果
今天做了一个小程序实现一个楼层效果带大家分享下经验和api的使用吧如图将左边和右边各分了一个组件目录如下其中list页面是这个楼层效果的页面 components是组成这个页面的两个组件 ...
Vue状态管理之Bus
一般在项目中,状态管理都是使用Vue官方提供的Vuex 当在多组件之间共享状态变得复杂时,使用Vuex,此外也可以使用Bus来进行简单的状态管理 1.1 父组件与子组件之间的通信 vue.config ...
MyBatis 一对多映射
From<MyBatis从入门到精通> <!-- 6.1.2.1 collection集合的嵌套结果映射和association类似,集合的嵌套结果映射就是指通过一次SQL查询将所 ...
linux 定时任务 crontabs 安装及使用方法
boom 安装 crontab yum install crontabs centos7 自带了我没有手动去装启动/关闭 service crond start // 启动服务 service cr ...
UVA101 The Blocks Problem 题解
题目链接:https://www.luogu.org/problemnew/show/UVA101 这题码量稍有点大... 分析: 这道题模拟即可.因为考虑到所有的操作vector可最快捷的实现,所以 ...
mongo去重统计
表名:parkUserCost id: patkId: userId: phone: costVal: 适合特定条件下,对某些字段进行去重筛选.(比如限定抢购) 第一种,使用\(first操作符.\) ...

什么是Kafka？

一、Kafka简介

二、常见使用

消息

网站活动跟踪

度量

日志聚合

流处理

三、官方文档-核心机制

什么是Kafka？的更多相关文章

随机推荐

热门专题