Kafka 和 ES 都是用来处理大数据的中间件,一个是消息中间件的代表(Kafka),另一个是大数据搜索引擎的代表(ES)。它们在 Java 领域的使用非常广泛,在大数据方面就更不用说了,但它们的选主(选择主节点)有什么关联与区别呢?接下来,我们一起来看。

1.基础概念

1.1 什么是Kafka?

Kafka 是一个分布式流处理平台,由 LinkedIn 公司开发和维护,之后成为 Apache 软件基金会的一部分。它主要是为处理实时数据而设计的,是一个高吞吐量的分布式发布订阅消息系统。

Kafka 集群组成如下:

说明:每个 Broker 就是一个 Kafka 实例(其中的 Broker 1 为 Controller,也就是主 Broker),一个 Broker 中有多个 Topic,一个 Topic 中有多个分区,分区分为两类:Leader 分区和 Follower 分区。

1.2 什么是ES?

ES 全称 Elasticsearch,是一个开源的高扩展的分布式全文检索引擎。它可以近乎实时地存储、检索数据,并且具有出色的扩展性,可以扩展到上百台服务器,处理 PB 级别的数据。Elasticsearch 使用 Java 开发,并使用 Apache Lucene 作为其核心来实现所有索引和搜索的功能,但它通过简单的 RESTful API 来隐藏 Lucene 的复杂性,使得全文搜索变得简单。

ES 集群组成如下:

说明:一个 ES 集群中只有一个 Master(主节点)节点,其他的为数据节点(还有其他节点类型,这里忽略),主节点协调整个集群的工作,数据节点中存储了多个分片,每个分片分为两种类型:主分片和副本分片(类似 Kafka 中分区的概念)。

2.Kafka和ES选主

Kafka 选主指的是选 Broker 中的 Controller,而 ES 选主指的是选取集群中的 Master,它们两个的关联是 Kafka 新版本(2.8 之后)和 ES 新版本(7.0 之后),它们的选主策略都是基于 Raft 算法实现的

PS:当然,Kafka 中叫做 KRaft,ES 也是在 Raft 算法的基础上扩充了二阶段选举,但它们基于的底层算法都是 Raft 算法。

3.什么是Raft算法?

Raft 算法是一种分布式一致性算法,主要用于在分布式系统中实现数据副本的一致性。该算法是 Paxos 算法的工程实现,其主要特点是通过较为简单的算法实现分布式系统的数据一致性和高可用。

Raft 算法的核心是通过选举投票,少数人服从多数人的原则(投票过半原则),如果有一半以上的人投票给某个节点作为 Leader,那么它就是新的 Leader。

在 Raft 算法中,分布式系统中的所有节点被划分为三种角色:领导者(Leader)、追随者(Follower)和候选人(Candidate),这三者身份的转换如下:

  1. leader -> follower:倘若 leader 发现当前系统中出现了更大的任期,则会进行“禅让”,主动退位成 follower。这里 leader 发现更大任期的方式包括:

    1. 向 follower 提交日志同步请求时,从 follower 的响应参数中获得。
    2. 收到了来自新任 leader 的心跳或者同步日志请求。
    3. 收到了任期更大的 candidate 的拉票请求。
  2. follower -> candidate:leader 需要定期向 follower 发送心跳,告知自己仍健在的消息。倘若 follower 超过一定时长没收到 leader 心跳时,会将状态切换为 candidate,在当前任期的基础上加 1 作为竞选任期,发起竞选尝试补位。
  3. candidate -> follower:candidate 参与竞选过程中,出现以下两种情形时会退回 follower:
    1. 多数派投了反对票。
    2. 竞选期间,收到了任期大于等于自身竞选任期的 leader 传来的请求。
  4. candidate -> leader:candidate 竞选时,倘若多数派投了赞同票,则切换为 leader。
  5. candidate -> candidate:candidate 的竞选流程有一个时间阈值. 倘若超时仍未形成有效结论(多数派赞同或拒绝),则会维持 candidate 身份,将竞选任期加1,发起新一轮竞选。

4.Raft选举流程

Raft 算法的选举流程如下图所示:



它的投票流程有三种:

  1. 竞选者投票给原 leader

    1. 倘若该任期小于自身,拒绝,并回复自己的最新任期。
    2. 倘若该任期大于自身,退位为 follower,按照 follower 的模式处理该请求。
  2. 竞选者投票给 follower
    1. 倘若任期落后于自己,拒绝请求,并回复自己所在的任期。
    2. 倘若任期大于自己,判断最后的同步日志是否够新,如果比自己新就把这一票投给竞选者,如果没有自己新则拒绝。
  3. 竞选者投票给 candidate
    1. 倘若 leader 任期大于等于自己,同意此次投票,并退回 follower,按照 follower 模式处理请求。
    2. 如果 leader 任期小于自己,拒绝,并回复自己的最新任期。

每个竞选者根据以上投票来决定新的 leader,如果有一个投票过半,那么它就升级为新的 leader,并把这个消息同步给其他节点。否则会开启新的一轮投票,为了防止一直投票,会在开启新一轮投票时,设置的随机等待时间,和一定次数投票失败后弃权的机制,来保证投票顺利完成。

课后思考

Kafka 针对 Raft 算法做了哪些调整和升级?ES 针对 Raft 算法又做了哪些调整和升级?

参考 & 鸣谢

《小徐先生》

本文已收录到我的面试小站 www.javacn.site,其中包含的内容有:Redis、JVM、并发、并发、MySQL、Spring、Spring MVC、Spring Boot、Spring Cloud、MyBatis、设计模式、消息队列等模块。

面试官:Kafka和ES选主有什么区别?的更多相关文章

  1. ES选主策略

    ES版本5.6.3 1.整个流程的开始,实在node启动后触发的,Node.java中start()方法,通过调用ZenDiscovery.java中的doStart()方法,之后会调用startIn ...

  2. kafka分区选主机制

    Kafka Partition Leader选主机制 https://blog.csdn.net/qq_27384769/article/details/80115392 kafka leader选举 ...

  3. 我以为我对Mysql索引很了解,直到我遇到了阿里的面试官

    GitHub 4.8k Star 的Java工程师成神之路 ,不来了解一下吗? GitHub 4.8k Star 的Java工程师成神之路 ,真的不来了解一下吗? GitHub 4.8k Star 的 ...

  4. 面试官:你对Redis缓存了解吗?面对这11道面试题你是否有很多问号?

    前言 关于Redis的知识,总结了一个脑图分享给大家 1.在项目中缓存是如何使用的?为什么要用缓存?缓存使用不当会造成什么后果? 面试官心理分析 这个问题,互联网公司必问,要是一个人连缓存都不太清楚, ...

  5. 面试官:Redis集群有哪些方式,Leader选举又是什么原理呢?

    哈喽!大家好,我是小奇,一位不靠谱的程序员 小奇打算以轻松幽默的对话方式来分享一些技术,如果你觉得通过小奇的文章学到了东西,那就给小奇一个赞吧 文章持续更新 一.前言 作为一名Java程序员,Redi ...

  6. 当面试官问你GET和POST区别的时候,请这么回答.......

    文章内容转载于微信公众号WebTechGarden 一.GET和POST的'普通'区别 GET和POST是HTTP请求的两种基本方法,要说它们的区别,接触过WEB开发的人都能说出一二. 最直观的区别就 ...

  7. Get与Post的区别?(面试官最想听到的答案)

    GET和POST是HTTP请求的两种基本方法,要说它们的区别,接触过WEB开发的人都能说出一二. 最直观的区别就是GET把参数包含在URL中,POST通过request body传递参数. 你可能自己 ...

  8. 面试官:Redis如何实现持久化的、主从哨兵又是什么?

    哈喽!大家好,我是小奇,一位不靠谱的程序员 小奇打算以轻松幽默的对话方式来分享一些技术,如果你觉得通过小奇的文章学到了东西,那就给小奇一个赞吧 文章持续更新 一.前言 作为一名Java程序员,Redi ...

  9. 前端面试:问到GET和POST两种区别

    最直观的区别就是GET把参数包含在URL中,POST通过request body传递参数. "标准答案"(本标准答案参考自w3schools): GET在浏览器回退时是无害的,而P ...

  10. 大厂面试官竟然这么爱问Kafka,一连八个Kafka问题把我问蒙了?

    本文首发于公众号:五分钟学大数据 在面试的时候,发现很多面试官特别爱问Kafka相关的问题,这也不难理解,谁让Kafka是大数据领域中消息队列的唯一王者,单机十万级别的吞吐量,毫秒级别的延迟,这种天生 ...

随机推荐

  1. .NET Core开发实战(第13课:配置绑定:使用强类型对象承载配置数据)--学习笔记

    13 | 配置绑定:使用强类型对象承载配置数据 要点: 1.支持将配置值绑定到已有对象 2.支持将配置值绑定到私有属性上 继续使用上一节代码 首先定义一个类作为接收配置的实例 class Config ...

  2. JS Leetcode 525. 连续数组 前缀和加哈希表,小白式讲解让你彻底明白此题

    壹 ❀ 引 题目来自LeetCode的525. 连续数组,难度中等,题目描述如下: 给定一个二进制数组 nums , 找到含有相同数量的 0 和 1 的最长连续子数组,并返回该子数组的长度. 示例 1 ...

  3. Js获取数据类型

    Js获取数据类型 JavaScript有着七种基本类型String.Number.Boolean.Null.Undefined.Symbol.Object,前六种为基本数据类型,Object为引用类型 ...

  4. Swoole从入门到入土(26)——多进程[进程间锁]

    多进程在Swoole中是一个很重要的话题,即是协程机制也是依赖于进程.所以Swoole\Lock让大家在PHP 代码中可以很方便地创建一个锁,用来实现数据同步.Lock 类支持以下 5 种锁的类型: ...

  5. 我的小程序之旅二:如何创建一个微信小程序

    第一步.准备邮箱 如果只是个人想体验一下小程序,直接用自己的QQ邮箱就行,但是这样申请的小程序很多权限都是没有的,比如获取用户手机号授权. 如果是企业或服务商要进行开发小程序,那么至少准备三个邮箱,同 ...

  6. [攻防世界][Web]PHP2

    打开靶机对应的url 就一行字 Can you anthenticate to this website? 第一感觉就需要做目录文件扫描 使用御剑和dirsearch进行扫描,发现一个文件 index ...

  7. values_list()中参数flat用法

    先说下values from .models import Student student = Student.objects.values('number') student [{'number': ...

  8. 详解SSL证书系列(2)SSL证书对网站的好处

    在如今谷歌.百度等互联网巨头强制性要求网站 HTTPS 化的情况下, 网站部署 SSL 证书已然成为互联网的发展趋势,我们也知道了 SSL证书可以防止网络安全威胁.那么除此外为网站部署 SSL 证书还 ...

  9. Cocos Creator 2.x升级至Cocos Creator 3.x

    1.导入类时,批量导入 2.导入 override...关键字时,批量导入 3.this.node.scale = 0.6-->this.node.setScale(0.6, 0.6); 4.n ...

  10. 笔记本linux问题记录

    目录 UEFI笔记本无法引导进入操作系统 grub引导错误,无法进入系统 笔记本亮度不能保存 禁用独立显卡 KVM 解决nmcli dev 中的wlan0显示unavailable 杂项 UEFI笔记 ...