【消息队列面试】11-14：kafka高可靠、高吞吐量、消息丢失、消费模式

十一、kafka消息高可靠的解决方案

1、高可靠=避免消息丢失

解决消息丢失的问题

2、如何解决

（1）保证消息发送是可靠的（发成功了/落到partition）

a.ack参数

发送端，采用ack机制

ack为0时，消息发送完就不管了

ack为1时，leader收到；如果leader宕机，会重新选举，丢失消息

ack为-1时，所有的follower全部同步完成（ISR同步完再返回）

b.unclean.leader.election.enable配置为FALSE，则会禁止ISR以外的follower被选举为leader

（被踢出来的）OSR是没有保持同步的，ISR是已经保持同步的节点

当跟上，又能进入ISR，是一个自动伸缩的

应当配置为FALSE，禁止没跟上的OSR中的节点选举

这种方式可能会降低可用性，但可以提高可靠性

c.重试次数tries>1

没收到，可以通过重试机制，确认发送到MQ中

d.最小同步副本数min.insync.replicas>1【与ack相互配置取得好的平衡】

把ack设置为or/-1时，效率没那么高，尤其是ISR节点多

可以配置此参数，不用同步全部的副本

保证消息不只在leade中有

没有满足此值时，不提供读写服务，写操作会产生异常

（2）保证消费端对是否成功消费敏感-配置offset手动提交

配置为手动提交offset，默认是自动提交

如果是自动提交，没有成功消费，处理失败，会丢失消息

处理完后，手动提交offset，确保消息是已经被消费过，不会产生丢失数据的问题

（3）消息成功落盘（保证节点可靠）-broker减少刷盘间隔

kafka写入pageCache，并从内部读出，由操作系统配置

如果停电，会丢失数据

使用sync函数，可以减少刷盘间隔

十二、kafka为什么比rabbitmq的吞吐量要高

生产者异步发送消息，并没有直接发送到broker，而是将消息发送到生产者

可以增加吞吐量

当消息积累到一定数量的时候，再批量发送至broker

但生产者宕机，消息会丢失，提高性能却降低了可靠性

十三、kafka消息丢失的场景及解决方案

高并发、高吞吐量的消息中间件

实际上，存在消息丢失的风险

1、丢失的场景

（1）发送端

存在的问题：

a.ack设置为0，性能高，但发送失败，消息就会丢失

b.当ack设置为1，只需要等待leader返回，就认为发送成功，有可能丢失消息（leader宕机）

c.leader节点宕机之后，在做follower的选举后，unclean.leader.election.enable配置为TRUE时，可能会从OSR中选举

ISR：节点的可靠性列表，其中的从节点和主节点数据可以保持一致，从节点滞后，就会被踢出到OSR中

解决方案：

a.ack设置的大一点，比如配置为all/-1（表示ISR中的所有节点），或者是2,3，可以保证leader返回就确认，为2时，表示至少要同步到一个从节点，重试次数tries>1

b.最小同步副本数min.insync.replicas>1，表示leader同步的时候，最少同步的follower节点数量，越大越可靠

副本数>1和ack通常搭配使用，最大程度保证消息的持久性

隐形逻辑关系：只有ack为-1或all时，最小同步副本数min.insync.replicas>1才会生效

c.失败的消息对应的offset要单独记录（遇到不可恢复异常要进行抛出）

（2）消费端

存在的问题：

先commit再处理消息，如果在处理消息时发生异常，offset已经提交了，这条消息对于消费者就是丢失了，再也不会被消费到

解决方案：

先处理消息，再进行commit，但可能存在重复消费的情况

（处理的过程中，消费者还没commit，就宕机了，就可能会产生重复消费的问题）

处理：先处理业务，再提交offset--》保证接口的幂等性，就不用担心重复消费

（3）消息在broker端的存储--broker的刷盘（由Linux保证page缓存）

Linux发生故障，应用端没有办法

间隔太长，容易丢失

减小刷盘间隔，保证消息一定能刷到pagecache中

十四、kafka是pull模式还是push模式，其优劣进行分析

1、含义

在consumer端拉取数据的模式

主动拉取pull（主要）☆☆☆☆☆-根据消费能力自己进行拉取

还是

推送到consumer-push

2、比较

（1）pull-由消费端主动拉取

优势：

可以根据消费能力拉取，从而可以控制速率，可以选择单条拉取或批量拉取

同时，可以设置不同的提交方式，可以设置手动提交offset，根据提交方式不同，控制传输方式的不同语义

缺点：

数据为空时，消费者不敏感，可能会导致空轮训，消耗CPU

解决：

通过参数设置，拉取数据为空或设置拉取的条数（10条），未达到就进行阻塞

（2）push-被动

优势：

不会导致consumer的服务等待，没有消息就不会做推送，并不会导致循环等待

缺陷：

无法保证速率，消费端可能会产生超时，并影响连锁反应、拒绝服务/网络拥塞，占用带宽

【消息队列面试】11-14：kafka高可靠、高吞吐量、消息丢失、消费模式的更多相关文章

第1节 kafka消息队列：11、kafka的数据不丢失机制，以及kafka-manager监控工具的使用；12、课程总结
12.kafka如何保证数据的不丢失 12.1生产者如何保证数据的不丢失 kafka的ack机制:在kafka发送数据的时候,每次发送消息都会有一个确认反馈机制,确保消息正常的能够被收到如果是同步模 ...
消息队列，RabbitMQ、Kafka、RocketMQ
目录 1.消息列队概述 1.1消息队列MQ 1.2AMQP和JMS 1.2.1AMQP 1.2.2JMS 1.2.3AMOP 与 JMS 区别 1.3消息队列产品 1.3.1 Kafka 1.3.2 ...
没用过消息队列？一文带你体验RabbitMQ收发消息
人生终将是场单人旅途,孤独之前是迷茫,孤独过后是成长. 楔子先给大家说声抱歉,最近一周都没有发文,有一些比较要紧重要的事需要处理. 今天正好得空,本来说准备写SpringIOC相关的东西,但是发现想 ...
消息队列的作用以及kafka和activemq的对比
背景分析消息队列这个类型的组件一直是非常重要的组件,当经过两家企业后我就很坚信这个结论了.队列这种东西,最广泛的作用还是在于解耦,宽泛一点的说,它可以将不同部门的工作内容进行有效的整合,基于一个约定 ...
第1节 kafka消息队列：1、kafka基本介绍以及与传统消息队列的对比
1. Kafka介绍 l Apache Kafka是一个开源消息系统,由Scala写成.是由Apache软件基金会开发的一个开源消息系统项目. l Kafka最初是由LinkedIn开发,并于20 ...
第1节 kafka消息队列：2、kafka的架构介绍以及基本组件模型介绍
3.kafka的架构模型 1.producer:消息的生产者,主要是用于生产消息的.主要是接入一些外部的数据源,从外部获取数据,比如说我们可以从flume获取数据,还可以通过ftp传入数据等,还可以通 ...
【Microsoft Azure学习之旅】测试消息队列（Service Bus Queue）是否会丢消息
组里最近遇到一个问题,微软的Azure Service Bus Queue是否可靠?是否会出现丢失消息的情况? 具体缘由如下, 由于开发的产品是SaaS产品,为防止消息丢失,跨Module消息传递使用 ...
高性能消息队列（MQ）Kafka 简单由来介绍（1）
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写.Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据. 这种动作(网页浏 ...
消息队列高手课 -笔记-Kafka高性能的几个关键点
总结下kafka 高性能的几个关键点是: 1:使用批量处理的方式去提升系统的吞吐能力 2:基于磁盘文件高性能的顺序读写的特性来设计存储结构 3:利用操作系统的PageCache 来缓存数据减少I ...
第1节 kafka消息队列：7、kafka的消费模型

随机推荐

使用traefik进行流量复制
文章转载自:https://mp.weixin.qq.com/s/nMMN7hAJK6SFn1V1YyxvHA Traefik 2.0 还引入了镜像服务,一种可以将流入流量复制并同时将其发送给其他服务 ...
flask-bootstrap 模版中所需的CSS/JS文件实现本地引入
Flask-Bootstrap默认是加载CDN的css与js文件,每次刷新页面都要访问到外网的cdn来获取css与js文件; 模版扩展来自于bootstrap/base.html,就以bootstra ...
秋初 WAMP 集成环境 v2.1
基于QT的PHP集成开发环境v2.1 https://gitee.com/xiaqiuchu/wamp-integrated-environment 界面预览已实现功能服务的启动.关闭.重启. p ...
某云负载均衡获取客户端真实IP的问题
某云负载均衡真实IP的问题,我们这边已经遇到过两次了.而且每次和售后沟通的时候都大费周折,主要是要给售后说明白目前文档的获取真实IP是有问题的,他们觉得文档上说明的肯定没问题,售后要是不明白,他们不会 ...
tensorflow-gpu版本安装及深度神经网络训练与cpu版本对比
tensorflow1.0和tensorflow2.0的区别主要是1.0用的静态图一般情况1.0已经足够,但是如果要进行深度神经网络的训练,当然还是tensorflow2.*-gpu比较快啦. 其中 ...
2021 CCPC 威海站 VP记录(题解)
2021 CCPC 威海站 VP记录(题解) 题目顺序为vp时开题顺序: A - Goodbye, Ziyin! 签到,连边数小于等于2的可以作为二叉树根,若有大于4的直接输出0. code: voi ...
Mybatis-Plus自动生成器生成代码基于springboot项目启动
创建springbootweb项目 pom.xml 导入 MBP 依赖 <dependency> <groupId>com.baomidou</groupId> & ...
Django之同时新增数据到两个数据库表与同时返回两个表的数据(插拔式)
models:比如有以下三个模型 from django.db import models """ 基类,其他类继承即可获得对应的字段 """ ...
知识图谱-生物信息学-医学顶刊论文(Bioinformatics-2021)-SumGNN:通过有效的KG聚集进行多类型DDI预测
3.(2021.3.26)Bioinformatics-SumGNN:通过有效的KG聚集进行多类型DDI预测论文标题: SumGNN: multi-typed drug interaction pr ...
虚拟机VMware运行Ubuntu时无法和主机之间复制粘贴的问题
解决虚拟机VMware运行Ubuntu时无法和主机之间复制粘贴的问题执行以下命令并重启即可解决 sudo apt-get autoremove open-vm-tools sudo apt-get ...

【消息队列面试】11-14：kafka高可靠、高吞吐量、消息丢失、消费模式

【消息队列面试】11-14：kafka高可靠、高吞吐量、消息丢失、消费模式的更多相关文章

随机推荐

热门专题