前言

在之前的MQ专题中,我们已经解决了消息中间件的一大难题,消息丢失问题。

但MQ在实际应用中不是说保证消息不丢失就万无一失了,它还有两个令人头疼的问题:重复消费和乱序。

今天我们就来聊一聊这两个常见的问题,看看RocketMQ是如何解决这两个问题的。

为什么会重复消费

首先我们来聊一聊重复消费的问题,要解决一个问题最开始的一步当然是去查找问题发生的原因了。

那出现重复消费的原因到底是什么呢?

我们先来思考一下生产者发送消息这一过程中是不是有可能重复发送消息到MQ呢?

答案是肯定的,比如生产者发送消息的时候使用了重试机制,发送消息后由于网络原因没有收到MQ的响应信息,报了个超时异常,然后又去重新发送了一次消息。

但其实MQ已经接到了消息,并返回了响应,只是因为网络原因超时了。

这种情况下,一条消息就会被发送两次。

当然,这只是列举了一种情况,实际有很多情况会造成消息的重新发送。

那么假如生产者没有重复发送消息,消费者就能保证不重复消费了吗?

当然不能保证,我们知道,在消费者处理了一条消息后会返回一个offset给MQ,证明这条消息被处理过了。

但是,假如这条消息已经处理过了,在返回offset给MQ的时候服务宕机了,MQ就没有接收到这条offset,那么服务重启后会再次消费这条消息。

如何解决重复消费

解决重复消费的关键就是引入幂等性机制,什么是幂等性机制呢?我们可以把它理解成,假如一个接口被重复调用,依然可以保证数据的准确性。

对于生产者重复发送消息到MQ这一过程,其实我们没有必要去保证幂等性,只要在消费者处理消息时保证幂等性就可以了。

这块其实就比较简单了,只要处理消息之前先根据业务判断一下本次操作是否已经执行过了,如果已经执行过了,那就不再执行了,这样就可以保证消费者的幂等性。

举个例子,比如每条消息都会有一条唯一的消息ID,消费者接收到消息会存储消息日志,如果日志中存在相同ID的消息,就证明这条消息已经被处理过了。

消息重试、延时消息、死信队列

解决完重复消费问题,我们来思考一种极端情况,比如某一时刻,消费者操作的数据库宕机了,这个时候消费者会发生异常,当然不能返回给MQ一个CONSUME_SUCCESS了,我们可以返回RECONSUME_LATER,他的意思是我现在没法处理这些消息,一会再来试试能不能处理。

简单来说,RocketMQ会有一个针对当前Consumer Group的重试队列,如果你返回了RECONSUME_LATER,MQ会把你的这批消费放到当前消费组的重试队列中,然后过一段时间重试队列中的消息会再次发送给消费者,默认可以重试16次,每次重试的间隔是不同的,这个时间间隔是可以配置的,默认配置如下:

messageDelayLevel=1s 5s 10s 30s 1m 2m 3m 4m 5m 6m 7m 8m 9m 10m 20m 30m 1h 2h

细心的小伙伴会发现,这个配置一共有18个时间,为什么最多重试16次,配置中却有18个时间呢,这里就要说到延时消息了。

上边的配置其实不是针对重试队列的,而是针对延时消息的,18个时间分别代表延迟level1-level18,延时消息大概流程如下:

1 所有的延迟消息到达broker后,会存放到SCHEDULE_TOPIC_XXX的topic下(这个topic比较特殊,对客户端是不可见的,包括使用rocketmq-console,也查不到这个topic)

2 SCHEDULE_TOPIC_XXX这个topic下存在18个队列,每个队列中存放的消息都是同一个延迟级别消息

3 broker端启动了一个timer和timerTask的任务,定时从此topic下拉取数据,如果延迟时间到了,就会把此消息发送到指定的topic下,完成延迟消息的发送

刚才我们说如果你返回了RECONSUME_LATER,消息就会进入重试队列,其实不完全准确。

当MQ接收到RECONSUME_LATER后,首先会完成消息的转换,把消息存到延时队列中,然后再根据消息的延时时间保存到重试队列中。

如果重试了16次之后依然无法处理,就会把这些消费放入死信队列。死信队列中的消息RocketMQ不会再做处理,这部分数据要怎么处理就要看我们的业务场景了,我们可以做一个后台线程去订阅这个死信队列,完成后续消息的处理。

消息乱序

接下来我们聊一聊消息乱序问题,为什么会出现这个问题呢,这个其实不难理解。

我们都学过,每个Topic可以有多个MessageQueue,写入消息的时候实际上会平均分配给不同的MessageQueue。

然后假如我们有一个Consume Group,这个消费组中的每台机器都会负责一部分MessageQueue,那么就会导致消息的顺序乱序问题。

举个例子,生产者发送了两条顺序消息,先是insert,后是update,分别分配到两个MessageQueue中,消费者组中的两台机器分别处理两个队列的消息,这个时候是无法保证顺序性的,有可能会先执行update,后执行insert,导致数据发生错误。

那么如何解决消息乱序问题呢?

其实道理也很简单,把需要保持顺序的消息都放入到同一个MessageQueue中,让同一台机器处理不就可以了吗。

我们完全可以根据唯一ID与队列的数量进行hash运算,保证这些消息进入到同一个队列中,最简单的算法就是取余运算了。

现在我们能保证这批消息进入到同一个队列中了,似乎这样就能保证消息不会乱序了,但真的是这样吗?

上文我们说到如果消费者数据库出现问题,使用重试队列重试消息,那么对于需要保证顺序的消息也可以使用这套方案吗?

肯定是不能的,如果使用重试机制是无法保证顺序性的。

RocketMQ提供了另一个状态,SUSPEND_CURRENT_QUEUE_A_MOMENT,意思是先等一会,再接着处理这批消息,而不是把这批消息放入重试队列里去处理其他消息。

所以我们只要返回这个状态就可以了。

总结

好了,到这里关于RocketMQ重复消费和乱序问题的产生原因和解决方案我们就介绍完了,同时也介绍了RocketMQ的重试机制、延时消息和死信队列。

有些地方可能比较复杂,可能需要小伙伴们重复阅读几次才能理解,如果哪里有想不清楚的,或者有疑问的可以联系王子共同探讨。

往期文章推荐:

深入研究Broker是如何持久化的

Dledger是如何实现主从自动切换的

深入研究RocketMQ消费者是如何获取消息的

RocketMQ的消息是怎么丢失的

RocketMQ消息丢失解决方案:事务消息

RocketMQ消息丢失解决方案:同步刷盘+手动提交

探索RocketMQ的重复消费和乱序问题的更多相关文章

  1. Wireshark抓包实例分析TCP重复ACK与乱序

    转载请在文首保留原文出处: EMC 中文支持论坛https://community.emc.com/go/chinese 介绍 TCP 的一大常见问题在于重复 ACK 与快速重传.这一现象的发生也是由 ...

  2. 程序重启RocketMQ消息重复消费

    最近在调试RocketMQ消息发送与消费的Demo时,发现一个问题:只要重启程序,RocketMQ消息就会重复消费. 那么这是什么原因导致的,又该如何解决呢? 经过一番排查,发现程序使用的Rocket ...

  3. RocketMQ(消息重发、重复消费、事务、消息模式)

    分布式开放消息系统(RocketMQ)的原理与实践 RocketMQ基础:https://github.com/apache/rocketmq/tree/rocketmq-all-4.5.1/docs ...

  4. 疯狂位图之——位图生成12GB无重复随机乱序大整数集

    上一篇讲述了用位图实现无重复数据的排序,排序算法一下就写好了,想弄个大点数据测试一下,因为小数据在内存中快排已经很快. 一.生成的数据集要求 1.数据为0--2147483647(2^31-1)范围内 ...

  5. 笔试算法题(28):删除乱序链表中的重复项 & 找出已经排好序的两个数组中的相同项

    出题:给定一个乱序链表,节点值为ASCII字符,但是其中有重复项,要求去除重复项并保证不改变剩余项的原有顺序: 分析:创建一个256(2^8)大小的bool数组,初始化为false,顺序读取链表,将字 ...

  6. RocketMq重复消费问题排查

    前情 出现了重复消费的问题,同一个消息被重复消费了多次,导致了用户端收到了多条重复的消息,最终排查发现,是因为消费者在处理消息的方法onMessage中有异常没有捕获到,导致异常上抛,被consume ...

  7. Kafka丢数据、重复消费、顺序消费的问题

    面试官:今天我想问下,你觉得Kafka会丢数据吗? 候选者:嗯,使用Kafka时,有可能会有以下场景会丢消息 候选者:比如说,我们用Producer发消息至Broker的时候,就有可能会丢消息 候选者 ...

  8. FlinkSQL 之乱序问题

    乱序问题 在业务编写 FlinkSQL 时, 非常常见的就是乱序相关问题, 在出现问题时,非常难以排查,且无法稳定复现,这样无论是业务方,还是平台方,都处于一种非常尴尬的地步. 在实时 join 中, ...

  9. 由乱序播放说开了去-数组的打乱算法Fisher–Yates Shuffle

    之前用HTML5的Audio API写了个音乐频谱效果,再之后又加了个播放列表就成了个简单的播放器,其中弄了个功能是'Shuffle'也就是一般播放器都有的列表打乱功能,或者理解为随机播放. 但我觉得 ...

随机推荐

  1. cocos creator屏幕适配的一些知识点

    一. cocos creator 提供的几种适配策略 EXACT_FIT: 整个应用程序在指定区域可见,无需尝试保留原始纵横比.可能会出现失真,应用程序会被拉伸或压缩.也就是说设计分辨率的长和宽不会等 ...

  2. DM9000时序设置

    想了解一下DM9000的移植修改原理,所以分析了一下时序图和引脚连接   首先看一下DM9000的引脚和MINI2440的引脚连接   DM9000  MINI2440 功能描述   SD0   DA ...

  3. es6深层次数组深拷贝

    let arr = [       {         label: '1',         children: [1, 2]       }     ] let a = [{...arr[0]}] ...

  4. 【暑假集训】HZOI2019 Luogu P1006 传纸条 二三四维解法

    写三次丢失两次,我谔谔,以后再不在博客园先保存我就去死 题目内容 洛谷链接 小渊和小轩是好朋友也是同班同学,他们在一起总有谈不完的话题.一次素质拓展活动中,班上同学被安排坐成一个\(m\)行.\(n\ ...

  5. kali 運行 chrome

    0x00前提 已經安裝好google chrome . 0x01 在終端執行命令: google-chrome,發現如圖: 錯誤提示:在root下只能使用 --no-sandbox選項來運行chrom ...

  6. linux(centos8):安装kubernetes worker节点并加入到kubernetes集群(kubernetes 1.18.3)

    一,安装kubernetes前的准备工作      安装前的准备工作(master\worker都要进行)      参见: https://www.cnblogs.com/architectfore ...

  7. 后羿:我射箭了快上—用MotionLayout实现王者荣耀团战

    前言 昨晚跟往常一样,饭后开了一局王者荣耀,前中期基本焦灼,到了后期一波决定胜负的时候,我果断射箭,射中对面,配合队友直接秒杀,打赢团战一波推完基地.那叫一个精彩,队友都发出了666666的称赞,我酷 ...

  8. java 实体对象转Map公共类

    java 实体对象转Map公共类 package org.kxtkx.portal.utils; import java.lang.reflect.Field; import java.util.Ha ...

  9. C# 微支付退款查询接口 V3.3.6

    #region 微支付退款查询 string Nonce = CreateRandomCode(15).ToLower(); //生成15个随机字符string sign1 = "appid ...

  10. 一文快速入门分库分表中间件 Sharding-JDBC (必修课)

    书接上文 <一文快速入门分库分表(必修课)>,这篇拖了好长的时间,本来计划在一周前就该写完的,结果家庭内部突然人事调整,领导层进行权利交接,随之宣布我正式当爹,紧接着家庭地位滑落至第三名, ...