笔者目前所在公司存在多套 Redis 集群:

  • A 集群 主 + 从 共 60 个分片,部署在 3 + 3 台物理机上,每台机器各承载 10 个端口
  • 主库 30 个端口在广州,从库 30 个端口在中山
  • B 集群共 72 个端口,部署架构一模一样

上云后,均为广东的某个云厂商的 2 个可用区,不再使用 IDC 数据中心,部署架构一致。

有人提出了一个很耐人寻味的问题:

这个架构有问题,如果两地之间网络故障,必定会出现脑裂!

真的会出现脑裂吗?

不至于吧!网络分区后,理论上广州机房是可用的,中山因为没有主(访问从库将槽位重定向回主库),所以中山机房不可用。所以只有一个机房可写,不会脑裂。

猜想终究是猜想,实践出真知!现在 docker 太方便了,搭一个集群模拟一下就 OK 了~

准备环境:

  • 2 台测试机器,模拟双机房环境
  • 每台机器启动 6 个端口,通过 redis-trib 搭建集群

建立以下文件夹,并准备 docker-compose.yml:

mkdir -p ./data/redis/8001/data && \
mkdir -p ./data/redis/8002/data && \
mkdir -p ./data/redis/8003/data && \
mkdir -p ./data/redis/8004/data && \
mkdir -p ./data/redis/8005/data && \
mkdir -p ./data/redis/8006/data && \
mkdir -p ./data/redis/9001/data && \
mkdir -p ./data/redis/9002/data && \
mkdir -p ./data/redis/9003/data && \
mkdir -p ./data/redis/9004/data && \
mkdir -p ./data/redis/9005/data && \
mkdir -p ./data/redis/9006/data

广州机房 6 个端口:

version: '3'

services:
redis_gz_1:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/8001/data:/data
environment:
- REDIS_PORT=8001 redis_gz_2:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/8002/data:/data
environment:
- REDIS_PORT=8002 redis_gz_3:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/8003/data:/data
environment:
- REDIS_PORT=8003 redis_gz_4:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/8004/data:/data
environment:
- REDIS_PORT=8004 redis_gz_5:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/8005/data:/data
environment:
- REDIS_PORT=8005 redis_gz_6:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/8006/data:/data
environment:
- REDIS_PORT=8006

中山机房 6 个端口:

version: '3'

services:
redis_zs_1:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/9001/data:/data
environment:
- REDIS_PORT=9001 redis_zs_2:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/9002/data:/data
environment:
- REDIS_PORT=9002 redis_zs_3:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/9003/data:/data
environment:
- REDIS_PORT=9003 redis_zs_4:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/9004/data:/data
environment:
- REDIS_PORT=9004 redis_zs_5:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/9005/data:/data
environment:
- REDIS_PORT=9005 redis_zs_6:
image: publicisworldwide/redis-cluster
network_mode: host
volumes:
- ./data/redis/9006/data:/data
environment:
- REDIS_PORT=9006

docker-compose up 启动后,使用以下命令搭建集群:

docker run --rm -it inem0o/redis-trib create --replicas 1 \
10.43.2.6:8001 \
10.43.2.6:8002 \
10.43.2.6:8003 \
10.43.2.6:8004 \
10.43.3.7:9004 \
10.43.2.6:8005 \
10.43.3.7:9005 \
10.43.2.6:8006 \
10.43.3.7:9006 \
10.43.3.7:9001 \
10.43.3.7:9002 \
10.43.3.7:9003

你会发现集群搭起来了!有以下提示信息:

...master:
10.43.2.6:8001
10.43.3.7:9004
10.43.2.6:8002
10.43.3.7:9005
10.43.2.6:8003
10.43.3.7:9006
...
Adding replica 10.43.3.7:9001 to 10.43.2.6:8001
Adding replica 10.43.2.6:8004 to 10.43.3.7:9004
Adding replica 10.43.3.7:9002 to 10.43.2.6:8002
Adding replica 10.43.2.6:8005 to 10.43.3.7:9005
Adding replica 10.43.3.7:9003 to 10.43.2.6:8003
Adding replica 10.43.2.6:8006 to 10.43.3.7:9006
...

此时,集群是 广州、中山 各 3 个 master,不符合我们的场景,需要手工切换一下主从:

# 分别在从库 3 个端口做主从切换 10.43.2.6:9004-9006
redis-cli -h 10.43.2.6 -p 8004 CLUSTER FAILOVER
OK
redis-cli -h 10.43.2.6 -p 8005 CLUSTER FAILOVER
OK
redis-cli -h 10.43.2.6 -p 8006 CLUSTER FAILOVER
OK

3 个端口提主成功,10.43.2.6 此时运行 6 个 master,而 10.43.3.7 运行 6 个 slave 示例。

如何断网?很简单,iptables 无敌!

我们在广州(10.43.2.6)丢掉中山(10.43.3.7)的包就好了:

iptables -I INPUT -s 10.43.3.7 -pudp --dport 18001:18006 -j DROP && \
iptables -I INPUT -s 10.43.3.7 -ptcp --dport 18001:18006 -j DROP && \
iptables -I INPUT -s 10.43.3.7 -ptcp --dport 8001:8006 -j DROP && \
iptables -I INPUT -s 10.43.3.7 -pudp --dport 8001:8006 -j DROP

执行后,中山一直打印重连主库失败的日志,主库也探测到从库断开了,通过 CLUSTER NODES 命令可以获取各个节点状态。

结论一:A [6Master/0Slave] + B [0Master/6Slave],A 机房可读可写,B 机房不可读不可写(CLUSTERDOWN)

报错信息如下:

10.43.3.7:9006> set a12 2
(error) CLUSTERDOWN The cluster is down

另外,我还测试了主库分布在双机房的情况:

结论二:A [4Master/2Slave] + B [2Master/4Slave],A 机房可读可写,B 机房不可读不可写(CLUSTERDOWN)

结论三:A [3Master/3Slave] + B [3Master/3Slave],AB 机房均不可读不可写(CLUSTERDOWN)

为什么不可读?

因为请求从库它会自动转发(MOVED)到主库,而主库不可用(达不到半数以上节点),所以彻底凉了!

解决办法是不使用偶数节点,极端情况下(master 均等分布两地)会导致整个集群不可用。

实验完,不要忘了删掉规则,恢复网络:

iptables -D INPUT -s 10.43.3.7 -pudp --dport 18001:18006 -j DROP && \
iptables -D INPUT -s 10.43.3.7 -ptcp --dport 18001:18006 -j DROP && \
iptables -D INPUT -s 10.43.3.7 -ptcp --dport 8001:8006 -j DROP && \
iptables -D INPUT -s 10.43.3.7 -pudp --dport 8001:8006 -j DROP

(完)


文章来源于本人博客,发布于 2022-03-12,原文链接:https://imlht.com/archives/254/

Redis 集群偶数节点跨地域部署之高可用测试的更多相关文章

  1. 分布式架构高可用架构篇_02_activemq高可用集群(zookeeper+leveldb)安装、配置、高可用测试

    参考: 龙果学院http://www.roncoo.com/share.html?hamc=hLPG8QsaaWVOl2Z76wpJHp3JBbZZF%2Bywm5vEfPp9LbLkAjAnB%2B ...

  2. 分布式架构高可用架构篇_activemq高可用集群(zookeeper+leveldb)安装、配置、高可用测试

    原文:http://www.iteye.com/topic/1145651 从 ActiveMQ 5.9 开始,ActiveMQ 的集群实现方式取消了传统的Master-Slave 方式,增加了基于Z ...

  3. (转)高性能网站架构之缓存篇—Redis集群增删节点

    标签: 高性能架构集群缓存redis 上一篇文章,我们搭建了Redis-cluster集群,这篇博客跟大家讲一下如何在一个运行的集群上增加节点或者删除节点. Redis集群添加节点 首先我们要新建立一 ...

  4. redis 集群新增节点,slots槽分配,删除节点, [ERR] Calling MIGRATE ERR Syntax error, try CLIENT (LIST | KILL | GET...

    redis reshard 重新分槽(slots) https://github.com/antirez/redis/issues/5029 redis 官方已确认该bug redis 集群重新(re ...

  5. Linux 笔记 - 第十八章 Linux 集群之(三)Keepalived+LVS 高可用负载均衡集群

    一.前言 前两节分别介绍了 Linux 的高可用集群和负载均衡集群,也可以将这两者相结合,即 Keepalived+LVS 组成的高可用负载均衡集群,Keepalived 加入到 LVS 中的原因有以 ...

  6. Linux企业集群用商用硬件和免费软件构建高可用集群PDF

    Linux企业集群:用商用硬件和免费软件构建高可用集群 目录: 译者序致谢前言绪论第一部分 集群资源 第1章 启动服务 第2章 处理数据包 第3章 编译内容 第二部分 高可用性 第4章 使用rsync ...

  7. Redis集群之节点管理

    Redis集群一旦启动,就不能轻易删除掉一个节点了. 需要由redis-trib.rg这个ruby脚本行使集群管理的功能.所有的哈希槽都分配于master节点 一.delete master node ...

  8. LINUX:关于Redis集群的节点分配

    文章来源:http://www.cnblogs.com/hello-tl/p/7808268.html 根据上述  Redis集群搭建:http://www.cnblogs.com/hello-tl/ ...

  9. Redis集群增加节点和删除节点

    本文主要是承接上一篇文章Redis集群的离线安装成功以后,我们如何进行给集群增加新的主从节点(集群扩容)以及如何从集群中删除节点(集群缩容),也就是集群的伸缩,集群伸缩的原理是控制虚拟槽和数据在节点之 ...

  10. Redis集群模式(Cluster)部署

    1. 安装依赖包 注意:本节需要使用root用户操作 1.1 安装ruby yum install ruby -y yum install ruby-devel.x86_64 -y 1.2 安装rub ...

随机推荐

  1. 3520. 【NOIP2013模拟11.7B组】原根(math)

    题目: 考试想法: 考试的时候觉得这些数学公式太恶心了,所以就直接跳过了. 正解: 直接暴力模拟就可以了. 代码: #include<bits/stdc++.h> using namesp ...

  2. javasec(二)class文件结构

    这篇文章介绍java的class文件结构. 深入理解Java虚拟机(类文件结构) 我们所编写的每一行代码,要在机器上运行最终都需要编译成二进制的机器码 CPU 才能识别.但是由于虚拟机的存在,屏蔽了操 ...

  3. c# 异步进阶———— 自定义 taskschedule[三]

    前言 我们知道我们的task async 和 await 是基于线程池进行调度的. 但是async 和 await 也就是使用了默认的task调度,让其在线程池中运行. 但是线程池是榨干机器性能为本质 ...

  4. for of 和 for in 的区别

    1 var arr = ["f", "6", 3, "a", 7]; 2 var obj = { name: "shun" ...

  5. 2021-07-05:股票问题2。给定一个数组 prices ,其中 prices[i] 是一支给定股票第 i 天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易(多次买卖

    2021-07-05:股票问题2.给定一个数组 prices ,其中 prices[i] 是一支给定股票第 i 天的价格.设计一个算法来计算你所能获取的最大利润.你可以尽可能地完成更多的交易(多次买卖 ...

  6. 2021-09-25:给定一个字符串数组,将字母异位词组合在一起。可以按任意顺序返回结果列表。字母异位词指字母相同,但排列不同的字符串。示例 1:输入: strs = [“eat“, “tea“, “

    2021-09-25:给定一个字符串数组,将字母异位词组合在一起.可以按任意顺序返回结果列表.字母异位词指字母相同,但排列不同的字符串.示例 1:输入: strs = ["eat" ...

  7. 解决 VMware EXSI的Windows虚拟机中,配置静态IP后,DHCP自动默认开启获取IP,导致无法访问

    解决 VMware EXSI的Windows虚拟机中,配置静态IP后,DHCP自动默认开启获取IP,导致无法访问 前言:在EXSI上部署了Windows虚拟机,但是配置了静态IP后却不能Ping通:逐 ...

  8. 百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 Paddle Inference 模型推理

    Paddle Inference 模型推理流程 分别介绍文字检测.方向分类器和文字识别3个模型,基于Paddle Inference的推理过程. Paddle Inference 的 Python 离 ...

  9. 「P3」试下1个半月能不能水出个毕设

    前言 虽然说标题上写的时间是1个半月,但是实际上,真正开始行动的时间应该1个月都没有.之前都是在公司上班没活的时候干的.现在请了个长假,专门来做毕业设计:预计5月前能做完整个毕业设计,然后劳动节放假期 ...

  10. Python 包安装和 postgresql 的一些问题

    今天安装 hgvs 这个 python 包的时候,遇到几个比较有代表性的问题,记录分享一下. hgvs is a Python package to parse, format, validate, ...