http://blog.csdn.net/heianemo/article/details/8439813

split brain实际上是指在某种情况下,造成drbd的两个节点断开了连接,都以primary的身份来运行。当drbd某

primary节点连接对方节点准备发送信息的时候如果发现对方也是primary状态,那么会会立刻自行断开连接,并认定

当前已经发生split brain了,这时候他会在系统日志中记录以下信息:“Split-Brain detected,dropping

connection!”当发生split brain之后,如果查看连接状态,其中至少会有一个是StandAlone状态,另外一个可能也是

StandAlone(如果是同时发现split brain状态),也有可能是WFConnection的状态。

mfs-master�0�2为主,mfs-log为辅;我个人觉得这个DRBD脑裂的行为,也应该是前期人为或是故障切换造成的,

如HA。今天在做HA+DRBD+MFS的时候,模拟mfs-master宕机看是否会自动切换的时候出现了drbd错误

在mfs-master机上�0�2断开primary�0�2�0�2down机或是断开网线

查看secondary机器的状态

查看挂载

[root@mfs-log mfs]# �0�2mount
/dev/drbd1 on /usr/local/mfs type ext3 (rw)
挂载也成功了,但是数据有问题,所以就先恢复mfs-master的drbd,我这里也就是启用网卡

原来的primary机器好了,出现脑裂了drbd1现在是standalone,这个时候,主跟辅是不会相互联系的

[root@mfs-master ~]# service drbd status
drbd driver loaded OK; device status:
version: 8.3.13 (api:88/proto:86-96)
GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-
05-07 11:56:36
m:res cs ro ds p mounted fstype
1:r0 StandAlone Primary/Unknown UpToDate/DUnknown r----- ext3
这个时候,如果尝试把drbd2的drbd服务重启的话,你就会发现根本无法起来!

[root@mfs-log mfs]# service drbd start
Starting DRBD resources: [ ]..........
***************************************************************
DRBD's startup script waits for the peer node(s) to appear.
- In case this node was already a degraded cluster before the
reboot the timeout is 0 seconds. [degr-wfc-timeout]
- If the peer was available before the reboot the timeout will
expire after 0 seconds. [wfc-timeout]
(These values are for resource 'r0'; 0 sec -> wait forever)
To abort waiting enter 'yes' [ 487]:
原因分析

由于节点重启导致数据不一致,而配置文件中没有配置自动修复错误的内容,因而导致握手失败,数据无法同步。

split brain有两种解决办法:手动处理和自动处理。

手动处理:

两端节点上停止heartbeat

Heartbeat会锁定资源,只有停止后才能释放

[root@mfs-master ~]#�0�2/etc/init.d/heartbeat stop
在作为mfs-log的节点上放弃该资源的数据

[root@mfs-log ~]# drbdadm disconnect r0
[root@mfs-log ~]# drbdadm secondary r0
[root@mfs-log ~]# drbdadm -- --discard-my-data connect r0
然后在mfs-master(drbd1)上重连接资源:

[root@mfs-master ~]# drbdadm disconnect r0
[root@mfs-master ~]# drbdadm connect r0
把mfs-master设置为主节点

[root@mfs-master ~]# drbdadm primary r0
启动mfs-log(drbd2)上的drbd服务

[root@mfs-log mfs]# service drbd start
Starting DRBD resources: [ n(r0) ].
(实际采用的恢复方法)

先选择好一个备机,在备机上执行:

drbdadm secondary r0
drbdadm disconnect r0
drbdadm -- --discard-my-data connect r0
在主上执行:

drbdadm connect r0
查看主节点的状态�0�2显示为Primary,已经恢复了正常

[root@mfs-master ~]# cat /proc/drbd
version: 8.3.13 (api:88/proto:86-96)
GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-
05-07 11:56:36
1: cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r-----
ns:28672 nr:0 dw:1 dr:28805 al:1 bm:4 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0
然后查看备份机的状态:显示Secondary,恢复正常

[root@mfs-log ~]# cat /proc/drbd
version: 8.3.13 (api:88/proto:86-96)
GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-
05-07 11:56:36
1: cs:Connected ro:Secondary/Primary ds:UpToDate/UpToDate C r-----
ns:0 nr:28672 dw:28672 dr:0 al:0 bm:4 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0
自动处理

通过/etc/drbd.conf配置中设置自动处理策略,在发生数据不一致时自动处理。自动处理策略定义如下:

1 after-sb-0pri.
当两个节点的状态都是secondary时,可以通过after-sb-0pri策略自动恢复。

1)disconnect
默认策略,没有自动恢复,简单的断开连接。

2)discard-younger-primary
在split brain发生前从主节点自动同步。

3)discard-older-primary
在split brain发生时从变成primary的节点同步数据。

4)discard-least-changes
在split brain发生时从块最多的节点同步数据。

5)discard-node-NODENAME
自动同步到名字节点

2 after-sb-1pri
当两个节点的状态只有一个是primary时,可以通过after-sb-1pri策略自动恢复。

1)disconnect
默认策略,没有自动恢复,简单的断开连接。

2)consensus
丢弃secondary或者简单的断开连接。

3)discard-secondary
丢弃secondary数据。

4)call-pri-lost-after-sb
按照after-sb-0pri的策略执行。

3 after-sb-2pri
当两个节点的状态都是primary时,可以通过after-sb-2pri策略自动恢复。

1)disconnect
默认策略,没有自动恢复,简单的断开连接。

2)violently-as0p
按照after-sb-0pri的策略执行。

3)call-pri-lost-after-sb
按照after-sb-0pri的策略执行,并丢弃其他节点。

配置自动恢复

编辑/etc/drbd.conf,找到resource r0部分添加到net选项里面,配置策略如下,所有节点完全一致。

#after-sb-0pri disconnect;
after-sb-0pri discard-younger-primary;
注:当两个节点的状态都是secondary时,可以通过after-sb-0pri策略自动恢复

在split brain发生前从主节点自动同步。

#after-sb-1pri disconnect;
after-sb-1pri discard-secondary;
注:当两个节点的状态只有一个是primary时,可以通过after-sb-1pri策略自动恢复。

丢弃secondary数据。

#after-sb-2pri disconnect;
after-sb-2pri call-pri-lost-after-sb;
注:当两个节点的状态都是primary时,可以通过after-sb-2pri策略自动恢复。

按照after-sb-0pri的策略执行,并丢弃其他节点。

drbd脑裂问题处理的更多相关文章

  1. drbd脑裂

    环境: Primary    节点:node1Secondary  节点:node2 DRBD产生脑裂的原因:    (1. 采用HA环境的时候自动切换导致脑裂;    (2. 人为操作或配置失误,导 ...

  2. centos HA高可用集群 heartbeat搭建 heartbeat测试 主上停止heartbeat服务 测试脑裂 两边都禁用ping仲裁 第三十二节课

    centos   HA高可用集群  heartbeat搭建 heartbeat测试  主上停止heartbeat服务  测试脑裂  两边都禁用ping仲裁  第三十二节课 heartbeat是Linu ...

  3. [译]如何防止elasticsearch的脑裂问题

    本文翻译自blog.trifork.com的博文 地址是http://blog.trifork.com/2013/10/24/how-to-avoid-the-split-brain-problem- ...

  4. 如何防止ElasticSearch集群出现脑裂现象(转)

    原文:http://xingxiudong.com/2015/01/05/resolve-elasticsearch-split-brain/ 什么是“脑裂”现象? 由于某些节点的失效,部分节点的网络 ...

  5. 高可用性中的脑裂问题(split-brain problem in HA)(转)

    欢迎关注我的社交账号: 邮箱: jiangxinnju@163.com 博客园地址: http://www.cnblogs.com/jiangxinnju GitHub地址: https://gith ...

  6. Zookeeper 脑裂

    转自 http://blog.csdn.net/u010185262/article/details/49910301 Zookeeper zookeeper是一个分布式应用程序的协调服务.它是一个为 ...

  7. AIX下解决POWERHA的脑裂问题

    一.安装创建并发vg时必需的软件包clvm包,该包安装.升级.后必须重启os clvm包的描述:Enhanced Concurrent Logical Volume Manager 软件包在aix61 ...

  8. Elasticsearch笔记八之脑裂

    Elasticsearch笔记八之脑裂 概述: 一个正常es集群中只有一个主节点,主节点负责管理整个集群,集群的所有节点都会选择同一个节点作为主节点所以无论访问那个节点都可以查看集群的状态信息. 而脑 ...

  9. ZooKeeper 03 - ZooKeeper集群的脑裂问题 (Split Brain问题)

    目录 1 ZooKeeper的主从机制 2 什么是ZooKeeper的脑裂 2.1 脑裂现象的表现 2.2 为什么会出现脑裂 3 ZooKeeper如何解决"脑裂" 3.1 3种可 ...

随机推荐

  1. UVA-10026 Shoemaker's Problem (贪心)

    题目大意:一个鞋匠,有n只鞋要修,修某只鞋的时间ti已知,某只鞋晚修一天要交的罚款fi也已知.现在让找个修鞋顺序使得罚款最少. 题目分析:本来想水一下这道题,没想到真的AC啦.后来又查的题解,找的解释 ...

  2. HDU-1232 畅通工程 (并查集、判断图中树的棵数)

    Description 某省调查城镇交通状况,得到现有城镇道路统计表,表中列出了每条道路直接连通的城镇.省政府“畅通工程”的目标是使全省任何两个城镇间都可以实现交通(但不一定有直接的道路相连,只要互相 ...

  3. C++技能重拾2

    13.类成员函数重载:局部同名函数将隐藏而不是重载全局声明,不引入父类名字空间时子类的同名函数不会和父类的构成重载,静态成员函数可以和非静态成员函数构成重载.本质是重载函数的定义是在相同的声明域里!! ...

  4. mybatis标签之——<trim>

    trim标记是一个格式化的标记,主要用于拼接sql的条件语句(前缀或后缀的添加或忽略),可以完成set或者是where标记的功能. trim属性主要有以下四个  prefix:前缀覆盖并增加其内容   ...

  5. 关于双网卡双宽带Http及Socks代理的配置

    1.[硬件环境] a, 1台宿主(win7)+几十台虚拟机(xp)(vm10的版本,估计可打开52台以上的虚拟机) b, 双网卡,其中一个网卡通过路由连接电信ADSL,一个直连集线器,可直接连接移动m ...

  6. bzoj1601

    题解: 简单生成树 代码: #include<bits/stdc++.h> using namespace std; ; int n,dis[N],f[N],a[N][N],ans; in ...

  7. Translate Exercises(3) 科技英语翻译

    [1] CMOS logic is a newer technology, based on the use of complementary MOS transistorsto perform lo ...

  8. Vue.js 源码学习笔记 -- 分析前准备1 -- vue三大利器

    主体 实例方法归类:   先看个作者推荐, 清晰易懂的  23232 简易编译器   重点: 最简单的订阅者模式 // Observer class Observer { constructor (d ...

  9. sprintf 函数

    //$tick 保留{$decimalplaces}位小数,不够位数的小数点后面用0 填充$tick = sprintf( "%.0${decimalplaces}lf ", $i ...

  10. ASIHTTPRequest缓存策略download cache

    本文为大家介绍了iOS开发ASIHTTPRequest使用download cache的内容,其中包括cache策略,存储策略,其他cache相关的特性,编写自己的cache等等内容. 从1.8版本开 ...