RAC节点两边存储名字不一致导致的故障及相关延伸
起因:一个客户的实际故障,该故障非常典型,其他客户类似的环境也非常多,所以很值得梳理并记录下来。
环境:Oracle 11.2.0.4 RAC(2 nodes)+ RHEL 6.6
共享存储:EMC powerpath 做的多路径绑定
分别登陆到两个节点,查看设备名称:
[oracle@node1 ~]$ ls -l /dev/emcpower*
crw-r--r-- 1 root root 10, 56 Feb 2 09:52 /dev/emcpower
brw-rw---- 1 grid asmadmin 120, 0 Feb 2 16:56 /dev/emcpowera
brw-rw---- 1 grid asmadmin 120, 16 Feb 2 16:56 /dev/emcpowerb
brw-rw---- 1 grid asmadmin 120, 32 Feb 2 16:56 /dev/emcpowerc
brw-rw---- 1 grid asmadmin 120, 48 Feb 2 16:56 /dev/emcpowerd
brw-rw---- 1 grid asmadmin 120, 64 Feb 2 16:56 /dev/emcpowere
brw-rw---- 1 grid asmadmin 120, 80 Feb 2 16:56 /dev/emcpowerf
brw-rw---- 1 grid asmadmin 120, 96 Feb 2 16:56 /dev/emcpowerg
brw-rw---- 1 grid asmadmin 120, 112 Feb 2 16:56 /dev/emcpowerh
brw-rw---- 1 grid asmadmin 120, 128 Feb 2 09:52 /dev/emcpoweri
[oracle@node2 ~]$ ls -l /dev/emcpower*
crw-rw---- 1 root root 10, 56 Jan 31 16:16 /dev/emcpower
brw-rw---- 1 grid asmadmin 120, 0 Feb 2 17:06 /dev/emcpowera
brw-rw---- 1 grid asmadmin 120, 16 Feb 2 17:07 /dev/emcpowerb
brw-rw---- 1 grid asmadmin 120, 32 Feb 2 17:07 /dev/emcpowerc
brw-rw---- 1 grid asmadmin 120, 48 Feb 2 17:06 /dev/emcpowerd
brw-rw---- 1 grid asmadmin 120, 64 Feb 2 17:06 /dev/emcpowere
brw-rw---- 1 grid asmadmin 120, 80 Feb 2 17:06 /dev/emcpowerf
brw-rw---- 1 grid asmadmin 120, 96 Feb 2 17:06 /dev/emcpowerg
brw-rw---- 1 grid asmadmin 120, 112 Feb 2 12:19 /dev/emcpowerh
brw-rw---- 1 grid asmadmin 120, 128 Feb 2 17:06 /dev/emcpoweri
我们知道,这些都是powerpath多路径聚合之后的名字。
常见误区总结
对于一个这样的生产环境,存在以下几个普遍的误区:
常见误区一:
很多初学者对此存有误解,直接参照网上普及的RAC安装教学类视频,甚至还将这样的盘udev绑定成/dev/asm-disk* 这样的盘。
这样的做法完全是画蛇添足,实际上我们只需要确认这些多路径聚合之后盘的权限是正确的即可。
常见误区二:
在Linux系统中,关于盘的权限设定,很多人不清楚实施的规范究竟是怎样,比如看到有人习惯在/etc/rc.local中设定权限,有人习惯udev绑定权限,之后还有人说哪种方法都可以,给初学者造成了很大的困扰。而实际上具体选择如何赋予权限还和Linux操作系统的具体版本有关系。
这在Linux早期版本(RHEL6.2或更早),甚至只需要在 /etc/rc.local下写入一行chown的权限修改即可,可参考早期的文章:
而在之后的RHEL版本中,这样不再可行,如果还在/etc/rc.local添加设定权限,udev还是会定时刷新权限为之前默认的。所以正确的做法是使用udev绑定权限。具体方法可参考早期文章:
常见误区三:
这也是本文要描述的真实故障:背景信息详见文章开头部分,客户需求是从ASM磁盘组中剔除一块盘/dev/emcpoweri用作它用,剔除完毕后,客户第二天在格式化磁盘/dev/emcpoweri时,误以为两边节点的/dev/emcpoeri 对应的底层设备肯定是一样的,就直接到另一个节点去格式化/dev/emcpoweri,结果实际发现二者并不一样(通过kfed read查看磁盘头也可以验证),更糟的是被损坏的DATA磁盘组还是选择的外部冗余模式,相当于硬生生的格式化了一块ASM的数据盘用作它用,且没有任何冗余备份,从而酿成悲剧。
这个案例反映出来的误区就是:在两个节点查看多路径聚合后的共享磁盘的设备名称,得到的结果完全一致,很多初学者就想当然认为两边的名称对应的底层设备也一致。
而实际上RAC节点两边存储名字对应的真实磁盘很可能是不一致的,部分环境有要求一致的需求,那是需要要求存储工程师做相应的操作才可以。
说到各个节点对盘符识别的一致性,还需要延伸一下ASM的基础知识:对于Oracle提供的ASM,其实并不需要硬性要求两边共享磁盘设备的名字完全对应。因为作为ASM磁盘后,盘头是有记录信息的,Oracle通过盘头的信息判断是否是同一块盘。这点也可以在两个节点分别使用kfed read /dev/emcpoweri aun=0 blkn=0|more来查看盘头的信息验证。
PS:早期版本(Oracle 10g RAC)之所以要求ocr和voting disk对应的磁盘名称在两边一致是因为那个时候OCR和voting disk还不能放在ASM中。对于高标准的施工,出于为了方便后期的磁盘管理工作考虑,还是建议让各个节点对盘符识别保持一致性的,比如一般Linux使用自己的multipath软件,可以根据将每个盘唯一的scsi_id取alias绑定,这样就实现了各节点的盘符识别一致性。
RAC节点两边存储名字不一致导致的故障及相关延伸的更多相关文章
- 『NiFi 节点本地流与集群流不一致导致集群加入失败』问题解决
一.概述 在某些极端情况下,某些 NiFi 节点信息会由于用户强行 disconnect from cluster ,而出现 local flow 与 cluster 的 flow 不同步的问题. 此 ...
- distcp导致个别datanode节点数据存储严重不均衡分析
hadoop2.4生产集群已经执行一段时间了.因为大量的hadoop1.0上面的应用不断迁移过来.刚開始事hdfs这边还没有出现多少问题.随着时间的推移,近期发现个别的datanode节点上面的磁盘空 ...
- rac库grid目录权限(6751)导致数据库宕机案例 此方法仅用于紧急救助
问题: 我的rac环境不小心通过chown命令改变了/u01目录及其子目录的权限,导致rac节点2数据库宕掉,sqlplus下打开数据库报错如下: [oracle@node2 ~]$ sqlplus ...
- oracle 11g rac for linux add node (oracle 11g rac 节点添加)
说明: Adding Oracle RAC to Nodes with Oracle Clusterware Installed步骤来自ORACLE 官方文档: https://docs.oracle ...
- Mysql数据库表排序规则不一致导致联表查询,索引不起作用问题
Mysql数据库表排序规则不一致导致联表查询,索引不起作用问题 表更描述: 将mysql数据库中的worktask表添加ishaspic字段. 具体操作:(1)数据库worktask表新添是否有图片字 ...
- Greenplum hostname和address不一致导致配置文件无法加载
最近又遇到了几个坑,逐一记录分析下. 1.主机名hostname和address不一致 在又一次部署压测环境交由测试组进行压测时,同事修改了pg_hba.conf文件重新加载配置文件时报错.(找不到l ...
- Treat wchar_t as built-in type不一致导致的链接错误
今天用VS2013新建了一个工程,生成时出现很多怪异的链接错误,比如: error LNK2019: unresolved external symbol "__declspec(dllim ...
- thrift 版本不一致导致 @Override 报错
thrift 版本不一致导致 @Override 报错 学习了:http://blog.csdn.net/antony1776/article/details/78920888 版本不一致导致的: 在 ...
- MySQL字符集不一致导致性能下降25%,你敢信?
故事是这样的: 我在对MySQL进行性能测试时,发现CPU使用率接近100%,其中80%us, 16%sys,3%wa,iostat发现磁盘iops2000以下,avgqu-sz不超过3,%util最 ...
随机推荐
- python_如何使用临时文件
案例: 某项目中,从传感器中获得采集数据,每收集到1G的数据后做是数据分析,最终只保留数据分析的结果,收集到的数据放在内存中,将会消耗大量内存,我们希望把这些数据放到一个临时的文件中 临时文件不能命名 ...
- jQuery-niceScroll滚动条错位问题
虽然niceScroll插件很好用,毕竟它不依赖css,只是单纯的js就可以设置出好看的滚动条了. 最近在项目中使用到niceScroll,而且在表格里有横滚动条,竖滚动条时很容易错位,就是滚动条会悬 ...
- 完美解决打开github速度慢的问题
摘抄自知乎. 修改hosts(HOSTS文件路径:C:\Windows\System32\drivers\etc\hosts) 1.打开Dns检测|Dns查询 - 站长工具 2.在检测输入栏中输入ht ...
- PHP中文网上的无限极分类
原文地址:http://www.php.cn/code/3966.html fenlei.php <?php class fenlei { public $db; //构造函数,构造函数没有返回 ...
- Jmeter_24个常用函数(分享帖)
JMeter提供了很多函数,如果能够熟练使用,可以为脚本带来很多方便. JMeter函数是一种特殊值,可用于除测试计划外的任何组件. 函数调用的格式如下所示:${__functionName(var1 ...
- oracle pl/sql如何定义变量
目的:如何在pl/sql中定义基本类型,引用类型,记录型变量? 以下plsql程序用的scott用户的dept,emp表. 定义基本类型的变量 set serveroutput on ; --使用基本 ...
- debug时ClassNotFound可能出现的原因
自我总结,欢迎拍砖! 目的:总结ClassNotFound可能出现的原因,方便以后定位该类问题. 原因:当项目中加了新类,debug或run时,报classnotfound,说明没有找到该类的clas ...
- 蓝桥杯练习系统—基础练习 sine之舞
题目:最近FJ为他的奶牛们开设了数学分析课,FJ知道若要学好这门课,必须有一个好的三角函数,所以他准备和奶牛们做一个"Sine之舞"的游戏,寓教于乐,提高奶牛们的计算能力. 不妨设 ...
- Sizeof的三种作用
一.计算常量占用的字节数 例如:int num=sizeof(10); printf("%i",num); 二.计算变量占用的字节数 例如:int num2=3; int resu ...
- c#实现Word转换PNG图片
由于项目需要,经过一些大神的指导以及github,stackOverflow找资料,写了个这么个程序. 主要是因为word文档有特殊字体,特殊字体处理就要用到EnhMetaFileBits,即获取一页 ...