OS:

Oracle Linux Server release 5.7

DB:

Oracle Database 11g Enterprise Edition Release 11.2.0.2.0 - 64bit Production

问题:

在RAC测试环境中,一个节点被测试同事重启服务器,导致此节点无法正常启动,报错信息如下:

SQL>startup

ORA-01078: failure in processing system parameters
ORA-01565: error in identifying file "++DATA/ofcdb/spfileofcdb.ora"
ORA-17503: ksfdopn:2 Failed to open file "+DATA/ofcdb/spfileofcdb.ora"

ORA-29701:unable to connect to Cluster Synchronization Service

一、检查 CRS 状态

[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4530: Communications failure contacting Cluster Synchronization Services daemon
CRS-4534: Cannot communicate with Event Manager

二、检查CRS 的启动情况
[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl stat res -t -init
--------------------------------------------------------------------------------
NAME TARGET STATE SERVER STATE_DETAILS 
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.asm
1 ONLINE OFFLINE 
ora.cluster_interconnect.haip
1 ONLINE OFFLINE 
ora.crf
1 ONLINE ONLINE ofc_node1 
ora.crsd
1 ONLINE OFFLINE 
ora.cssd
1 ONLINE OFFLINE STARTING 
ora.cssdmonitor
1 ONLINE ONLINE ofc_node1 
ora.ctssd
1 ONLINE OFFLINE 
ora.diskmon
1 ONLINE OFFLINE 
ora.evmd
1 ONLINE OFFLINE 
ora.gipcd
1 ONLINE ONLINE ofc_node1 
ora.gpnpd
1 ONLINE ONLINE ofc_node1 
ora.mdnsd
1 ONLINE ONLINE ofc_node1

如上显示,ora.cssd 进程启动出现问题

三、检查ocssd 的日志
[oracle@ofc_node1 cssd]$ tail -20f /home/oracle/app/11.2.0/grid/log/ofc_node1/cssd/ocssd.log

2013-11-13 17:44:07.696: [ CSSD][1091463488]clssnmvDHBValidateNCopy: node 2, ofc_node2, has a disk HB, but no network HB, DHB has
rcfg 230109004, wrtcnt, 44243250, LATS 24064574, lastSeqNo 44243249, uniqueness 1361347113, timestamp 1384335843/1507552134
2013-11-13 17:44:08.697: [ CSSD][1091463488]clssnmvDHBValidateNCopy: node 2, ofc_node2, has a disk HB, but no network HB, DHB has
rcfg 230109004, wrtcnt, 44243251, LATS 24065574, lastSeqNo 44243250, uniqueness 1361347113, timestamp 1384335844/1507553134

发现大量如上所述的 日志信息

四、查找metalink,定位错误信息

五、检查网络信息,私网 eth1 果然有问题
[root@ofc_node1 ~]# /sbin/ifconfig
eth0 Link encap:Ethernet HWaddr 00:1C:C4:94:9C:A6 
inet addr:192.168.12.179 Bcast:192.168.12.255 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:308822 errors:0 dropped:0 overruns:0 frame:0
TX packets:14067 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:20886515 (19.9 MiB) TX bytes:2593284 (2.4 MiB)
Interrupt:16 Memory:f8000000-f8012800

eth1 Link encap:Ethernet HWaddr 00:1C:C4:93:7D:EC 
inet addr:1.1.1.179 Bcast:1.1.1.255 Mask:255.255.255.0
UP BROADCAST MULTICAST MTU:1500 Metric:1
RX packets:78 errors:0 dropped:0 overruns:0 frame:0
TX packets:16 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:7041 (6.8 KiB) TX bytes:12444 (12.1 KiB)
Interrupt:17 Memory:fa000000-fa012800

两个节点互相 Ping 不通

[root@ofc_node1 ~]# ping 1.1.1.180
PING 1.1.1.180 (1.1.1.180) 56(84) bytes of data.
From 1.1.1.179 icmp_seq=1 Destination Host Unreachable

六、重启网络设置
[root@ofc_node1 ~]# /etc/init.d/network restart

七、重启CRS
[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl stop crs -f
CRS-2791: Starting shutdown of Oracle High Availability Services-managed resources on 'ofc_node1'
CRS-2673: Attempting to stop 'ora.mdnsd' on 'ofc_node1'
CRS-2673: Attempting to stop 'ora.crf' on 'ofc_node1'
CRS-2677: Stop of 'ora.crf' on 'ofc_node1' succeeded
CRS-2673: Attempting to stop 'ora.gipcd' on 'ofc_node1'
CRS-2677: Stop of 'ora.mdnsd' on 'ofc_node1' succeeded
CRS-2677: Stop of 'ora.gipcd' on 'ofc_node1' succeeded
CRS-2673: Attempting to stop 'ora.gpnpd' on 'ofc_node1'
CRS-2677: Stop of 'ora.gpnpd' on 'ofc_node1' succeeded
CRS-2793: Shutdown of Oracle High Availability Services-managed resources on 'ofc_node1' has completed
CRS-4133: Oracle High Availability Services has been stopped.

[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl check crs
CRS-4639: Could not contact Oracle High Availability Services

[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl start crs
CRS-4123: Oracle High Availability Services has been started.

八、检查crs 状态
[root@ofc_node1 ~]#
[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4537: Cluster Ready Services is online
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online

[oracle@ofc_node1 ~]$ crs_stat -t
Name Type Target State Host 
------------------------------------------------------------
ora.DATA.dg ora....up.type ONLINE ONLINE ofc_node1 
ora....ER.lsnr ora....er.type ONLINE ONLINE ofc_node1 
ora....N1.lsnr ora....er.type ONLINE ONLINE ofc_node2 
ora.asm ora.asm.type ONLINE ONLINE ofc_node1 
ora.cvu ora.cvu.type ONLINE ONLINE ofc_node2 
ora.gsd ora.gsd.type OFFLINE OFFLINE 
ora....network ora....rk.type ONLINE ONLINE ofc_node1 
ora.oc4j ora.oc4j.type ONLINE ONLINE ofc_node2 
ora....SM1.asm application ONLINE ONLINE ofc_node1 
ora....E1.lsnr application ONLINE ONLINE ofc_node1 
ora....de1.gsd application OFFLINE OFFLINE 
ora....de1.ons application ONLINE ONLINE ofc_node1 
ora....de1.vip ora....t1.type ONLINE ONLINE ofc_node1 
ora....SM2.asm application ONLINE ONLINE ofc_node2 
ora....E2.lsnr application ONLINE ONLINE ofc_node2 
ora....de2.gsd application OFFLINE OFFLINE 
ora....de2.ons application ONLINE ONLINE ofc_node2 
ora....de2.vip ora....t1.type ONLINE ONLINE ofc_node2 
ora.ofcdb.db ora....se.type ONLINE ONLINE ofc_node2 
ora.ons ora.ons.type ONLINE ONLINE ofc_node1 
ora.scan1.vip ora....ip.type ONLINE ONLINE ofc_node2

[oracle@ofc_node1 ~]$ sqlplus / as sysdba

SQL*Plus: Release 11.2.0.2.0 Production on Wed Nov 13 17:56:23 2013

Copyright (c) 1982, 2010, Oracle. All rights reserved.

Connected to:
Oracle Database 11g Enterprise Edition Release 11.2.0.2.0 - 64bit Production
With the Partitioning, Real Application Clusters, Automatic Storage Management, OLAP,
Data Mining and Real Application Testing options

SQL>

SQL> select name from v$datafile;

NAME
--------------------------------------------------------------------------------
+DATA/ofcdb/datafile/system.256.780865119
+DATA/ofcdb/datafile/sysaux.257.780865121
+DATA/ofcdb/datafile/undotbs1.258.780865121
+DATA/ofcdb/datafile/users.259.780865121
+DATA/ofcdb/datafile/undotbs2.267.780865281

附文档: Troubleshoot Grid Infrastructure Startup Issues (Doc ID 1050908.1)
How to Validate Network and Name Resolution Setup for the Clusterware and RAC (Doc ID 1054902.1)

ORA-01078、ORA-01565、ORA-17503、ORA-29701的更多相关文章

  1. CSS3与页面布局学习总结(二)——Box Model、边距折叠、内联与块标签、CSSReset

    一.盒子模型(Box Model) 盒子模型也有人称为框模型,HTML中的多数元素都会在浏览器中生成一个矩形的区域,每个区域包含四个组成部分,从外向内依次是:外边距(Margin).边框(Border ...

  2. C#、JAVA操作Hadoop(HDFS、Map/Reduce)真实过程概述。组件、源码下载。无法解决:Response status code does not indicate success: 500。

    一.Hadoop环境配置概述 三台虚拟机,操作系统为:Ubuntu 16.04. Hadoop版本:2.7.2 NameNode:192.168.72.132 DataNode:192.168.72. ...

  3. 教你一招:解决win10/win8.1系统在安装、卸载软件时出现2502、2503错误代码的问题

    经常遇到win10/win8.1系统在安装.卸载软件时出现2502.2503错误代码的问题. 解决办法: 1.打开任务管理器后,切换到“详细信息”选项卡,找到explore.exe这个进程,然后结束进 ...

  4. Map集合及与Collection的区别、HashMap和HashTable的区别、Collections、

    特点:将键映射到值的对象,一个映射不能包含重复的键,每个键最多只能映射到一个值. Map集合和Collection集合的区别 Map集合:成对出现 (情侣)                       ...

  5. 兼容8事件绑定与解绑addEventListener、removeEventListener和ie的attachEvent、detachEvent

    兼容8事件绑定与解绑addEventListener.removeEventListener和ie的attachEvent.detachEvent   ;(function(){ // 事件绑定 bi ...

  6. TFS API:三、TFS WorkItem添加和修改、保存

    TFS API:三.TFS  WorkItem添加和修改.保存 WorkItemStore:表示跟踪与运行 Team Foundation Server的服务器的工作项客户端连接. A.添加工作项 1 ...

  7. C#与Java对比学习:类型判断、类与接口继承、代码规范与编码习惯、常量定义

    类型判断符号: C#:object a;  if(a is int) { }  用 is 符号判断 Java:object a; if(a instanceof Integer) { } 用 inst ...

  8. TCP 三次握手四次挥手, ack 报文的大小.tcp和udp的不同之处、tcp如何保证可靠的、tcp滑动窗口解释

    一.TCP三次握手和四次挥手,ACK报文的大小 首先连接需要三次握手,释放连接需要四次挥手 然后看一下连接的具体请求: [注意]中断连接端可以是Client端,也可以是Server端. [注意] 在T ...

  9. Python学习笔记 之 递归、二维数组顺时针旋转90°、正则表达式

    递归.二维数组顺时针旋转90°.正则表达式 1.   递归算法是一种直接或间接调用自身算法的过程. 特点: 递归就是在过程或函数里调用自身 明确的递归结束条件,即递归出口 简洁,但是不提倡 递归次数多 ...

  10. 【Go入门教程3】流程(if、goto、for、switch)和函数(多个返回值、变参、传值与传指针、defer、函数作为值/类型、Panic和Recover、main函数和init函数、import)

    这小节我们要介绍Go里面的流程控制以及函数操作. 流程控制 流程控制在编程语言中是最伟大的发明了,因为有了它,你可以通过很简单的流程描述来表达很复杂的逻辑.Go中流程控制分三大类:条件判断,循环控制和 ...

随机推荐

  1. kubernetes源码解析---- apiserver路由构建解析(1)

    kubernetes源码解析---- apiserver路由构建解析(1) apiserver作为k8s集群的唯一入口,内部主要实现了两个功能,一个是请求的路由和处理,简单说就是监听一个端口,把接收到 ...

  2. 【LeetCode】13. Roman to Integer 罗马数字转整数

    题目: Given a roman numeral, convert it to an integer. Input is guaranteed to be within the range from ...

  3. 第三方登录 QQ登录 人人网登录 新浪微博登录

    http://www.pp6.cn/Index.aspx http://www.pp6.cn/Login.aspx 网站有自己的账号系统,这里使用的第三方登录仅仅是获取第三方账号的唯一id,昵称,性别 ...

  4. java map缓存

    /**  * 缓存池  * @author xiaoquan  * @create 2015年3月13日 上午10:32:13  * @see  */ public class CachePool { ...

  5. svn 检出代码报ssl错误问题的解决

    svn: OPTIONS of 'https://192.168.11.185/svn/ahwater-cloud': SSL handshake failed: SSL error: Key usa ...

  6. extern c

    extern "C"的主要作用就是为了能够正确实现C++代码调用其他C语言代码.加上extern "C"后,会指示编译器这部分代码按C语言的进行编译,而不是C+ ...

  7. spinlock自旋锁de使用

    Linux内核中最常见的锁是自旋锁.一个自旋锁就是一个互斥设备,它只能有两个值:"锁定"和"解锁".如果锁可用,则"锁定"位被设置,而代码继 ...

  8. js控制ul的显示隐藏,对象的有效范围

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

  9. 第1部分: 游戏引擎介绍, 渲染和构造3D世界

    原文作者:Jake Simpson译者: 向海Email:GameWorldChina@myway.com ---------------------------------------------- ...

  10. 单例模式(Winform窗体的实现)

    在我的设计模式分类当中,我选择单例模式作为我第一个要写的设计模式,其一,单例模式简单.容易理解让人接受,其二,单例模式很常用,在实际的Winform窗体应用开发中能够带来更好的客户体验. 单例模式的核 ...