RAC OCR盘故障导致的集群重启恢复

一.事故说明最近出现了一次OCR盘的故障导致Oracle集群件宕机的事故,后以独占模式启动集群,并使用ocr备份恢复了OCR文件以及重新设置了vote disk,然后关闭集群,重启成功. 因此在此处进行事故重现以吸取教训. 二.重现步骤测试RAC环境中只有+OCR和+DATA两个ASM磁盘组. 1.做好ocr的手工备份 [root@node1 ~]# ocrconfig -export /home/oracle/ocr.bak 紧急情况下没有ocr的备份也不要紧,在$CRS_HOME的c…

Redis Cluster集群重启出现的问题

Redis Cluster集群重启出现的问题由于机器故障导致redis集群停止,再次重启集群出现如下错误:Redis Cluster集群重启出现的问题:[ERR] Node 192.168.3.1:7004 is not empty. Either the node already knows other nodes (check with CLUSTER NODES) or contains some key in database 0.…

oracle 11g rac集群重启顺序以及常用管理命令简介

转至:https://www.cnblogs.com/yj411511/p/12459533.html 目录 1.关闭数据库 1.1 查看数据库实例状态 1.2 停止所有节点上实例 1.3 确认数据库实例状态 2.停止HAS(High Availability Services),必须以root用户操作 2.1 查看节点集群状态 2.2 停止has服务 2.3 停止crs服务 2.4 停止节点集群服务 3 启动集群 3.1 单节点启动 3.2 所有节点启动 3.3 检查集群状态 4.启动数据库…

集群重启后启动ambari-server访问Web页面无法启动集群解决

集群重启后启动ambari-server访问Web页面无法启动集群解决使用ambari部署的集群重新启动后,必须手动重启ambari-server和所有集群主机上的ambari-agent. ambari-server服务器上执行: $ sudo ambari-server start 所有集群节点主机上执行: $ sudo ambari-agent start…

【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之集群概念介绍（一）

集群概念介绍(一)) 白宁超 2015年7月16日概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体系的总结,一则进行回顾复习,另则便于查询使用.本图文文档亦源于此.阅读Oracle RAC安装与使用教程前,笔者先对这篇文章整体构思和形成进行梳理.由于阅读者知识储备层次不同,我将从Oracle RAC安装前的准备与规划开始进行整体介绍安装部署Oracle RAC.始于唐博士指导,对数据库集…

转载:【Oracle 集群】RAC知识图文详细教程(一)--集群概念介绍

文章导航集群概念介绍(一) ORACLE集群概念和原理(二) RAC 工作原理和相关组件(三) 缓存融合技术(四) RAC 特殊问题和实战经验(五) ORACLE 11 G版本2 RAC在LINUX上使用NFS安装前准备(六) ORACLE ENTERPRISE LINUX 5.7下DATABASE 11G RAC集群安装(七) ORACLE ENTERPRISE LINUX 5.7下DATABASE 11G RAC数据库安装(八) ORACLE ENTERPRISE LINUX 5.7下DA…

【转】【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之集群概念介绍（一）

原文地址:http://www.cnblogs.com/baiboy/p/orc1.html 阅读目录目录集群概念介绍什么是集群为什么搭建数据库集群数据库集群的分类可扩展的分布式数据库架构参考文献相关文章集群概念介绍(一)) 白宁超 2015年7月16日概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体系的总结,一则进行回顾复习,另则便于查询使用.本图文文档亦源于此.阅读…

联想企业网盘：SaaS服务集群化持续交付实践

1 前言当代信息技术飞速发展,软件和系统的代码规模都变得越来越大,而且组件众多,依赖繁复,每次新版本的发布都仿佛是乘坐一次无座的绿皮车长途夜行,疲惫不堪.软件交付是一个复杂的工程,涉及到软件开发的各个细节,其中任何一环出现问题,都会导致软件不能及时交付,或者交付的质量堪忧. 从企业的角度来讲,如何利用更科学的工具.更科学的流程来提高产品质量,提升客户满意度,是刚需.从员工角度来讲,生命里值得追求的事情很多,不能把宝贵的时间浪费在一些机械的.重复的事情上面. 联想企业网盘从2007开始…

dfs.datanode.max.xcievers参数导致hbase集群报错

2013/08/09 转发自http://bkeep.blog.163.com/blog/static/123414290201272644422987/ [案例]dfs.datanode.max.xcievers参数导致hbase-0.92集群报错 2012-08-26 16:44:22| 分类: Hbase|字号订阅场景: 15个datanode挂掉,只有2个存活 [dwhftp@dw-hbase-1 ~]$ hadoop dfsadmin -report Configured…

MongoDB 集群 config server 查询超时导致 mongos 集群写入失败

环境 OS:CentOS 7.x DB:MongoDB 3.6.12 集群模式:mongod-shard1 *3 + mongod-shard2 *3 + mongod-conf-shard *3 + mongos *3 业务错误日志 caused by :: NetworkInterfaceExceededTimeLimit: Operation time out on server ****:27018 .... at org.springframework.data.mongodb.cor…

Elasticsearch 节点磁盘使用率过高，导致ES集群索引无副本

目录一.问题二.问题的原因三.问题解决的办法 1. 扩大磁盘 2. 删除部分历史索引 3. 更改es设置四.扩展一.问题最近在查看线上的 es,发现最近2天的索引没有副本,集群的状态也是为 yellow 的. 二.问题的原因 es 所在的服务器磁盘是还有剩余空间的.只不过磁盘使用了大概 89%,按道理来说应该是会继续使用的,并创建索引的副本的,我们经过查阅官方文档. cluster.routing.allocation.disk.watermark.low Controls the…

Redis 集群方案什么情况下会导致整个集群不可用？

有 A,B,C 三个节点的集群,在没有复制模型的情况下,如果节点 B 失败了, 那么整个集群就会以为缺少 5501-11000 这个范围的槽而不可用.…

redis 4 集群重启与数据导入

1.redis 4 平时启用aof db与每天的完整备份. 2.集群状态检查 cluster info 检查集群状态 cluster nodes 检查节点状态 redis-cli -c -p 7000 登录 redis-trib.rb check *.*.*.*:7000 检查集群文件状态 redis-trib.rb fix *.*.*.*:7000 修复集群文件 3.数据恢复把redis 的快照文件*.db迁移至其它目录只保留主节点的aof文件.主节点可以从集群节点状态查看. 4.检查状态…

ES集群重启

操作步骤: 1. Disable shard allocation curl -XPUT 'localhost:9200/_cluster/settings?pretty' -d '{ "persistent": { "cluster.routing.allocation.enable": "none" }}' 2. Perform a synced flush curl -XPOST 'localhost:9200/_flush/sy…

集群重启某一主机下所有osd down解决办法

标签(空格分隔): ceph 运维 osd 问题描述: 掉电后,上电发现cluster中的主机node3下的所有osd都down掉了,通过命令重启node3的ceph-osd服务,osd依然无法up:通过激活集群所有osd还是不行. [root@node1 ~]# ceph osd tree ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF -1 0.05878 root default -3 0.01959 host node1 0 hdd 0…

Redis集群断电恢复

再集群整体断点或关闭后,默认启动集群后,会成为孤立的单点,需要删除每个节点的pid文件,node.conf.并将RDB和AOF文件移动出来,再挨个启动每个节点,并用create创建集群脚本,重新创建集群. 将所有节点的aof拿出来,用命令 cat appendonly.aof | redis-cli -c -p 7000 --pipe 加载到每个节点一次. 也就是将每个主节点的aof文件,加载到每个新主节点一次.当前方法为物理写入方法. 第二个方法: 需要删除每个节点的pid文件,node.co…

kingbaseES V8R6集群备份恢复案例之---备库作为repo主机执行物理备份

Aliyun EMR 集群重启

1.如果Core节点有Down掉,ActiveNodes少于Core节点数. 处理: a.登陆到Master节点,到目录 /opt/apps/hadoop-2.7.2/sbin b.执行 ./stop-all.sh ./start-all.sh,重启所有服务 c.观察日志,看服务是否正常启动,如果异常,根据日志逐步排查 2.如果Hive不可用, 排查如下: ps axu | grep HiveMeta ps axu | grep HiveServer 查看相关服务是否正常在RUN,且查看相关日志…

elasticsearch 分片的创建集群重启分片运作

2016年11月12日ENGINEERING Every shard deserves a home 作者 Joshua Backing Share Here are some great slides from our Core Elasticsearch: Operations course that help explain the concept. We'd recommend that you take the full course to understand this even b…

Hadoop2.7.3 HA高可靠性集群搭建

1.背景介绍 Hadoop2.0.0之前,在一个HDFS集群中,NameNode存在单节点故障(SPOF):因为集群中只有一个NameNode,所以在使用过程中,如果该NameNode出现故障或数据丢失,那么整个集群将瘫痪,故障NameNode节点故障无法恢复,将导致整个集群不能恢复,这也是Hadoop2.0.0之前版本不可靠的表现. 为了解决hadoop2.0.0之前的单点问题,在hadoop2通过在同一个集群上运行两个NameNode的主动/被动配置热备份,这样集群允许在一个NameNode…

由于dns服务为启动导致的GI集群启动故障

1.物业由于突然断电导致grid集群重新启动后rac数据库无法正常启动,对集群进行检查,结果如下,发现其中有4个数据库状态为instance shutdown.[root@node1 ~]# su - grid[grid@node1 ~]$ crsctl status res -t--------------------------------------------------------------------------------NAME TARGET STATE …

Oracle rac集群环境中的特殊问题

备注:本文摘抄于张晓明<大话Oracle RAC:集群高可用性备份与恢复> 因为集群环境需要多个计算机协同工作,要达到理想状态,必须要考虑在集群环境下面临的新挑战. 1.并发控制在集群环境中,关键数据通常是并发存放的,比如放在共享磁盘上.而集群内各个成员的生身份是对等的,所有节点对数据有相同的访问权利.这时就必须有某种机制能够控制节点对数据的访问. 在Oracle rac中,是利用DLM (Distribute Look Management)机制来进行多个实例间的并发控制. 2.健忘症…

RAC集群节点故障模拟测试

RAC节点故障模拟测试重启单个RAC 节点模拟测试模拟操作步骤使用shutdown –Fr的方式重启节点,查看系统反应和数据库重新启动的时间.预期测试结果重启单个节点,vip将会切换到另外一个节点.系统重新启动之后,节点上的集群服务和数据库将会自动启动,重新加入集群.Vip也将切换回原始节点.测试过程记录使用shutdown 命令重启第三节点第三节点关闭之后查看crs服务状态RAC02:oracle:db2 > crs_stat -tName Type …

集群、RAC和MAA

集群:是一种由两台或多台节点机构成的松散耦合的计算节点集合,这个集合在整个网络中表现为单一的系统,并通过单一接口进行使用和管理.给用户提供网络服务或应用程序的单一视图.大多数模式下,集群中所有计算机都拥有一个相同的名称,集群内任意一个系统都可以被所有网络客户所使用.当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管.客户将能很快连接到新应用服务器上,理想情况下用户甚至感觉不到这种故障存在. 一.集群技术基础 1.集群地址维护集群地址的设施被称为负载均衡器.对内负责管理各节点加入…

weblogic多池与oracle集群RAC

http://www.techpaste.com/2013/04/soa-infra-start-fails-weblogic-common-resourceexception-good-connections-error-weblogic/ After installing SOA 11g, but the soa-infra component fails to start. The following error message shows up in the soa diagnostic…

2.Ceph 基础篇 - 集群部署及故障排查

文章转载自:https://mp.weixin.qq.com/s?__biz=MzI1MDgwNzQ1MQ==&mid=2247485243&idx=1&sn=e425c31af90c72c75d535e16d71f728b&chksm=e9fdd2cfde8a5bd9423b9b15f69e305fc5fa30c543f941f57c8b456d28496e871a46b7faebd7&scene=178&cur_album_id=160084541737…

Windows Server2012 故障转移集群之动态仲裁（Dynamic Quorum）

本篇文章主要介绍Windows2012的故障转移集群一个新功能“动态仲裁”,默认该功能是开启的: 动态仲裁能在当前群集投票出现分歧的情况下取消某些节点的投票权限,比如偶数个节点的群集环境.仲裁见证和动态仲裁有点相似也可以解决群集投票分歧的问题,但是它不能取消节点的投票权,它能保持群集的投票个数保持奇数个数. SQLServer版本: SQL Server 2016 SP1 Windows版本:Windows Server 2012 DataCenter 群集节点:HD21DB03,HD21DB0…

部署AlwaysOn第三步：集群资源组的健康检测和故障转移

资源组是由一个或多个资源组成的组,WSFC的故障转移是以资源组为单位的,资源组中的资源是相互依赖的.一个资源所依赖的其他资源必须和该资源处于同一个资源组,跨资源组的依赖关系是不存在的.在任何时刻,每个资源组都仅属于集群中的一个结点,该结点就是资源组的活跃结点(Active Node),由活跃结点为应用程序提供服务.AlwaysOn建立在WSFC的健康检测和故障转移的特性之上,和故障转移集群有了不可分割的关系,因此,从底层的集群资源来理解可用性组,知其然知,其所以然,有助于更好地维护AlwaysO…

Oracle 11gR2 RAC集群服务启动与关闭总结

引言:这写篇文章的出处是因为我的一名学生最近在公司搭建RAC集群,但对其启动与关闭的顺序和原理不是特别清晰,我在教学工作中也发现了很多学员对RAC知识了解甚少,因此我在这里就把RAC里面涉及到的最常用的启动与关闭顺序和命令逐一列举出来,由于RAC的后台资源较多,因此涉及到的命令也很多,最后附上帮助手册让在工作中临时使用时也可以迅速查到,如果这篇文章能够帮到大家就是我今后继续努力撰写的动力,感谢大家对我文章的浏览多提宝贵意见. 关闭过程(CRS集群关闭->关闭数据库)1.关闭数据库:用oracl用…

Redis源码解析：28集群(四)手动故障转移、从节点迁移

一:手动故障转移 Redis集群支持手动故障转移.也就是向从节点发送"CLUSTER FAILOVER"命令,使其在主节点未下线的情况下,发起故障转移流程,升级为新的主节点,而原来的主节点降级为从节点. 为了不丢失数据,向从节点发送"CLUSTER FAILOVER"命令后,流程如下: a:从节点收到命令后,向主节点发送CLUSTERMSG_TYPE_MFSTART包: b:主节点收到该包后,会将其所有客户端置于阻塞状态,也就是在10s的时间内,不再处理客户端发…

【RAC OCR盘故障导致的集群重启恢复】的更多相关文章