RAC OCR盘故障导致的集群重启恢复】的更多相关文章

一.事故说明 最近出现了一次OCR盘的故障导致Oracle集群件宕机的事故,后以独占模式启动集群,并使用ocr备份恢复了OCR文件以及重新设置了vote disk,然后关闭集群,重启成功. 因此在此处进行事故重现以吸取教训.   二.重现步骤 测试RAC环境中只有+OCR和+DATA两个ASM磁盘组. 1.做好ocr的手工备份 [root@node1 ~]# ocrconfig -export /home/oracle/ocr.bak 紧急情况下没有ocr的备份也不要紧,在$CRS_HOME的c…
Redis Cluster集群重启出现的问题 由于机器故障导致redis集群停止,再次重启集群出现如下错误:Redis Cluster集群重启出现的问题:[ERR] Node 192.168.3.1:7004 is not empty. Either the node already knows other nodes (check with CLUSTER NODES) or contains some key in database 0.…
转至:https://www.cnblogs.com/yj411511/p/12459533.html 目录 1.关闭数据库 1.1 查看数据库实例状态 1.2 停止所有节点上实例 1.3 确认数据库实例状态 2.停止HAS(High Availability Services),必须以root用户操作 2.1 查看节点集群状态 2.2 停止has服务 2.3 停止crs服务 2.4 停止节点集群服务 3 启动集群 3.1 单节点启动 3.2 所有节点启动 3.3 检查集群状态 4.启动数据库…
集群重启后启动ambari-server访问Web页面无法启动集群解决 使用ambari部署的集群重新启动后,必须手动重启ambari-server和所有集群主机上的ambari-agent. ambari-server服务器上执行: $ sudo ambari-server start 所有集群节点主机上执行: $ sudo ambari-agent start…
集群概念介绍(一)) 白宁超 2015年7月16日 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体系的总结,一则进行回顾复习,另则便于查询使用.本图文文档亦源于此.阅读Oracle RAC安装与使用教程前,笔者先对这篇文章整体构思和形成进行梳理.由于阅读者知识储备层次不同,我将从Oracle RAC安装前的准备与规划开始进行整体介绍安装部署Oracle RAC.始于唐博士指导,对数据库集…
文章导航 集群概念介绍(一) ORACLE集群概念和原理(二) RAC 工作原理和相关组件(三) 缓存融合技术(四) RAC 特殊问题和实战经验(五) ORACLE 11 G版本2 RAC在LINUX上使用NFS安装前准备(六) ORACLE ENTERPRISE LINUX 5.7下DATABASE 11G RAC集群安装(七) ORACLE ENTERPRISE LINUX 5.7下DATABASE 11G RAC数据库安装(八) ORACLE ENTERPRISE LINUX 5.7下DA…
原文地址:http://www.cnblogs.com/baiboy/p/orc1.html 阅读目录 目录 集群概念介绍 什么是集群 为什么搭建数据库集群 数据库集群的分类 可扩展的分布式数据库架构 参考文献 相关文章 集群概念介绍(一)) 白宁超 2015年7月16日 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体系的总结,一则进行回顾复习,另则便于查询使用.本图文文档亦源于此.阅读…
1      前言 当代信息技术飞速发展,软件和系统的代码规模都变得越来越大,而且组件众多,依赖繁复,每次新版本的发布都仿佛是乘坐一次无座的绿皮车长途夜行,疲惫不堪.软件交付是一个复杂的工程,涉及到软件开发的各个细节,其中任何一环出现问题,都会导致软件不能及时交付,或者交付的质量堪忧. 从企业的角度来讲,如何利用更科学的工具.更科学的流程来提高产品质量,提升客户满意度,是刚需.从员工角度来讲,生命里值得追求的事情很多,不能把宝贵的时间浪费在一些机械的.重复的事情上面. 联想企业网盘从2007开始…
2013/08/09 转发自http://bkeep.blog.163.com/blog/static/123414290201272644422987/ [案例]dfs.datanode.max.xcievers参数导致hbase-0.92集群报错 2012-08-26 16:44:22|  分类: Hbase|字号 订阅     场景: 15个datanode挂掉,只有2个存活 [dwhftp@dw-hbase-1 ~]$ hadoop dfsadmin -report Configured…
环境 OS:CentOS 7.x DB:MongoDB 3.6.12 集群模式:mongod-shard1 *3 + mongod-shard2 *3 + mongod-conf-shard *3 + mongos *3 业务错误日志 caused by :: NetworkInterfaceExceededTimeLimit: Operation time out on server ****:27018 .... at org.springframework.data.mongodb.cor…
目录 一.问题 二.问题的原因 三.问题解决的办法 1. 扩大磁盘 2. 删除部分历史索引 3. 更改es设置 四.扩展 一.问题 最近在查看线上的 es,发现最近2天的索引没有副本,集群的状态也是为 yellow 的. 二.问题的原因 es 所在的服务器磁盘是还有剩余空间的.只不过磁盘使用了大概 89%,按道理来说应该是会继续使用的,并创建索引的副本的,我们经过查阅官方文档. cluster.routing.allocation.disk.watermark.low Controls the…
有 A,B,C 三个节点的集群,在没有复制模型的情况下,如果节点 B 失败了, 那么整个集群就会以为缺少 5501-11000 这个范围的槽而不可用.…
1.redis 4 平时启用aof db与每天的完整备份. 2.集群状态检查 cluster info 检查集群状态 cluster nodes 检查节点状态 redis-cli -c -p 7000 登录 redis-trib.rb check *.*.*.*:7000 检查集群文件状态 redis-trib.rb fix *.*.*.*:7000 修复集群文件 3.数据恢复 把redis 的快照文件*.db迁移至其它目录 只保留主节点的aof文件.主节点可以从集群节点状态查看. 4.检查状态…
操作步骤: 1. Disable shard allocation curl -XPUT 'localhost:9200/_cluster/settings?pretty' -d '{  "persistent": {    "cluster.routing.allocation.enable": "none"  }}' 2. Perform a synced flush curl -XPOST 'localhost:9200/_flush/sy…
标签(空格分隔): ceph 运维 osd 问题描述: 掉电后,上电发现cluster中的主机node3下的所有osd都down掉了,通过命令重启node3的ceph-osd服务,osd依然无法up:通过激活集群所有osd还是不行. [root@node1 ~]# ceph osd tree ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF -1 0.05878 root default -3 0.01959 host node1 0 hdd 0…
再集群整体断点或关闭后,默认启动集群后,会成为孤立的单点,需要删除每个节点的pid文件,node.conf.并将RDB和AOF文件移动出来,再挨个启动每个节点,并用create创建集群脚本,重新创建集群. 将所有节点的aof拿出来,用命令 cat appendonly.aof | redis-cli -c -p 7000 --pipe 加载到每个节点一次. 也就是将每个主节点的aof文件,加载到每个新主节点一次.当前方法为物理写入方法. 第二个方法: 需要删除每个节点的pid文件,node.co…
​ 案例说明: 此案例是在KingbaseES V8R6集群环境下,当主库磁盘空间不足时,执行sys_rman备份,将集群的备库节点作为repo主机,执行备份,并将备份存储在备库的磁盘空间. 集群架构状态: [kingbase@node102 bin]$ ./repmgr cluster show ID | Name | Role | Status | Upstream | Location | Priority | Timeline | Connection string ----+-----…
1.如果Core节点有Down掉,ActiveNodes少于Core节点数. 处理: a.登陆到Master节点,到目录 /opt/apps/hadoop-2.7.2/sbin b.执行 ./stop-all.sh ./start-all.sh,重启所有服务 c.观察日志,看服务是否正常启动,如果异常,根据日志逐步排查 2.如果Hive不可用, 排查如下: ps axu | grep HiveMeta ps axu | grep HiveServer 查看相关服务是否正常在RUN,且查看相关日志…
2016年11月12日ENGINEERING Every shard deserves a home 作者 Joshua Backing Share Here are some great slides from our Core Elasticsearch: Operations course that help explain the concept. We'd recommend that you take the full course to understand this even b…
1.背景介绍 Hadoop2.0.0之前,在一个HDFS集群中,NameNode存在单节点故障(SPOF):因为集群中只有一个NameNode,所以在使用过程中,如果该NameNode出现故障或数据丢失,那么整个集群将瘫痪,故障NameNode节点故障无法恢复,将导致整个集群不能恢复,这也是Hadoop2.0.0之前版本不可靠的表现. 为了解决hadoop2.0.0之前的单点问题,在hadoop2通过在同一个集群上运行两个NameNode的主动/被动配置热备份,这样集群允许在一个NameNode…
1.物业由于突然断电导致grid集群重新启动后rac数据库无法正常启动,对集群进行检查,结果如下,发现其中有4个数据库状态为instance shutdown.[root@node1 ~]# su - grid[grid@node1 ~]$ crsctl status res -t--------------------------------------------------------------------------------NAME           TARGET  STATE …
备注:本文摘抄于张晓明<大话Oracle RAC:集群 高可用性 备份与恢复> 因为集群环境需要多个计算机协同工作,要达到理想状态,必须要考虑在集群环境下面临的新挑战. 1.并发控制 在集群环境中,关键数据通常是并发存放的,比如放在共享磁盘上.而集群内各个成员的生身份是对等的,所有节点对数据有相同的访问权利.这时就必须有某种机制能够控制节点对数据的访问. 在Oracle rac中,是利用DLM (Distribute Look Management)机制来进行多个实例间的并发控制. 2.健忘症…
RAC节点故障模拟测试 重启单个RAC 节点模拟测试模拟操作步骤使用shutdown –Fr的方式重启节点,查看系统反应和数据库重新启动的时间.预期测试结果重启单个节点,vip将会切换到另外一个节点.系统重新启动之后,节点上的集群服务和数据库将会自动启动,重新加入集群.Vip也将切换回原始节点.测试过程记录使用shutdown 命令重启第三节点第三节点关闭之后查看crs服务状态RAC02:oracle:db2 > crs_stat -tName           Type           …
集群:是一种由两台或多台节点机构成的松散耦合的计算节点集合,这个集合在整个网络中表现为单一的系统,并通过单一接口进行使用和管理.给用户提供网络服务或应用程序的单一视图.大多数模式下,集群中所有计算机都拥有一个相同的名称,集群内任意一个系统都可以被所有网络客户所使用.当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管.客户将能很快连接到新应用服务器上,理想情况下用户甚至感觉不到这种故障存在. 一.集群技术基础 1.集群地址 维护集群地址的设施被称为负载均衡器.对内负责管理各节点加入…
http://www.techpaste.com/2013/04/soa-infra-start-fails-weblogic-common-resourceexception-good-connections-error-weblogic/ After installing SOA 11g, but the soa-infra component fails to start. The following error message shows up in the soa diagnostic…
文章转载自:https://mp.weixin.qq.com/s?__biz=MzI1MDgwNzQ1MQ==&mid=2247485243&idx=1&sn=e425c31af90c72c75d535e16d71f728b&chksm=e9fdd2cfde8a5bd9423b9b15f69e305fc5fa30c543f941f57c8b456d28496e871a46b7faebd7&scene=178&cur_album_id=160084541737…
本篇文章主要介绍Windows2012的故障转移集群一个新功能“动态仲裁”,默认该功能是开启的: 动态仲裁能在当前群集投票出现分歧的情况下取消某些节点的投票权限,比如偶数个节点的群集环境.仲裁见证和动态仲裁有点相似也可以解决群集投票分歧的问题,但是它不能取消节点的投票权,它能保持群集的投票个数保持奇数个数. SQLServer版本: SQL Server 2016 SP1 Windows版本:Windows Server 2012 DataCenter 群集节点:HD21DB03,HD21DB0…
资源组是由一个或多个资源组成的组,WSFC的故障转移是以资源组为单位的,资源组中的资源是相互依赖的.一个资源所依赖的其他资源必须和该资源处于同一个资源组,跨资源组的依赖关系是不存在的.在任何时刻,每个资源组都仅属于集群中的一个结点,该结点就是资源组的活跃结点(Active Node),由活跃结点为应用程序提供服务.AlwaysOn建立在WSFC的健康检测和故障转移的特性之上,和故障转移集群有了不可分割的关系,因此,从底层的集群资源来理解可用性组,知其然知,其所以然,有助于更好地维护AlwaysO…
引言:这写篇文章的出处是因为我的一名学生最近在公司搭建RAC集群,但对其启动与关闭的顺序和原理不是特别清晰,我在教学工作中也发现了很多学员对RAC知识了解甚少,因此我在这里就把RAC里面涉及到的最常用的启动与关闭顺序和命令逐一列举出来,由于RAC的后台资源较多,因此涉及到的命令也很多,最后附上帮助手册让在工作中临时使用时也可以迅速查到,如果这篇文章能够帮到大家就是我今后继续努力撰写的动力,感谢大家对我文章的浏览多提宝贵意见. 关闭过程(CRS集群关闭->关闭数据库)1.关闭数据库:用oracl用…
一:手动故障转移 Redis集群支持手动故障转移.也就是向从节点发送"CLUSTER  FAILOVER"命令,使其在主节点未下线的情况下,发起故障转移流程,升级为新的主节点,而原来的主节点降级为从节点. 为了不丢失数据,向从节点发送"CLUSTER  FAILOVER"命令后,流程如下: a:从节点收到命令后,向主节点发送CLUSTERMSG_TYPE_MFSTART包: b:主节点收到该包后,会将其所有客户端置于阻塞状态,也就是在10s的时间内,不再处理客户端发…