处理某客户p570硬盘故障所思
p570,硬盘故障。
机器有两个vg,rootvg和datavg,rootvg未做镜像,datavg已做镜像。系统errpt和HMC报硬盘有问题,查看错误代码可能是硬盘有坏道(坏块),在尽量保全用户数据的前提下,要解决此问题。
先是想到把datavg的镜像解除,把空出来的hdisk2分配到rootvg给有故障的盘做mirror。在经过很长一段时间的同步之后,查看rootvg里面的Lv状态时可以看到除了hd1即/home还是stale状态外,其它LV都已经是syncd状态。然后为保险起见把整个/home分区都tar到datavg的一个分区里面,因为耗时比较久同时也可能是因为有坏道,所以此操作进行了很久而且IO等待很高,而且执行df
-g,iostat,vmstat等命令都等待了很久,完全就是卡住了,于是决定等第二天继续处理。
第二天早上查看此机器的状态,lsvg -l
rootvg发现除了/home之外也有很多分区也变成了stale状态,同时lsvg查看到有故障的hdisk0已经是missing状态,完全已经不可操作了。又一次尝试把/home下面的一些文件和文件夹tar到datavg里面,准备把/home分区重建一下。尝试使用rmlv,rmfs都失败,提示只有最后的一块好的盘系统无法保证vg完整而拒绝rmlv,rmfs。给rootvg
unmirror成功,但是在给/home分区rmlvcopy的时候一样提示失败。同时使用lspv
-M命令查看到hdisk1上只有两个LP是stale的状态,而查看hdisk0时看到正好对应的两个LP是好的,于是想着把hdisk0上这两块好的LP直接迁移到hdisk1上去,使用mirgratelp命令,但是在迁移过程中卡死,ctrl+c中止掉,后面就发现/home的LV的PVs变成了3,非常奇怪的问题。再尝试把hdisk0直接从rootvg中reduce掉,执行reducevg提示上面一样的错误,想换盘都不行了。后面实在无法了,准备尝试重启一下机器看。
重启后,在HMC里面看到,该分区的启动报错误代码0552,重新选一块hdisk启动依然报0552。于是只能从网络引导分区,引导进去之后已经看不到原来的hdisk0这块硬盘,importvg都不行,提示VGDA信息有问题。同时用于管理这几台小机的HMC也挂掉了,不能用了,图形界面始终无法显示出来,重启HMC之后故障依旧,只能把这个分区挂到另外一台HMC上使用。最后尝试各种方法都无法恢复系统本身,于是只能选择重装AIX。
这个案例告诉我们重要数据一定要做备份。案例中rootvg没镜像,小机也没连磁带机,也从来没有用mksysb做过系统的备份。虽然这是个开发测试机,但是oracle的数据居然是直接放在/home下面,不说用裸设备,至少要分另外一块硬盘的一个单独的LV出来用作oracle的数据分区。硬件故障是不可避免的,而用户没做备份这就有点说不过去了,所以对硬件不要太依赖,重要的数据一定要做备份。
处理某客户p570硬盘故障所思的更多相关文章
- vsftp客户连接常见故障现象
ftp客户连接常见故障现象现象0:> ftp: connect :连接被拒绝原因: 服务没启动解决: # chkconfig vsftpd on<Enter> 现象1:500 OOP ...
- DELL EqualLogic PS存储硬盘故障数据恢复成功案例分享
DELL EqualLogic PS4000采用虚拟ISCSI SAN阵列,为远程或分支办公室.部门和中小企业存储部署带来企业级功能.智能化.自动化和可靠性.以简化的管理.快速的部署及合理的价格满足了 ...
- EVA 4400存储硬盘故障数据恢复方案和数据恢复过程
EVA系列存储是一款以虚拟化存储为实现目的的HP中高端存储设备,平时数据会不断的迁移,加上任务通常较为繁重,所以磁盘的负载相对是较重的,也是很容易出现故障的.EVA是依靠大量磁盘的冗余空间,以及故障后 ...
- rsync 实现文件同步 (重要数据通过rsyncr把数据同步到不同的两台服务器上,这样可以防止服务器的硬盘故障导致数据丢失) 客户端同步时如果要排某个目录
rsync是unix系统下的数据镜像 备份工具,一般linux系统都 自带: # rpm -qa|grep rsync rsync-3.0.9-17.el7.x86_64 服务器端:10.100.0. ...
- Centos6.5硬盘故障修复
以企业Centos6.5Linux为案例来修复系统,步骤如下: (1)远程备份本地其他重要数据,出现只读文件系统,需要先备份其他重要数据基于rsync|scp远程备份,其中/data为源目录,/dat ...
- 分布式存储ceph——(5)ceph osd故障硬盘更换
正常状态:
- Ceph添加、删除osd及故障硬盘更换
添加或删除osd均在ceph部署节点的cent用户下的ceph目录进行. 1. 添加osd 当前ceph集群中有如下osd,现在准备新添加osd: (1)选择一个osd节点,添加好新的硬盘: (2)显 ...
- 分布式存储ceph--osd故障硬盘更换(6)
正常状态:
- Ceph osd故障硬盘更换
正常状态: 故障状态: 实施更换步骤: (1)关闭ceph集群数据迁移: osd硬盘故障,状态变为down.在经过mod osd down out interval 设定的时间间隔后,ceph将其标记 ...
随机推荐
- Java集合源代码剖析(一)【集合框架概述、ArrayList、LinkedList、Vector】
Java集合框架概述 Java集合工具包位于Java.util包下.包括了非常多经常使用的数据结构,如数组.链表.栈.队列.集合.哈希表等.学习Java集合框架下大致能够分为例如以下五个部分:List ...
- linux下创建带password的用户
一直在做实验室linuxserver的账号管理系统,现阶段是用户申请后我这边收到邮件,然后手动创建,这个略显麻烦,打算全然做成自己主动化的.用户申请后,我直接在管理界面点击批准就可以创建用户,同一时候 ...
- bzoj1070: [SCOI2007]修车(费用流)
1070: [SCOI2007]修车 题目:传送门 题解: 一道挺简单的费用流吧...胡乱建模走起 贴个代码... #include<cstdio> #include<cstring ...
- matlab2017a doc 关联注册码
在 matlab 2017a 的命令行界面,输入doc **查看相关函数的帮助文档时,必须要关联注册码才可使用. 这种显然是在网络连接状况下给出的提示,也即主机处在网络连接状态,试图默认查找的网络中的 ...
- WebBrowser获取页面总高度
case DISPID_DOCUMENTCOMPLETE: { #pragma region 获取页面总高度 HRESULT hr; IDispatch *pdisp; hr = m_pWebBrow ...
- python-网络-tcp
python-网络-tcp 标签(空格分隔): python TCP[client]-发送数据 from socket import * s = socket(AF_INET, SOCK_STREAM ...
- Java 类和对象12
构造一辆汽车,油箱容量100L,当前里程数0,当前油量0,可以根据道路状况确定油耗,根据行驶速度与行驶时间, 输出当前油量与总里程数. public class Car_1 { // 车牌 priva ...
- tf.cast(ndarray,dtype)
转化为指定的类型,一般是将bool类型转化为其他的数据类型,例如:tf.float32
- Dia Diagram Editor(流程图、UML)免费开源绘图软件
近期工作各种繁忙,导致很少分享自己喜欢和常用的一些工具,今天有点时间再次给各位喜欢开源的小伙伴介绍一个好用.免费.开源的软件Dia Diagram Editor. 首先给大家看看这个软件的主界面吧! ...
- PHP实现几种经典算法详解
前言 在编写JavaScript代码的时候存在一些对于数组的方法,可能涉及的页面会很多,然后每次去写一堆代码.长期下去代码会特别的繁多,是时候进行一波封装了,话不多说开始书写优美的代码 代码已上传gi ...