一、故障诊断

查看messages日志c0d0t0这块盘不断报错,类型为:retryable,如下:

root@gdhx # more /var/adm/messages

Aug  5 16:43:03 gdhx scsi: [ID 107833 kern.warning] WARNING: /pci@0,600000/pci@0/pci@8/pci@0/scsi@1/sd@1,0 (sd0):

Aug  5 16:43:03 gdhx    Error for Command: write(10)               Error Level: Retryable

Aug  5 16:43:03 gdhx scsi: [ID 107833 kern.notice]      Requested Block: 30334832                  Error Block: 30334848

Aug  5 16:43:03 gdhx scsi: [ID 107833 kern.notice]      Vendor: FUJITSU                            Serial Number: 0816H01WMN

Aug  5 16:43:03 gdhx scsi: [ID 107833 kern.notice]      Sense Key: Hardware Error

Aug  5 16:43:03 gdhx scsi: [ID 107833 kern.notice]      ASC: 0x44 (<vendor unique code 0x44>), ASCQ: 0xa3, FRU: 0x0

Iostat -En查看硬盘hard errors:20,处于增长趋势

综上结论:需更换c0d0t0硬盘,可在线更换硬盘。

二、故障处理过程

1、svm信息

root@gdhx # metastat

d4: 镜像

次镜像 0: d14

状态: 确定

次镜像 1: d24

状态: 确定

传送: 1

读入选项: roundrobin (缺省)

写入选项: parallel (缺省)

大小: 167781888 块 (80 GB)

d14: d4 的次镜像

状态: 确定

大小: 167781888 块 (80 GB)

条 0:

设备       引导块       Dbase         状态 Reloc 热备援

c0t0d0s4          0     否            确定    是

d24: d4 的次镜像

状态: 确定

大小: 167781888 块 (80 GB)

条 0:

设备       引导块       Dbase         状态 Reloc 热备援

c0t1d0s4          0     否            确定    是

d1: 镜像

次镜像 0: d11

状态: 确定

次镜像 1: d21

状态: 确定

传送: 1

读入选项: roundrobin (缺省)

写入选项: parallel (缺省)

大小: 16790400 块 (8.0 GB)

d11: d1 的次镜像

状态: 确定

大小: 16790400 块 (8.0 GB)

条 0:

设备       引导块       Dbase         状态 Reloc 热备援

c0t0d0s1          0     否            确定    是

d21: d1 的次镜像

状态: 确定

大小: 16790400 块 (8.0 GB)

条 0:

设备       引导块       Dbase         状态 Reloc 热备援

c0t1d0s1          0     否            确定    是

d0: 镜像

次镜像 0: d10

状态: 确定

次镜像 1: d20

状态: 确定

传送: 1

读入选项: roundrobin (缺省)

写入选项: parallel (缺省)

大小: 100355712 块 (47 GB)

d10: d0 的次镜像

状态: 确定

大小: 100355712 块 (47 GB)

条 0:

设备       引导块       Dbase         状态 Reloc 热备援

c0t0d0s0          0     否            确定    是

d20: d0 的次镜像

状态: 确定

大小: 100355712 块 (47 GB)

条 0:

设备       引导块       Dbase         状态 Reloc 热备援

c0t1d0s0          0     否            确定    是

Device Relocation Information:

Device   Reloc  Device ID

c0t1d0   是     id1,sd@n500000e01aff7320

c0t0d0   是     id1,sd@n5000c5001782f5b3

root@gdhx # df -k

文件系统              千字节    用了    可用 容量      挂接在

/dev/md/dsk/d0       49418200 33780228 15143790    70%    /

/devices                   0       0       0     0%    /devices

ctfs                       0       0       0     0%    /system/contract

proc                       0       0       0     0%    /proc

mnttab                     0       0       0     0%    /etc/mnttab

swap                 2203656    1720 2201936     1%    /etc/svc/volatile

objfs                      0       0       0     0%    /system/object

sharefs                    0       0       0     0%    /etc/dfs/sharetab

fd                         0       0       0     0%    /dev/fd

swap                 2203256    1320 2201936     1%    /tmp

swap                 2201984      48 2201936     1%    /var/run

/dev/md/dsk/d4       82620893 59432265 22362420    73%    /bea

root@gdhx # metadb

flags           first blk       block count

a m  p  luo        16              8192            /dev/dsk/c0t0d0s7

a    p  luo        8208            8192            /dev/dsk/c0t0d0s7

a    p  luo        16400           8192            /dev/dsk/c0t0d0s7

a    p  luo        16              8192            /dev/dsk/c0t1d0s7

a    p  luo        8208            8192            /dev/dsk/c0t1d0s7

root@gdhx # metastat -p

d4 -m d14 d24 1

d14 1 1 c0t0d0s4

d24 1 1 c0t1d0s4

d1 -m d11 d21 1

d11 1 1 c0t0d0s1

d21 1 1 c0t1d0s1

d0 -m d10 d20 1

d10 1 1 c0t0d0s0

d20 1 1 c0t1d0s0

2、删除报错硬盘的分区镜像

metadetach -f d0 d20

metadetach -f d1 d21

metadetach -f d4 d24

metaclear d20

metaclear d21

metaclear d24

3、删除报错硬盘的状态数据库

metadb -d /dev/dsk/c0t1d0s7

4、物理更换硬盘(确定硬盘亮蓝灯才更换),format确认硬盘正常被识别

5、复制分区

prtvtoc /dev/rdsk/c0t0d0s2 | fmthard -s - /dev/rdsk/c0t1d0s2

6、创建新盘状态数据库

metadb -a -f -c 2 c0t1d0s7

7、创建镜像

metainit d20 1 1 c0t1d0s0

metainit d21 1 1 c0t1d0s1

metainit d24 1 1 c0t1d0s4

metattach d0 d20

metattach d1 d21

metattach d4 d24

8、查看镜像数据同步进度

metastat |grep %

三、检查设备

查看硬盘状态、日志等信息

Format

Iostat -En

messages

UNIX故障--sun m4000服务器故障硬盘更换案例的更多相关文章

  1. 分布式存储ceph——(5)ceph osd故障硬盘更换

    正常状态:

  2. Ceph添加、删除osd及故障硬盘更换

    添加或删除osd均在ceph部署节点的cent用户下的ceph目录进行. 1. 添加osd 当前ceph集群中有如下osd,现在准备新添加osd: (1)选择一个osd节点,添加好新的硬盘: (2)显 ...

  3. 分布式存储ceph--osd故障硬盘更换(6)

    正常状态:

  4. Ceph osd故障硬盘更换

    正常状态: 故障状态: 实施更换步骤: (1)关闭ceph集群数据迁移: osd硬盘故障,状态变为down.在经过mod osd down out interval 设定的时间间隔后,ceph将其标记 ...

  5. 分布式存储ceph---ceph osd 故障硬盘更换(6)

    正常状态: 故障状态: 实施更换步骤: 1.关闭ceph集群数据迁移: osd硬盘故障,状态变为down.在经过mod osd down out interval 设定的时间间隔后,ceph将其标记为 ...

  6. 部署AlwaysOn第一步:搭建Windows服务器故障转移集群

    在Windows Server 2012 R2 DataCenter 环境中搭建集群之前,首先要对Windows服务器故障转移集群(Windows Server Failover Cluster,简称 ...

  7. 全国出现大面积DNS服务器故障 域名被劫持

    1月21日消息,继今日上午腾讯16项服务出现故障后,大量网站出现了无法访问的情况,据了解,该故障是由于国内DNS根服务器故障所致. 据了解,此次攻击式由于国内所有通用顶级域的根服务器出现异常,导致大量 ...

  8. 虚IP解决程序连只读服务器故障漂移

    目前公司有一套核心交易数据库配置了AlWaysON,SQL 2012版本, 1主4从, 其从库(8,14, 8.15) 这2台只读的从数据库服务器, 后台程序和wms等很多程序,都是直接配置IP连接这 ...

  9. Apache服务器故障排除攻略

    Apache服务器故障排除攻略 应用服务器Apache浏览器配置管理网络应用  随着网络技术的普及.应用和Web技术的不断完善,Web服务已经成为互联网上重要的服务形式之一.原有的客户端/服务器模式正 ...

随机推荐

  1. 在自己机器上实现apache的多域名

    自己机器上有3个目录,分别是/var/www/html/                             /var/www/solaris/                           ...

  2. 移动端开发 rem 案例

    <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...

  3. Django 查询集的过滤内置条件

    条件选取querySet的时候,filter表示=,exclude表示!=.querySet.distinct() 去重复__exact 精确等于 like 'aaa' __iexact 精确等于 忽 ...

  4. 【[POI2006]OKR-Periods of Words】

    很妙的一道题 感觉又加深了对\(KMP\)还有\(next\)数组的理解 先来看看这个鬼畜的题意,大致就是给你一个字符串,对于这个字符串的每一个前缀,要去找到这个前缀的一个最长的前缀,使得前缀成为这个 ...

  5. 理解JavaScript闭包(closure)

    闭包听了很多次了,可是到底有那些具体的用法还是不清楚,看了<JavaScript高级程序设计>,有点明白了. 1.闭包的定义: 闭包其实就是一个函数,而这个函数有点特别,它能够访问另一个函 ...

  6. 【转】理解Callable 和 Spring DeferredResult

    http://www.cnblogs.com/aheizi/p/5659030.html 1-介绍 Servlet 3中的异步支持为在另一个线程中处理HTTP请求提供了可能性.当有一个长时间运行的任务 ...

  7. inode的理解

    迫于需要理解sock_init()中的init_inodecache,所以稍微学习了一下inode. 一.inode的定义 文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sec ...

  8. C# 文件流FileStream 实现多媒体文件复制 StreamReader StreamWriter 读取写入文本

    #region 实现多媒体文件的复制 string source = @"F:\123\source.avi";//源文件路径 string target = @"F:\ ...

  9. MacBook常用快捷键

    MacBook常用快捷键: 1. 窗口操作: cmd+n 新建一个窗口/文件. cmd+m 窗口最小化. cmd+w 关闭当前窗口/文件. 2. 程序操作: cmd+q 退出当前程序,后台不运行该程序 ...

  10. NSMutableArray和NSArray的常用方法及相互转换

    NSMutableArray和NSArray的常用方法及相互转换 // NSArray --> NSMutableArray NSMutableArray *myMutableArray = [ ...