N3K异常重启（案例）

在实际的情况下，有时候会遇到设备无故重启的问题，这个时候，我们需要判断一下重启的根本原因是什么，是否有规避的方法等。

这里记录了几个N3K异常重启的问题。

案例1：

设备型号：N3K-C3048TP-1GE

OS版本：6.0(2)U4(4)

阶段1：采集信息。我们需要采集的信息如下：

1、收集core文件

N3K# show core

2、收集tech文件

#tac-pac bootflash:

如此会在bootflash自动创建一个名为“show_tech_out.gz”的文件，然后可以通过ftp或者tftp方式导出

阶段2：分析（这里是一个故障的实例）

========

问题描述

========

N3K unexpectedly reboot in 2016 Dec 10 08:23

2016 Dec 10 08:23:20.318 N3K-01 %$ VDC-1 %$
%SYSMGR-2-SERVICE_CRASHED: Service "bcm_usd" (PID 3257) hasn't caught
signal 6 (core will be saved).
2016 Dec 10 08:23:20.336
N3K-01 %$ VDC-1 %$ %SYSMGR-2-HAP_FAILURE_SUP_RESET:
System reset due to service "bcm_usd" in vdc 1 has had a hap failure

========

分析过程

========

1. 重启原因
`show system reset-reason`
----- reset reason for Supervisor-module 1 (from Supervisor in slot 1) ---
1) At 948672 usecs after Thu Dec 10 08:23 2016
    Reason: Reset triggered due to HA policy of Reset
    Service: bcm_usd hap reset
    Version: 6.0(2)U1(2)

2. 启动前后
Software
  BIOS:      version 1.2.0
  loader:    version N/A
  kickstart: version 6.0(2)U4(4)
  system:    version 6.0(2)U4(4)
  Power Sequencer Firmware:
             Module 1: version v4.4
  BIOS compile time:       08/22/2014
  kickstart image file is: bootflash:///n3000-uk9-kickstart.6.0.2.U4.4.bin
  kickstart compile time:  3/12/2015 0:00:00 [03/12/2015 17:34:09]
  system image file is:    bootflash:///n3000-uk9.6.0.2.U4.4.bin
  system compile time:     3/12/2015 0:00:00 [03/12/2015 20:28:55]

Hardware
  cisco Nexus 3048 Chassis ("48x1GE + 4x10G Supervisor")
  Intel(R) Celeron(R) CPU        P450 with 3665256 kB of memory.
  Processor Board ID FOCXXXXXXXX

Device name: N3K-01
bootflash: 2007040 kB

Kernel uptime is 0 day(s), 08 hour(s), 37 minute(s), 21 second(s)

Last reset at 948672 usecs after Thu Dec 10 08:23 2016

Reason: Reset triggered due to HA policy of Reset
System version: 6.0(2)U1(2)
Service: bcm_usd hap reset

我们可以看到系统重置是由bcm_usd hap重置引起的。如果可以解码core文件，我们可以发现6.0（2）U1（2）这个版本也命中bug，bug ID：CSCuo88390（Nexus 3k bcm_usd crash after parity error）的错误。从show version，我们看到当前版本是6.0.2.U4.4，这是修复了bug的版本。

bug的详细信息如下：

Nexus 3k bcm_usd crash after parity error

CSCuo88390

Description

Symptom:
Nexus 3000 switch may reboot unexpectedly. Last reset reason is recorded as 'bcm_usd hap reset'.

`show system reset-reason`
----- reset reason for Supervisor-module 1 (from Supervisor in slot 1) ---
1) At 369448 usecs after Tue May 6 16:49:37 2014
Reason: Reset triggered due to HA policy of Reset
Service: bcm_usd hap reset
Version: 6.0(2)U1(1a)

Conditions:
The crash occurs while recovering from a parity error. This bug will not be seen if a parity error does not occur first.

Workaround:
Not known at this time.

Further Problem Description:

=======

建议

=======

如果该错误在短时间内持续发生，建议直接更换设备，该错误可能是由于硬件导致，如观察段时间内并未发生，则可以忽略这个问题。

案例2：

1、采集信息

采集的信息还是和案例1中一直，查看core文件，采集tech文件

2、分析

异常log如下：

2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %BCM_USD-2-BCM_USD_NOTIFICATION_IMP: FAST REBOOT DISABLED

2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %USER-2-SYSTEM_MSG: CLIS: loading cmd files begin - clis

2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %USER-2-SYSTEM_MSG: CLIS: loading cmd files end - clis

2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %USER-2-SYSTEM_MSG: CLIS: init begin - clis

2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %USER-0-SYSTEM_MSG: Starting bcm_attach - bcm_usd

2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %USER-0-SYSTEM_MSG: Finished bcm_attach... - bcm_usd

2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %VDC_MGR-2-VDC_ONLINE: vdc 1 has come online

2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %ETHPC-2-PORTS_UP:

其次，从show core中没有看到有core文件

再看重启原因：

`show system reset-reason`

----- reset reason for Supervisor-module 1 (from Supervisor in slot 1) ---

1) No time

Reason: Unknown

Service:

Version: 6.0(2)U4(4)

2) No time

Reason: Unknown

Service:

Version: 6.0(2)U4(4)

3) No time

Reason: Unknown

Service:

Version: 6.0(2)U4(4)

Mon Dec 11 01:23:18 2016: Card Uptime Record

----------------------------------------------

Uptime: 28938, 0 days 6 hour(s) 3 minute(s) 12 second(s)

Reset Reason: Unknown (0)

Reset Reason SW: Unknown (0)

Reset Reason (HW): Unknown

Card Mode..........................: Runtime

这个问题很可能是和PSU（Power Supply Unit）的的关系，超出规定范围的电源电压值，可能是电源相关程序触发设备重启，以防止进一步的损坏。“Unknown”的重置原因表面设备由于电源序列发生器组件重新加载：由于电源不足或PSU出现问题。

可以看到，目前设备的PS2没有up.

Power Supply:

Voltage: 12 Volts

-----------------------------------------------------------

PS Model Input Power Current Status Type (Watts) (Amps)

-----------------------------------------------------------

1 N2200-PAC-400W-B AC 396.00 33.00 ok

2 -- -- -- -- fail/not-powered-up

由此，这个重启问题可能是由于电源硬件问题引起的。建议检查外部电源是否有问题，是否有其他的设备和该N3K连接相同的PDU，还可以检查次设备日志，来判断当时是否有电源问题。如果没有外源的问题，那建议更换电源。

案例3：

1、采集信息：

采集的信息和案例1,2中提到的一样。

2、分析：

2.1 先检查logging，观察FAN，PS是否log报错。

2.2 设备重启原因是 I2C bus 拥塞，导致设备认为 FAN 被拔出，这种应该不是硬件问题。 I2C 通道负责在主板、电源、风扇、SFP 等之间的通信；如果 I2C 通道拥堵，可能导致设备不能正确读取 FAN 状态。

%KERN-2-SYSTEM_MSG: [23949956.295550] clk_flush: Couldn't Clear Bus – kernel << I2C bus 拥塞

CST: %PFMA-0-SYS_SHUTDOWN_FAN_REMOVAL: System shutdown in 120 seconds due to fan missing or failed

CST: %NOHMS-2-NOHMS_ENV_ERR_FAN_READ: System minor alarm in fan tray 1: failed to read TACH << 风扇读取失败

Wed Oct 10 15:10:38 2018: Card Uptime Record

----------------------------------------------

Uptime: 3674, 0 days 1 hour(s) 1 minute(s) 14 second(s)

Reset Reason: Unknown (0)

Reset Reason SW: Powered-down due to fan policy trigger (104)

Reset Reason (HW): Unknown

Card Mode..........................: Runtime

N3K 重启，启动以后，风扇和电源状态都正常：

Fan:

------------------------------------------------------

Fan Model Hw Status

------------------------------------------------------

Fan-1 NXA-FAN-30CFM-B -- ok

Fan-2 NXA-FAN-30CFM-B -- ok

Fan-3 NXA-FAN-30CFM-B -- ok

Fan-4 NXA-FAN-30CFM-B -- ok

PS-1 N2200-PAC-400W-B -- ok

PS-2 N2200-PAC-400W-B -- ok

Power Supply:

Voltage: 12 Volts

-----------------------------------------------------------

PS Model Input Power Current Status Type (Watts) (Amps)

-----------------------------------------------------------

1 N2200-PAC-400W-B AC 396.00 33.00 ok

2 N2200-PAC-400W-B AC 396.00 33.00 ok

建议：无已知的 bug匹配，建议升级推荐版本。如果再次遇到同样问题，可以更换机箱。

https://www.cisco.com/c/en/us/td/docs/switches/datacenter/nexus3000/sw/recommended_release/b_Minimum_and_Recommended_Cisco_NX-OS_Releases_for_Cisco_Nexus_3000_Series_Switches.html

其他log分析：N3K 重启之前，有一些其他 kernel 和电源相关的 log，是显示性问题，实际上没有影响

%KERN-3-SYSTEM_MSG: [23949949.272393] PFM: Error while trying to service 0x2aa, err=-14 - kernel

https://bst.cloudapps.cisco.com/bugsearch/bug/CSCur58188/?reffering_site=dumpcr

CST: %PFMA-2-PS_FAIL: Power supply 1 failed or shutdown (Serial number DCA00000000)

CST: %NOHMS-2-NOHMS_DIAG_ERR_PS_FAIL: System minor alarm on power supply 2: failed or not powered up

https://bst.cloudapps.cisco.com/bugsearch/bug/CSCva03834/?reffering_site=dumpcr

https://bst.cloudapps.cisco.com/bugsearch/bug/CSCux99539/?reffering_site=dumpcr

设备一直报错：

%$ VDC-1 %$ Oct 10 19:36:06 %KERN-2-SYSTEM_MSG: [ 5375.470604] clk_flush: Couldn't Clear Bus - kernel

最终该问题摘要：

1、有两台N3K,当重启Device2时，Device1无法转发信息，当Device2恢复后，一切正常了。

2、Device2重启时异常：流量从一个接口进来，但是没有从对应的接口出去。在冲Device1之后，问题得到解决。

3、建议：目前使用的6.0(2)A6(1a)版本太低，建议升级

https://www.cisco.com/c/en/us/td/docs/switches/datacenter/nexus3000/sw/recommended_release/b_Minimum_and_Recommended_Cisco_NX-OS_Releases_for_Cisco_Nexus_3000_Series_Switches.html?dtid=osscdc000283

N3K异常重启（案例）的更多相关文章

阿里云ECS（linux）磁盘满触发的mysql的表异常修复案例
阿里云ECS(linux)磁盘满触发的mysql的表异常修复案例阿里云技术支持:完颜镇江问题现象: 磁盘空间满了,第一想到的就是删除无用的服务日志或者升级数据盘. 通常是使用du –sh去分析目录 ...
解决Kubernetes 1.7.3 kube-apiserver频繁异常重启的问题(转)
原文的帖子无法访问,我只能粘贴内容近期将之前的一个用Kubernetes 1.3.7的环境更换为最新发布的用kubeadm安装的Kubernetes 1.6.4 Dashboard无法访问的问题&g ...
windows server 2008 如何查看异常重启日志
下面蓝队网络为大家介绍下windows server 2008 如何查看异常重启日志开始->管理工具->时间查看器 windows日志->系统筛选当前日志选择Kernel-Po ...
Linux由于物理节点故障导致的异常重启-Case1
问题描述:Linux VM异常重启,需要排查问题原因排查结果: 查询Messages日志获取到的信息虚拟机内核版本: Jun :: test01 kernel: Linux version -.e ...
SQL SERVER 2014 Agent服务异常停止案例
生产环境一数据库服务器(SQL Server 2014)的Agent服务突然停掉了,检查了错误日志,发现在"SQL Server Agent"里面没有"SQLServer ...
记录一则ASM实例阻塞，rbal进程异常的案例
1.故障现象描述 2.确认故障现象 3.排查ASM层面 4.解决问题 1.故障现象描述环境:AIX 7.1 + Standalone Oracle 11.2.0.4 现象:客户反映某11g版本的AD ...
避免docker异常重启容器挂掉的解决方法
Docker 升级或者重启容器不会被停掉然后重启的解决方法在/etc/systemd/system/multi-user.target.wants/docker.service文件下添加配置注意: ...
springboot全局异常封装案例
@ControllerAdvice三个场景:>https://www.cnblogs.com/lenve/p/10748453.html 全局异常处理全局数据绑定全局数据预处理首先定义一个 ...
eclipse运行tomcat中发生异常重启后tomcat端口被占用
在任务管理器关闭javaw进程即可,一般此时会有两个以上javaw进程,关闭其中占用内存较少的那个可用netstat -ano命令查看端口占用情况

随机推荐

Linux - Shell - find - 基础
概述 find 基础背景查找文件人的记忆能力, 是有限的计算机里的文件数量, 虽然不是无限, 但是也不少要去找那些记不清楚的文件, 必然要用查找准备 OS centos7 用户 root ...
jumpserver 常见错误解决
官方链接:https://jumpserver.readthedocs.io/zh/master/faq_install.html 重启jumpserver后台 #cd /opt#python3.6 ...
EAC3 Adaptive Hybrid Transform (AHT)
adaptive hybrid transform 由两个linear transforms级联组成. 第一个transform为MDCT,MDCT使用KBD window产生256个transfor ...
杭电oj初体验之 Code
PLA算法: https://blog.csdn.net/red_stone1/article/details/70866527 The problem: Analysis: 题目链接可见:https ...
十大常见web漏洞及防范
十大常见web漏洞一.SQL注入漏洞 SQL注入攻击(SQL Injection),简称注入攻击.SQL注入,被广泛用于非法获取网站控制权,是发生在应用程序的数据库层上的安全漏洞.在设计程序,忽略了 ...
Docker - Deepin中docker不能启动容器，-d也无效
问题重现 1. 搭建mysql docker run -p 3306:3306 --name docker-mysql-5.7 -v $PWD/conf:/etc/mysql/conf.d -v $P ...
DataGridView编辑后立即更新到数据库的两种方法
DataGridView控件是微软预先写好的一个显示数据的控件,功能非常强大,可以显示来自数据库表的数据和XML等其他来源的数据. 方法一:基于DataAdapter对象创建一个CommandBuli ...
python 网页中文显示Unicode码
print repr(a).decode("unicode–escape") 注:a是要输出的结果,
快递查询API
https://market.aliyun.com/products/56928004/cmapi014394.html#sku=yuncode839400000
Java - Test - TestNG: testng.xml 简介
1. 概述简介 testng.xml 中的格式, 元素 2. 背景 testng.xml 概述测试套件的配置文件问题一下生成了那么多内容我有点看不懂一上来就看不懂, 其实很正常, 慢慢说 ...

N3K异常重启（案例）

N3K异常重启（案例）的更多相关文章

随机推荐

热门专题