N3K异常重启(案例)
在实际的情况下,有时候会遇到设备无故重启的问题,这个时候,我们需要判断一下重启的根本原因是什么,是否有规避的方法等。
这里记录了几个N3K异常重启的问题。
案例1:
设备型号:N3K-C3048TP-1GE
OS版本:6.0(2)U4(4)
阶段1:采集信息。我们需要采集的信息如下:
1、收集core文件
N3K# show core
2、收集tech文件
#tac-pac bootflash:
如此会在bootflash自动创建一个名为“show_tech_out.gz”的文件,然后可以通过ftp或者tftp方式导出
阶段2:分析(这里是一个故障的实例)
========
问题描述
========
N3K unexpectedly reboot in 2016 Dec 10 08:23
2016 Dec 10 08:23:20.318 N3K-01 %$ VDC-1 %$
%SYSMGR-2-SERVICE_CRASHED: Service "bcm_usd" (PID 3257) hasn't caught
signal 6 (core will be saved).
2016 Dec 10 08:23:20.336
N3K-01 %$ VDC-1 %$ %SYSMGR-2-HAP_FAILURE_SUP_RESET:
System reset due to service "bcm_usd" in vdc 1 has had a hap failure
========
分析过程
========
1. 重启原因
`show system reset-reason`
----- reset reason for Supervisor-module 1 (from Supervisor in slot 1) ---
1) At 948672 usecs after Thu Dec 10 08:23 2016
Reason: Reset triggered due to HA policy of Reset
Service: bcm_usd hap reset
Version: 6.0(2)U1(2)
2. 启动前后
Software
BIOS: version 1.2.0
loader: version N/A
kickstart: version 6.0(2)U4(4)
system: version 6.0(2)U4(4)
Power Sequencer Firmware:
Module 1: version v4.4
BIOS compile time: 08/22/2014
kickstart image file is: bootflash:///n3000-uk9-kickstart.6.0.2.U4.4.bin
kickstart compile time: 3/12/2015 0:00:00 [03/12/2015 17:34:09]
system image file is: bootflash:///n3000-uk9.6.0.2.U4.4.bin
system compile time: 3/12/2015 0:00:00 [03/12/2015 20:28:55]
Hardware
cisco Nexus 3048 Chassis ("48x1GE + 4x10G Supervisor")
Intel(R) Celeron(R) CPU P450 with 3665256 kB of memory.
Processor Board ID FOCXXXXXXXX
Device name: N3K-01
bootflash: 2007040 kB
Kernel uptime is 0 day(s), 08 hour(s), 37 minute(s), 21 second(s)
Last reset at 948672 usecs after Thu Dec 10 08:23 2016
Reason: Reset triggered due to HA policy of Reset
System version: 6.0(2)U1(2)
Service: bcm_usd hap reset
我们可以看到系统重置是由bcm_usd hap重置引起的。 如果可以解码core文件,我们可以发现6.0(2)U1(2)这个版本也命中bug,bug ID:CSCuo88390(Nexus 3k bcm_usd crash after parity error)的错误。 从show version,我们看到当前版本是6.0.2.U4.4,这是修复了bug的版本。
bug的详细信息如下:
Nexus 3000 switch may reboot unexpectedly. Last reset reason is recorded as 'bcm_usd hap reset'.
`show system reset-reason`
----- reset reason for Supervisor-module 1 (from Supervisor in slot 1) ---
1) At 369448 usecs after Tue May 6 16:49:37 2014
Reason: Reset triggered due to HA policy of Reset
Service: bcm_usd hap reset
Version: 6.0(2)U1(1a)
Conditions:
The crash occurs while recovering from a parity error. This bug will not be seen if a parity error does not occur first.
Workaround:
Not known at this time.
Further Problem Description:
=======
建议
=======
如果该错误在短时间内持续发生,建议直接更换设备,该错误可能是由于硬件导致,如观察段时间内并未发生,则可以忽略这个问题。
案例2:
1、采集信息
采集的信息还是和案例1中一直,查看core文件,采集tech文件
2、分析
异常log如下:
2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %BCM_USD-2-BCM_USD_NOTIFICATION_IMP: FAST REBOOT DISABLED
2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %USER-2-SYSTEM_MSG: CLIS: loading cmd files begin - clis
2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %USER-2-SYSTEM_MSG: CLIS: loading cmd files end - clis
2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %USER-2-SYSTEM_MSG: CLIS: init begin - clis
2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %USER-0-SYSTEM_MSG: Starting bcm_attach - bcm_usd
2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %USER-0-SYSTEM_MSG: Finished bcm_attach... - bcm_usd
2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %VDC_MGR-2-VDC_ONLINE: vdc 1 has come online
2016 Dec 11 01:23:18.782 N3K-01 %$ VDC-1 %$ %ETHPC-2-PORTS_UP:
其次,从show core中没有看到有core文件
再看重启原因:
`show system reset-reason`
----- reset reason for Supervisor-module 1 (from Supervisor in slot 1) ---
1) No time
Reason: Unknown
Service:
Version: 6.0(2)U4(4)
2) No time
Reason: Unknown
Service:
Version: 6.0(2)U4(4)
3) No time
Reason: Unknown
Service:
Version: 6.0(2)U4(4)
Mon Dec 11 01:23:18 2016: Card Uptime Record
----------------------------------------------
Uptime: 28938, 0 days 6 hour(s) 3 minute(s) 12 second(s)
Reset Reason: Unknown (0)
Reset Reason SW: Unknown (0)
Reset Reason (HW): Unknown
Card Mode..........................: Runtime
这个问题很可能是和PSU(Power Supply Unit)的的关系,超出规定范围的电源电压值,可能是电源相关程序触发设备重启,以防止进一步的损坏。“Unknown”的重置原因表面设备由于电源序列发生器组件重新加载:由于电源不足或PSU出现问题。
可以看到,目前设备的PS2没有up.
Power Supply:
Voltage: 12 Volts
-----------------------------------------------------------
PS Model Input Power Current Status Type (Watts) (Amps)
-----------------------------------------------------------
1 N2200-PAC-400W-B AC 396.00 33.00 ok
2 -- -- -- -- fail/not-powered-up
由此,这个重启问题可能是由于电源硬件问题引起的。建议检查外部电源是否有问题,是否有其他的设备和该N3K连接相同的PDU,还可以检查次设备日志,来判断当时是否有电源问题。如果没有外源的问题,那建议更换电源。
案例3:
1、采集信息:
采集的信息和案例1,2中提到的一样。
2、分析:
2.1 先检查logging,观察FAN,PS是否log报错。
2.2 设备重启原因是 I2C bus 拥塞,导致设备认为 FAN 被拔出,这种应该不是硬件问题。 I2C 通道负责在主板、电源、风扇、SFP 等之间的通信;如果 I2C 通道拥堵,可能导致设备不能正确读取 FAN 状态。
%KERN-2-SYSTEM_MSG: [23949956.295550] clk_flush: Couldn't Clear Bus – kernel << I2C bus 拥塞
CST: %PFMA-0-SYS_SHUTDOWN_FAN_REMOVAL: System shutdown in 120 seconds due to fan missing or failed
CST: %NOHMS-2-NOHMS_ENV_ERR_FAN_READ: System minor alarm in fan tray 1: failed to read TACH << 风扇读取失败
Wed Oct 10 15:10:38 2018: Card Uptime Record
----------------------------------------------
Uptime: 3674, 0 days 1 hour(s) 1 minute(s) 14 second(s)
Reset Reason: Unknown (0)
Reset Reason SW: Powered-down due to fan policy trigger (104)
Reset Reason (HW): Unknown
Card Mode..........................: Runtime
N3K 重启,启动以后,风扇和电源状态都正常:
Fan:
------------------------------------------------------
Fan Model Hw Status
------------------------------------------------------
Fan-1 NXA-FAN-30CFM-B -- ok
Fan-2 NXA-FAN-30CFM-B -- ok
Fan-3 NXA-FAN-30CFM-B -- ok
Fan-4 NXA-FAN-30CFM-B -- ok
PS-1 N2200-PAC-400W-B -- ok
PS-2 N2200-PAC-400W-B -- ok
Power Supply:
Voltage: 12 Volts
-----------------------------------------------------------
PS Model Input Power Current Status Type (Watts) (Amps)
-----------------------------------------------------------
1 N2200-PAC-400W-B AC 396.00 33.00 ok
2 N2200-PAC-400W-B AC 396.00 33.00 ok
建议:无已知的 bug匹配,建议升级推荐版本。如果再次遇到同样问题,可以更换机箱。
https://www.cisco.com/c/en/us/td/docs/switches/datacenter/nexus3000/sw/recommended_release/b_Minimum_and_Recommended_Cisco_NX-OS_Releases_for_Cisco_Nexus_3000_Series_Switches.html
其他log分析:N3K 重启之前,有一些其他 kernel 和电源相关的 log,是显示性问题,实际上没有影响
%KERN-3-SYSTEM_MSG: [23949949.272393] PFM: Error while trying to service 0x2aa, err=-14 - kernel
https://bst.cloudapps.cisco.com/bugsearch/bug/CSCur58188/?reffering_site=dumpcr
CST: %PFMA-2-PS_FAIL: Power supply 1 failed or shutdown (Serial number DCA00000000)
CST: %NOHMS-2-NOHMS_DIAG_ERR_PS_FAIL: System minor alarm on power supply 2: failed or not powered up
https://bst.cloudapps.cisco.com/bugsearch/bug/CSCva03834/?reffering_site=dumpcr
https://bst.cloudapps.cisco.com/bugsearch/bug/CSCux99539/?reffering_site=dumpcr
设备一直报错:
%$ VDC-1 %$ Oct 10 19:36:06 %KERN-2-SYSTEM_MSG: [ 5375.470604] clk_flush: Couldn't Clear Bus - kernel
最终该问题摘要:
1、有两台N3K,当重启Device2时,Device1无法转发信息,当Device2恢复后,一切正常了。
2、Device2重启时异常:流量从一个接口进来,但是没有从对应的接口出去。在冲Device1之后,问题得到解决。
3、建议:目前使用的6.0(2)A6(1a)版本太低,建议升级
https://www.cisco.com/c/en/us/td/docs/switches/datacenter/nexus3000/sw/recommended_release/b_Minimum_and_Recommended_Cisco_NX-OS_Releases_for_Cisco_Nexus_3000_Series_Switches.html?dtid=osscdc000283
N3K异常重启(案例)的更多相关文章
- 阿里云ECS(linux)磁盘满触发的mysql的表异常修复案例
阿里云ECS(linux)磁盘满触发的mysql的表异常修复案例 阿里云技术支持:完颜镇江 问题现象: 磁盘空间满了,第一想到的就是删除无用的服务日志或者升级数据盘. 通常是使用du –sh去分析目录 ...
- 解决Kubernetes 1.7.3 kube-apiserver频繁异常重启的问题(转)
原文的帖子无法访问,我只能粘贴内容 近期将之前的一个用Kubernetes 1.3.7的环境更换为最新发布的用kubeadm安装的Kubernetes 1.6.4 Dashboard无法访问的问题&g ...
- windows server 2008 如何查看异常重启日志
下面蓝队网络为大家介绍下windows server 2008 如何查看异常重启日志 开始->管理工具->时间查看器 windows日志->系统 筛选当前日志 选择Kernel-Po ...
- Linux由于物理节点故障导致的异常重启-Case1
问题描述:Linux VM异常重启,需要排查问题原因 排查结果: 查询Messages日志获取到的信息 虚拟机内核版本: Jun :: test01 kernel: Linux version -.e ...
- SQL SERVER 2014 Agent服务异常停止案例
生产环境一数据库服务器(SQL Server 2014)的Agent服务突然停掉了,检查了错误日志,发现在"SQL Server Agent"里面没有"SQLServer ...
- 记录一则ASM实例阻塞,rbal进程异常的案例
1.故障现象描述 2.确认故障现象 3.排查ASM层面 4.解决问题 1.故障现象描述 环境:AIX 7.1 + Standalone Oracle 11.2.0.4 现象:客户反映某11g版本的AD ...
- 避免docker异常重启容器挂掉的解决方法
Docker 升级或者重启容器不会被停掉然后重启的解决方法 在/etc/systemd/system/multi-user.target.wants/docker.service文件下添加配置 注意: ...
- springboot全局异常封装案例
@ControllerAdvice三个场景:>https://www.cnblogs.com/lenve/p/10748453.html 全局异常处理 全局数据绑定 全局数据预处理 首先定义一个 ...
- eclipse运行tomcat中发生异常重启后tomcat端口被占用
在任务管理器关闭javaw进程即可,一般此时会有两个以上javaw进程,关闭其中占用内存较少的那个 可用netstat -ano命令查看端口占用情况
随机推荐
- 我的reshape观
reshape(1,2)把结果分成1块,每一块2个元素 reshape(2,1)把结果分成2块,每一块1个元素 reshape(-1,1)把结果分成任意块,每一块1个元素 reshape(1,-1)把 ...
- 计算几何-Ang-Rad-Vector
This article is made by Jason-Cow.Welcome to reprint.But please post the article's address. 旋转,跳跃,梦境 ...
- 减轻集群负载、三种k8s 替代openstack的解决方案
减轻集群负载.三种k8s 替代openstack的解决方案 待办 https://news.ycombinator.com/item?id=17013779 kubevirt https://host ...
- 线段树 区间查询区间修改 poj 3468
#include<cstdio> #include<iostream> #include<algorithm> #include<string.h> u ...
- 利用数据库管理工具(Navicat)导出数据到Excel表中
如果只是想把数据库表中数据简单导出来,可以利用数据库管理工具中的工具 1.先查询 2.在查询出结果中全选 3.导出向导 4.选择Excel 5.选择导出地址并命名
- maven 配置 阿里云仓库
随便记录下,以后方便查询 <mirror> <id>nexus-aliyun</id> <mirrorOf>*</mirrorOf> < ...
- VMware克隆centos后需要进行修改配置的地方
1. 首先在VMware中通过复制现在状态的虚拟机或者快照形式的虚拟机,选择完整复制文件进行克隆. 2.打开克隆的虚拟机之后,需要修改主机名和相应的hosts表 2.1 修改主机名 输入 vi /e ...
- ILM --interface logic model
1.描述接口逻辑的模型. 2.包括 netlist spef sdc def 3.所有以上文件只描述和接口相关的逻辑,其他逻辑一概排除 3.用于STA/PR/DC的hierachical flow, ...
- 理解ASP.NET Core验证模型 Claim, ClaimsIdentity, ClaimsPrincipal
Claim, ClaimsIdentity, ClaimsPrincipal: Claim:姓名:xxx,领证日期:xxx ClaimsIdentity:身份证/驾照 ClaimsPrincipal: ...
- argparse 模块使用
import argparse,os data_func=["upload","download"]req_func=["getfunc", ...