简介
本文档讨论Catalyst 6500机箱中模块的在线插拔(OIR)的最佳实践和检查。这些步骤对避免损坏Catalyst 6500机箱背板和模块非常有用。
模块/机箱损坏时OIR的影响
损坏的模块可能损坏机箱背板,反之亦然。由于存储、处理和运输方法不当而损坏模块背板连接器可能导致机箱背板损坏。机箱背板损坏后,该损坏将损坏插入该插槽的后续模块。将损坏的模块从第一个机箱移动到第二个机箱可能导致第二个机箱损坏。
模块连接器损坏示例
机箱背板连接器损坏示例
检查和插入程序
模块连接器检查
彻底检查线卡背板接口连接器是否损坏或晶片未对准。
机箱底板检查
1)彻底检查将安装线卡的机箱底板线卡插槽。
2)寻找背板连接器引脚和屏蔽的均匀性。在部分填充的机箱中可能需要光源才能清楚地看到。
初始线卡插入机箱
1)将模块滑入机箱,使其与系统背板接触。
2)仅使用拇指的压力将线卡预插入(座位)背板插槽。
3)如果模块感到卡住,并且不会预插入,则可能存在会造成损坏的阻碍。预插入步骤应该感觉平稳而简单。
注意:线卡应以最小的摩擦滑过机箱两侧的卡导轨。
线卡最终插入机箱
1)使用线卡边缘的注射器/弹出器杆,通过将杆向面板中心移动来完全插入线卡。
2)拧紧线卡两侧的拇指螺钉,将线卡固定到机箱中。线卡的面板应与机箱金属板齐平。
注意: 注射器杆提供机械优势以克服匹配连接器的插入力(>100磅力)。 如果对锁杆施加的力过大,无法插入线卡 — 请拔出卡并重新检查。
OIR期间的常见问题:交换总线停机
当执行OIR(在线插拔)时,在背板总线上生成失速信号以防止背板数据损坏。总线停滞会防止数据包传输到背板,这会导致延迟期间的流量中断。
在以下三种不同条件下可断言总线失速:
— 在线插拔(OIR)
— 功率序列
— 交换模式更改(直通、截断、紧凑)。
以下是在线插拔示例,以及遇到总线停机时的情况。
在线插入操作 — 正常
1)在卡插入数据通过背板自由流动之前。
2)当线卡首先击中最长的引脚(显示为绿色)时,为卡提供电源,但卡尚未通电。只有当所有引脚都接触时,卡才会通电。
3)当线卡触到第二长引脚(以红色显示)时,将在背板上放置一个失速信号,以保护系统免受数据损坏。
4)当线卡接触最短引脚(显示为蓝色引脚)时,总线停止被移除,总线停止被移除,数据自由流动。
在线删除操作 — 正常
1)当线卡与最短引脚完全接触时(显示为蓝色引脚),总线停顿不存在,数据自由流动时,总线停顿被移除。
2)拔出线卡时,与短路的引脚丢失(以蓝色显示)接触,背板上会放置一个失速信号,以保护系统免受数据损坏。卡已关闭。
3)当线卡与第二长引脚(以红色显示)失去接触时,从系统中移除“停止”(Stall)并恢复数据流。
4)卡与所有三个引脚失去接触。没有影响。系统继续数据自由流动。
在线插入 — 故障情况
1)在卡插入数据通过背板自由流动之前。
2)当线卡首先击中最长的引脚(显示为绿色)时,为卡提供电源,但卡尚未通电。只有当所有引脚都接触时,卡才会通电。
3)当线卡触到第二长引脚(以红色显示)时,将在背板上放置一个失速信号,以保护系统免受数据损坏。
4)当线卡处于仅与最长和第二长引脚接触的状态时,会保持停止状态,并导致系统崩溃。
系统将生成系统日志消息以显示总线停机开始和结束。
%C6KERRDETECT-SP-4-SWBUSSTALL: The switching bus is experiencing stall for 3 seconds
%C6KERRDETECT-SP-4-SWBUSSTALL_RECOVERED: The switching bus stall is recovered and
data traffic switching continues.
用于进一步验证的其他命令。
6500#remote command switch show nvlog
NVRAM log:
26. 02/28/2013 03:46:22: sp_error_detection_recover_sup:Supervisor detected
non-recoverable Switch BUS stall error
30. 01/28/2014 04:00:43: sp_error_detection_recover_sup:Supervisor detected
non-recoverable Switch BUS stall error
6500#remote command switch show fabric timeout
**** Timeout Error info.*****
Timeout Threshold: 1
Powercycle recovery enabled
Wait time for stall_wait: 3 sec.
Wait time for swbus_check: 3 sec.
Wait time for swbus_recheck: 3 sec.
Wait time for accept: 3 sec.
Wait time for debounce: 5 sec.
Wait time for throttle: 5 sec.
Time when Last stall was removed: 3w6d
I: The error received from the fabric was ignored
总线停机时间过长可能导致主控引擎崩溃。发生此情况时,您将看到类似下面的日志。
*May 28 18:25:34.515 PDT: %C6KERRDETECT-SP-4-SWBUSSTALL: The switching bus is
experiencing stall for 60 seconds
00:01:58: SP: -------------------------------------------------------------------------
00:01:58: SP: Supervisor Processor crashing due to unrecoverable switching bus stall
00:01:58: SP: There may be poorly inserted cards on the system
00:01:58: SP: And there is NO real clue which card is causing the switching bus stall
00:01:58: SP: -------------------------------------------------------------------------
%Software-forced reload
结论
请遵循上述最佳实践,在线插拔模块。检查模块/机箱,如果损坏,请联系思科TAC,查看是否需要RMA。请勿插入发现损坏的线卡。