簡介
本檔案將討論Catalyst 6500機箱中模組的線上插入和移除(OIR)的最佳實踐和檢查。這些步驟對於避免損壞Catalyst 6500機箱背板和模組非常有用。
OIR對模組/機箱損壞的影響
損壞的模組可能導致機箱底板損壞,反之亦然。錯誤的儲存、處理和運送方法導致模組底板接頭損壞可能導致機箱底板損壞。機箱底板損壞後,該損壞將導致插入該插槽的後續模組損壞。將損壞的模組從第一機箱移至第二機箱會導致第二機箱損壞。
損壞的模組聯結器示例
損壞的機箱背板聯結器示例
檢查和插入程式
模組聯結器檢查
徹底檢查線卡背板介面聯結器是否有損壞或晶片未對齊。
機箱底板檢查
1)徹底檢查要安裝線卡的機箱底板線卡插槽。
2)檢查底板接頭針腳和防護板是否一致。在部分填充的機箱中,可能需要光源才能清晰地看到光源。
將線卡初始插入機箱
1)將模組滑入機箱,使其與系統底板接觸。
2)僅使用拇指按壓將線卡預插入背板插槽。
3)如果模組感覺卡住,並且不會預先插入,則可能會有導致損壞的障礙。插入前步驟應平滑且簡單。
附註:線卡應滑動通過機箱側面的卡導軌,且摩擦最小。
將線卡最終插入機箱
1)使用線卡邊緣上的噴射器/噴射器杆,通過將杆向面板中心移動來完全插入線卡。
2)通過擰緊線卡兩側的拇指螺釘將線卡固定到機箱中。線卡的面板應與機箱鈑金件齊平。
附註: 注射器槓桿提供克服配合聯結器的插入力(大於100磅力)的機械優勢。 如果施加到拉杆上的力感覺過大,則插入線卡 — 拉出線卡並重新檢查。
OIR期間的常見問題:交換匯流排停止
當執行OIR(線上插入和移除)時,在背板匯流排上生成停滯訊號以防止背板資料損壞。匯流排停滯可防止資料包傳輸到背板,這會在停滯期間導致流量中斷。
可以在三種不同條件下斷言匯流排停止:
— 線上插拔(OIR)
— 電源序列
— 交換模式更改(直通模式、截斷模式、精簡模式)。
以下是聯機插入和移除的示例,以及遇到匯流排停滯時會發生的情況。
聯機插入操作 — 正常
1)在插入卡之前,資料在背板上自由流動。
2)當線卡首先遇到最長引腳(顯示為綠色)時,為卡提供電源,但卡尚未通電。只有當所有針腳接觸時,卡才會通電。
3)當線卡遇到第二長的針腳(顯示為紅色)時,會在背板上放置一個停止訊號,以保護系統免受資料損壞的影響。
4)當線卡接觸到最短的引腳(顯示為藍色引腳)時,匯流排停止被移除,資料自由流動。
聯機刪除操作 — 正常
1)當線卡與最短的引腳(顯示為藍色引腳)完全接觸時,匯流排停止被移除,匯流排停止並不存在,資料自由流動。
2)拔出線卡時,接觸短接針丟失(顯示為藍色),在背板上放置一個失速訊號以保護系統免受資料損壞。卡已關閉。
3)當線卡丟失與第二個最長的引腳第一次接觸時(顯示為紅色),系統將會停止運行,資料流將會恢復。
4)卡失去與全部三個針腳的接觸。沒有影響。系統繼續自由地傳輸資料。
聯機插入 — 失敗條件
1)在插入卡之前,資料在背板上自由流動。
2)當線卡首先遇到最長引腳(顯示為綠色)時,為卡提供電源,但卡尚未通電。只有當所有針腳接觸時,卡才會通電。
3)當線卡遇到第二長的針腳(顯示為紅色)時,會在背板上放置一個停止訊號,以保護系統免受資料損壞的影響。
4)當線卡處於僅使用最長針和第二長針進行接觸的狀態時,系統仍然斷定停機,且系統崩潰。
將生成系統日誌消息以顯示匯流排停止的開始和結束。
%C6KERRDETECT-SP-4-SWBUSSTALL: The switching bus is experiencing stall for 3 seconds
%C6KERRDETECT-SP-4-SWBUSSTALL_RECOVERED: The switching bus stall is recovered and
data traffic switching continues.
用於進一步驗證的其他命令。
6500#remote command switch show nvlog
NVRAM log:
26. 02/28/2013 03:46:22: sp_error_detection_recover_sup:Supervisor detected
non-recoverable Switch BUS stall error
30. 01/28/2014 04:00:43: sp_error_detection_recover_sup:Supervisor detected
non-recoverable Switch BUS stall error
6500#remote command switch show fabric timeout
**** Timeout Error info.*****
Timeout Threshold: 1
Powercycle recovery enabled
Wait time for stall_wait: 3 sec.
Wait time for swbus_check: 3 sec.
Wait time for swbus_recheck: 3 sec.
Wait time for accept: 3 sec.
Wait time for debounce: 5 sec.
Wait time for throttle: 5 sec.
Time when Last stall was removed: 3w6d
I: The error received from the fabric was ignored
長時間的匯流排停頓可能會導致主管崩潰。發生這種情況時,您會看到與下面類似的日誌。
*May 28 18:25:34.515 PDT: %C6KERRDETECT-SP-4-SWBUSSTALL: The switching bus is
experiencing stall for 60 seconds
00:01:58: SP: -------------------------------------------------------------------------
00:01:58: SP: Supervisor Processor crashing due to unrecoverable switching bus stall
00:01:58: SP: There may be poorly inserted cards on the system
00:01:58: SP: And there is NO real clue which card is causing the switching bus stall
00:01:58: SP: -------------------------------------------------------------------------
%Software-forced reload
結論
請遵循上述最佳實踐,線上插入和刪除模組。檢查模組/機箱,如果損壞,請聯絡Cisco TAC檢視是否需要RMA。請勿插入發現損壞的線卡。