疑難排解NCS4016上的某些線路卡(LC)問題
簡介
本文描述如何在Cisco 4000系列網路融合系統(NCS4016)上排除線卡問題、線卡卡滯下的故障狀態、可能的原因和恢復操作。
背景資訊
NCS4016是16個LC(0-15個插槽)機箱,每個LC的容量為200G。下面是在NCS4016機箱上啟動LC時的一些基本事件序列。
- 將LC劃分為9個電源區,即0到8。所有這些電源區都由CCC(卡控制器晶片)控制。
- 第一個啟動的區域是區域0,它會啟動CPU複合體並啟動LC的基本邏輯。
- 區域0通電後。CCC在使CPU退出RESET狀態之前執行加電直譯器並配置基本裝置。(如果CPU斷電,它將保持重置狀態)。
- 以上是LC啟動期間執行的基本功能。區域1到8中是否有任何問題,只有相應的分割槽不能通電。但是,如果區域0中存在一些問題,則整個LC將斷電。
開始之前:
開始故障排除之前,建議記下以下命令。
- 連線(或登入)到sysadmin(Calvados)VM,因為無法引導的卡不會顯示在XR VM中,因此只能在sysadmin VM中看到失敗的狀態和原因。
- 只有具有CPU的卡才應該具有軟體狀態。否則狀態將為N/A(不適用),但其硬體應為「可操作」
使用所有LC和RP操作後,您應該能夠看到如下輸出。
sysadmin-vm:0_RP0# show platform
世界協調時2018年8月18日星期二19:57:02.631
位置卡型別硬體狀態軟體狀態配置狀態
----------------------------------------------------------------------------
0/0 NCS4K-2H-O-K操作性不適用NSHUT
0/5 NCS4K-24LR-O-S操作性不適用NSHUT
0/6 NCS4K-20T-O-S操作N/A NSHUT
0/8 NCS4K-2H-O-K操作性不適用NSHUT
0/RP0 NCS4K-RP操作性關閉
0/FC1 NCS4016-FC-M工作不停機無中斷
0/CI0 NCS4K-CRAFT OPERATIONAL N/A NSHUT
0/FT0 NCS4K-FTA操作失誤
0/FT1 NCS4K-FTA操作不適用非合格
0/PT0 NCS4K-AC-PEM操作性不適用NSHUT
0/PT1 NCS4K-AC-PEM操作性不適用NSHUT
0/EC0 NCS4K-ECU OPERATIONAL N/A NSHUT
sysadmin-vm:0_RP0#
以下是LC可能停滯的常見故障硬體和軟體狀態及其原因。
State-1:HW_FAILED
此狀態表明卡由於某些電源問題而無法啟動,或者CCC加電直譯器阻止完成加電順序。
建議的操作:
檢查以下命令的輸出。
# sysadmin-vm:0_RP1# show platform detail location <卡的位置>
在上述命令中查詢「Last Event」和「Last Event Reason:」,這將告訴我們失敗的原因。
sysadmin-vm:0_RP1# show platform detail location 0/fc1
世界協調時2004年7月4日星期六13時52分14秒782
0/FC1的平台資訊
PID: NCS4016-FC-M
說明: "NCS 4016不可知交叉連線 — 多機箱"
VID/SN: V01
HW Oper狀態: 操作
SW運行狀態: 不適用
組態: "NSHUT RST"
硬體版本: 1.0
最後一個事件: HW_EVENT_FAILURE
上次事件原因:"初始發現失敗EXIT0,開啟電源請求,但在啟動電源控制0x上未完成ccc00000001"
對於上述故障狀態,您還可以針對特定位置檢查CCC控制器的狀態。您應該檢查的是「SET」的電源區域的狀態。因為不同的LC使用不同的電源區進行啟動。
sysadmin-vm:0_RP0# show controller ccc power detail location 0/RP0
世界協調時2018年8月18日星期二18:33:30.245
電源詳細資訊:0/RP0的區域資訊:
---------------------------------------------------------
|電源區域 |電源狀態 |電源控制 |電源故障 |
---------------------------------------------------------
| 0 |確定 | SET |-- |
| 1 |確定 |-- |-- |
| 2 | OK | SET |-- |
| 3 |確定 |-- | — |
| 4 | OK | SET | — |
| 5 |-- |-- |-- |
| 6 |確定 |-- |-- |
| 7 |-- |-- |-- |
| 8 | 確定 | SET | — |
sysadmin-vm:0_RP0#
恢復操作:
- 嘗試通過執行下面的命令軟重置LC。
# sysadmin-vm:0_RP1# hw-module location <card位置>重新載入
- 如果軟重置不能幫助解決此問題,則應執行卡的物理聯機插入和刪除(OIR)。
狀態2:通電(_O)
LC上會顯示此狀態,LC的CPU較少,而NCS4k中的所有LC卡的CPU較少。
建議的操作:
sysadmin-vm:0_RP1# show platform
0/FC0 NC4K-FC工作不中斷連線
0/FC1 NC4K-FC POWERED_ON N/A NSHUT
0/FC2 NC4K-FC工作不中斷連線
在這種情況下,交換矩陣驅動程式將嘗試自行恢復該卡,但如果它在3分鐘內未能檢測到ASIC,則卡將進入POWERED_ON狀態。
檢查以下輸出,該輸出顯示機箱中的所有現有卡均已成功通電。
sysadmin-vm:0_RP0# show controller ccc power summary
世界協調時2018年8月18日星期二19:09:37.575
CCC電源摘要:
位置卡型別電源狀態
----------------------------------------------------------------
0/0 NCS4K-2H-O-K開啟
0/FC1 NCS4016-FC-M ON
0/5 NCS4K-24LR-O-S開啟
0/6 NCS4K-20T-O-S開啟
0/RP0 NCS4K-RP開啟
0/8 NCS4K-2H-O-K開啟
sysadmin-vm:0_RP0#
恢復操作:
- 如果任何LC/FC的state-2(POWERED_ON)持續存在,嘗試通過執行下面的命令來軟重置LC。
# sysadmin-vm:0_RP1# hw-module location <card位置>重新載入
- 如果軟重置不能幫助解決此問題,則應執行卡的物理OIR。
State-3:存在
這表示卡已被檢測到並且處於斷電狀態。當卡在配置中配置為斷電時,這可能是有效狀態。由於環境警報,卡可能已被強制關閉,CCC驅動程式在檢測卡時由於I2C故障而失敗。
建議的操作:
sysadmin-vm:0_RP1# show platform detail location <卡的位置>
在以上輸出中,請檢查「上次事件:」和「上次事件原因:」。
要確認報警,如果卡因任何報警條件而關閉,您也可以執行以下命令。下面顯示各卡位置的警報條件的輸出。
sysadmin-vm:0_RP0# show alarms
世界協調時2018年8月18日星期二18:03:35.421
-------------------------------------------------------------------------------
活動警報
-------------------------------------------------------------------------------
位置嚴重性組設定時間說明
-------------------------------------------------------------------------------
0/PT0-PM0主要環境錯誤05/22/70 04:56:45電源模組錯誤(PM_NO_INPUT_DETECTED)。
0/PT0-PM0主要環境05/22/70 04:56:45電源模組輸出已禁用(PM_OUTPUT_EN_PIN_HI)。
0/PT0-PM2主要環境05/22/70 04:56:45電源模組錯誤(PM_NO_INPUT_DETECTED)。
0/PT0-PM2主要環境05/22/70 04:56:45電源模組輸出已禁用(PM_OUTPUT_EN_PIN_HI)。
0/PT0-PM3主要環境05/22/70 04:56:45電源模組錯誤(PM_NO_INPUT_DETECTED)。
0/PT0-PM3主要環境05/22/70 04:56:45電源模組輸出已禁用(PM_OUTPUT_EN_PIN_HI)。
0/PT1-PM1主要環境05/22/70 04:56:45電源模組錯誤(PM_NO_INPUT_DETECTED)。
您也可以運行相同的命令來檢查卡的輸出。
sysadmin-vm:0_RP1# show alarms brief card location < location of card>
恢復操作:
- 請執行下面的命令,嘗試軟重置LC。
# sysadmin-vm:0_RP1# hw-module location <card位置>重新載入
- 如果軟重置對解決此問題沒有幫助,則應執行卡的物理OIR
State-4:未知
此狀態的最常見原因是CCC驅動程式無法從卡中讀取IDPROM,或者CCC驅動程式檢測到無法檢測到卡的IDPROM損壞。
sysadmin-vm:0_RP1# show platform
世界協調時2004年7月4日星期六15時27分50秒478
位置卡型別硬體狀態軟體狀態配置狀態
----------------------------------------------------------------------------
0/1 UNKNOWN POWERED_ON OPERATIONAL NSHUT
恢復操作:
- 請執行下面的命令,嘗試軟重置LC。
# sysadmin-vm:0_RP1# hw-module location <card位置>重新載入
- 如果軟重置對解決此問題沒有幫助,則應執行卡的物理OIR
- 如果物理OIR不起作用,則建議使用卡的RMA。
狀態5:SW_INACTIVE
請注意,卡要進入SW_INACTIVE狀態,它必須在硬體狀態下運行。卡進入此狀態的常見原因是主機作業系統無法訪問SSD。
建議的操作:
檢查卡是否具有控制乙太網連線。
sysadmin-vm:0_RP1# show controller switch reachable
世界協調時2004年7月4日星期六16時31分33秒690
機架卡交換機
--------------------
0 RP0 RP-SW
0 RP1 RP-SW
0 LC0 LC-SW
0 LC1 LC-SW
0 LC2 LC-SW
0 LC4 LC-SW
如果卡沒有控制乙太網連線,則執行以下命令檢查卡的乙太網協定狀態。協定的狀態應該是「活動」或「待機」,任何其他可見的狀態都表明連線問題。
sysadmin-vm:0_RP0# show controller switch mlap location 0/RP0/RP-SW
世界協調時2018年8月18日星期二18:08:22.343
機架卡交換機機架序列號
--------------------------------------
0 RP0 RP-SW SAL19058RDF
Phys管理協定轉發協定
埠狀態狀態狀態狀態型別連線到
--------------------------------------------------------------------------
0 Down Up Down — 內部LC15
1個向下並向上 — 內部LC7
2個上下 — 內部LC13
3上下 — 內部LC12
4向下並向上 — 內部LC14
5向下並向上 — 內部LC11
6上行主動轉發內部LC6
7 Up Up主動轉發內部LC5
8 Down Up Down — 內部LC1
9 Down Up Down — 內部LC4
10 Down Up Down — 內部LC3
11 Down Up Down — 內部LC10
16 Up Up Active Forwarding內部LC0
17 Up Up主動轉發內部LC8
26 Down Up Down — 內部LC2
27 Down Up Down — 內部LC9
32 Down Up Down — 內部主題SC(RP0 Ctrl)
33 Down Up Down — 內部主題SC(RP1 Ctrl)
36 Up Up Active Forwarding內部CCC(RP0 Ctrl)
37 Up Up Rem託管轉發內部CCC(RP1 Ctrl)
52 Down Up Down — 外部SFP+ 1
54 Down Up Down — 外部SFP+ 0
恢復操作:
如果您已確認埠已關閉,則還可以嘗試訪問卡CPU控制檯並檢查卡是否響應。訪問卡將拋出建議其進入SW_INACTIVE狀態的消息。
sysadmin-vm:0_RP1# attach location <卡的位置>
最後的選擇是重新映像卡。
#reimage_chassis -s <插槽id>,但在執行此步驟之前,請諮詢技術專家。
相關連結:
http://www.cisco.com/c/en/us/products/collateral/optical-networking/network-convergence-system-4000-series/data_sheet_c78-729222.html#
http://www.cisco.com/c/en/us/td/docs/routers/ncs4000/software/install/guide/b_sysadmin-ig-ncs4k/b_sysadmin-ig-ncs4k_chapter_010.html