Questo documento illustra la procedura per risolvere e isolare una parte o un componente guasto di Cisco serie 12000 Internet Router dopo aver rilevato una serie di messaggi di errore di parità.
Nota: questo documento non descrive la causa degli errori di parità. Se si è interessati a una definizione più concisa degli errori di parità (noti anche come Single Event Upsets - SEU) e delle loro possibili cause, si consiglia di leggere i documenti collegati a Increment Network Availability.
Per ulteriori informazioni sulle convenzioni usate, consultare il documento Cisco sulle convenzioni nei suggerimenti tecnici.
Prima di procedere, si consiglia di leggere i seguenti documenti:
Le informazioni fornite in questo documento si basano sulle versioni software e hardware riportate di seguito.
Cisco serie 12000 Internet Router
Tutte le versioni del software Cisco IOS®
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
La maggior parte dei processori di routing e delle schede di linea dei router Internet Cisco serie 12000 include la funzionalità Error Code Correction (ECC). Esistono, tuttavia, alcune schede di linea sul campo che non dispongono della funzionalità ECC. La funzionalità ECC copre solo la RAM o la memoria SDRAM (Synchronous Dynamic RAM) presente sulle schede. Il resto non è protetto da ECC.
Di seguito viene riportato un confronto tra le funzionalità ECC per le schede di linea utilizzate con Cisco 12000:
Tutte le schede Engine 2 e versioni successive dispongono della funzionalità ECC.
Schede del motore 1 modificate in ECC dopo FCS.
Le schede del motore 0 non dispongono della funzionalità ECC.
Alcune schede possono essere aggiornate a prodotti simili che integrano la funzionalità ECC.
Nella tabella seguente sono elencati i prodotti dotati della funzionalità ECC:
Prodotti non ECC | Prodotti ECC |
---|---|
GRP(=) | GRP-B (=) |
GE-SX/LH-SC(=) | GE-GBIC-SC-B(=) |
GE-GBIC-SC-A(=) | GE-GBIC-SC-B(=) |
8FE-FX-SC(=) | 8FE-FX-SC-B(=) |
8FE-TX-RF45 (=) | 8FE-TX-RJ45-B(=) |
6DS3-SMB(=) | 6DS3-SMB-B(=) |
12DS3-SBM(=) | 12DS3-SMB-B(=) |
OC12/SRP-IR-SC(=) | OC12/SRP-IR-SC-B(=) |
OC12/SRP-MM-SC(=) | OC12/SRP-mm-SC-B(=) |
OC12/SRP-LR-SC(=) | OC12/SRP-LR-SC-B(=) |
Nota: -B ed ECC sono indipendenti. -B indica che il prodotto è una seconda revisione ordinabile della scheda. In alcuni casi si è trattato della revisione per l'ECC.
Cisco offre un Technology Migration Plan (TMP) che consente di aggiornare una scheda non ECC a una nuova scheda ECC. Verrà concesso un credito per l'acquisto della nuova scheda ECC in cambio della scheda non ECC.
Il diagramma di flusso seguente aiuta a determinare il componente Cisco serie 12000 Internet Router responsabile dei messaggi di errore Parity/Error Code Correction (ECC) sul Gigabit Route Processor (GRP).
Nota: acquisire e registrare l'output show tech-support e i log della console e raccogliere tutti i file crashinfo durante gli eventi di errore di parità/ECC.
Il diagramma di flusso seguente aiuta a determinare il componente di una scheda di linea del router Internet Cisco serie 12000 responsabile dei messaggi di errore Parity/Error Code Correction (ECC):
Nota: ogni volta che una scheda di linea rileva un errore di parità/ECC, raccogliere quante più informazioni possibili (per ulteriori informazioni, vedere Risoluzione dei problemi di arresto anomalo delle schede di linea sul router Internet Cisco serie 12000).
Cisco serie 12000 Internet Router recupera dagli errori di parità in altre memorie della scheda di linea (SDRAM e SRAM) senza crash.
I dati con parità errata possono essere segnalati da diversi dispositivi di controllo della parità per qualsiasi operazione di lettura o scrittura su Cisco serie 12000 Internet Router.
GRP-B e PRP utilizzano le funzioni Single Bit Error Correction e Multi-Bit Error Detection ECC per la memoria condivisa (SDRAM). L'errore di un singolo bit nella SDRAM viene corretto automaticamente e il sistema continua a funzionare normalmente.
PRP e GRP-B sono dotati del controller DRAM (Dynamic RAM) avanzato che supporta ECC. Pertanto, possono correggere gli errori a bit singolo e segnalare gli errori a bit multiplo. La correzione di un errore di bit singolo ha il seguente aspetto:
%Tiger-3-SBE: Single bit error detected and corrected at <address>
Gli SBE vengono corretti dal circuito di correzione degli errori e non influiscono sulla funzionalità di GRP-B o PRP. Non è richiesta alcuna azione per gli errori a bit singolo, a meno che non si verifichino di frequente. In tal caso, è consigliabile sostituire la scheda del processore.
Il rilevamento di un errore a più bit viene segnalato tramite un'eccezione di errore del bus o un'eccezione di errore di parità della cache della CPU.
Viene visualizzato un messaggio di errore di parità della memoria del processore se la CPU rileva un errore di parità durante l'accesso alla cache esterna del processore (L3 sul GRP) tramite il bus SysAD o una delle memorie cache interne della CPU (L1 o L2). La tabella 1 elenca alcuni esempi di messaggi che verrebbero stampati per ciascun tipo di errore di parità della cache:
Tabella 1. Percorso errore parità cache
Posizione dell'errore di parità | Messaggio di errore |
---|---|
Cache istruzioni L1 | Errore: Primario, instr cache, campi: dati |
Cache di dati L1 | Errore: Primario, cache di dati, campi: dati |
Cache istruzioni L2 | Errore: SysAD, cache istr, campi: dati |
Cache di dati L2 | Errore: SysAD, cache dati, campi: dati |
Cache istruzioni L3 | Errore: SysAD, cache istr, campi: 1° dword |
Cache di dati L3 | Errore: SysAD, cache dati, campi: 1° dword |
Esempio:
La prima riga del messaggio di errore indica la posizione dell'errore di parità e può corrispondere a qualsiasi posizione elencata nella Tabella 1. In questo esempio, la posizione è L3 Instruction Cache.
Error: SysAD, instr cache, fields: data, 1st dword Physical addr(21:3) 0x000000, virtual addr 0x6040BF60, vAddr(14:12) 0x3000 virtual address corresponds to main:text, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01 Low Data High Data Par Low Data High Data Par DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
L'output del comando show version deve essere simile al seguente:
...System was restarted by processor memory parity error at PC 0x602310D0, address 0x0 at 03:18:21 GMT Sun Oct 27 2002 ...
Dall'output show context, è possibile vedere che il sistema è stato riavviato da un'eccezione Parità cache:
Router#show context slot 11 CRASH INFO: Slot 11, Index 1, Crash at 19:08:07 CST Thu Nov 14 2002 VERSION: GS Software (GSR-P-M), Version 12.0(22)S1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) TAC Support: http://www.cisco.com/tac Compiled Mon 16-Sep-02 17:36 by nmasa Card Type: Route Processor, S/N LC uptime was 0 minutes. System exception: sig=20, code=0xE42F3E4B, context=0x52CF3D44 System restarted by a Cache Parity Exception STACK TRACE: -Traceback= 5020453C 500E5E24 5010E6DC 5015F89C 501E9F6C 501E9F58 ...
Sostituire GRP o PRP dopo un secondo errore.
Nell'output della console potrebbe essere visualizzato il seguente messaggio:
SEC 7: %GRP-3-PARITYERR: Parity error detected in the fabric buffers. Data (8)
Questo messaggio indica che è stato rilevato un errore di parità dall'hardware dell'interfaccia dell'infrastruttura sul GRP. Il numero esadecimale indica il vettore di interruzione dell'errore. Ciò indica in genere un problema hardware sul GRP che riporta l'errore (in questo caso, lo slot 7). Il GRP difettoso deve essere sostituito alla seconda occorrenza di un problema simile.
Questo messaggio di errore viene visualizzato quando il router riceve dati con parità non valida.
I dati con parità errata vengono segnalati da diversi dispositivi di controllo della parità per qualsiasi operazione di lettura o scrittura eseguita su Cisco serie 12000 Internet Router.
PRP utilizza la correzione degli errori a bit singolo e il rilevamento degli errori a bit multiplo ECC per condividere la memoria (SDRAM). L'errore di un singolo bit nella SDRAM viene corretto automaticamente e il sistema continua a funzionare normalmente.
Gli errori a bit singolo (SBE) vengono corretti dal circuito di correzione degli errori (ECC, Error Correction Circuit) e non influiscono sulla funzionalità di PRP. Per gli errori a bit singolo non è richiesta alcuna azione, a meno che non si verifichino di frequente.
Se l'errore si verifica frequentemente, si consiglia di sostituire la scheda del processore.
Errori SDRAM Single Bit Error-Correcting Code (ECC)
Un errore a bit singolo è un singolo bit di dati non corretto in una parola letta dalla memoria. Per gli SBE, l'errore può essere corretto senza interrompere le operazioni.
Vengono rilevati errori di bit singolo e presentati i dati corretti. Ad esempio, gli errori a bit singolo vengono segnalati come segue nel motore 4/4+:
SLOT 6:Jul 19 07:37:34: %TX192-3-SDRAM_SBE: Error=0x2 - DIMM1 Syndrome=0x7600 Addr=0xBEA09 Data bit80-Traceback= 401C8C9C 401C9508 401CDE08 401CDE40 4007F674 4009ED0C 4009ECF8
Gli SBE vengono corretti dal circuito di correzione degli errori e non influiscono sulla funzionalità della scheda di linea. Non è richiesta alcuna azione per gli errori a bit singolo, a meno che non si verifichino di frequente. In tal caso, si consiglia di sostituire la scheda di linea.
Errori SDRAM Multi-bit ECC
L'errore di più bit si verifica quando più bit non sono corretti nella stessa parola. Per gli MBE, viene rilevato l'errore e la scheda di linea si blocca. La presenza di SBE e MBE è molto rara.
Di seguito è riportato un esempio del messaggio stampato sulla console in risposta a un errore ECC multi-bit nella SDRAM:
SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_SBE: Error=0x808 - DIMM0 Syndrome=0x31000000 Addr=0x81034 Data bit120 -Traceback= 401C8C9C 401C9508 40450018 400BF7D4 SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_MBE: Error=0x808 - DIMM0 Syndrome=0x18000000 Addr=0x80834 -Traceback= 401C8D88 401C9508 40450018 400BF7D4
Gli MBE non possono essere corretti da ECC e causano il blocco della scheda di linea. La scheda di linea verrà quindi ricaricata e riattivata dal processore di routing.
La diagnostica sul campo può essere utilizzata per verificare la presenza di MBE nella memoria della scheda di linea. Gli MBE vengono rilevati dalla diagnostica dei campi come errori di memoria. Di seguito è riportato un esempio di scheda che ha riscontrato un errore multi-bit sulla SDRAM TX che non ha superato la diagnostica sul campo:
FDIAG_STAT_IN_PROGRESS(5): test #12 TX SDRAM Marching Pattern FD 5> RIM: FD 5> TX Registers FD 5> INT_CAUSE_REG = 0x00000680 FD 5> Unexpected L3FE Interrupt occured. FD 5> ERROR: TX BMA Asic Interrupt Occured FD 5> *** 0-INT: External Interrupt *** FDIAG_STAT_DONE_FAIL(5) test_num 12, error_code 1 Field Diagnostic: ****TEST FAILURE**** slot 5: last test run 12, TX SDRAM Marching Pattern, error 1 Field Diag eeprom values: run 5 fail mode 1 (TEST FAILURE) slot 5 last test failed was 12, error code 1
Se si dispone di una scheda di linea QOC48 o OC192, fare riferimento a questa informativa sul campo: QOC48/OC192 SBE/MBE. In caso contrario, è necessario sostituire la scheda di linea dopo un secondo errore.
Controllare il valore del campo sig= nell'output show context slot [slot#]:
Router#show context slot 4 CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 VERSION: GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) Compiled Mon 28-Dec-98 14:53 by tamb Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL System exception: SIG=20, code=0xA414EF5A, context=0x40337424 System restarted by a Cache Parity Exception
Alcune schede basate sul motore di inoltro Engine 1 sono soggette a problemi di danneggiamento della cache interna quando funzionano a condizioni di tensione e temperatura molto specifiche.
La funzione di recupero degli errori della cache (CERF, Cache Error Recovery Feature) è una funzione software delle schede di linea Engine1 che rileva e corregge gli errori di parità della cache scaricando gli errori dalla cache della CPU esterna e aggiornando la linea della cache dalla memoria DRAM. Questa funzione fornisce informazioni intelligenti nell'algoritmo di gestione della cache della CPU che consentono alla CPU di eseguire il ripristino da un errore di parità della memoria cache, evitando un arresto anomalo della scheda di linea senza compromettere le prestazioni.
Nota: CERF è attivo per default. L'attività di questo ECC (Error Correction Code) software può essere monitorata dal comando show controller cerf. Per disattivare questa funzionalità, utilizzare il comando di configurazione globale no service cerf.
Vedere Notifica Errore di parità cache sulla scheda GSR 1GE per ulteriori informazioni.
Per determinare su quale motore di inoltro si basa la scheda di linea, vedere Come è possibile determinare quale scheda motore è in esecuzione nella casella? dal Cisco serie 12000 Internet Router: Documento Domande frequenti.
Se la scheda di linea è basata sul motore 1, per risolvere il problema, aggiornare il software Cisco IOS a una versione che contiene la funzione di recupero dell'errore della cache (CERF). Questa funzione è stata inizialmente disponibile nel software Cisco IOS versione 12.0(21)S3. Se il problema persiste, è necessario sostituire la scheda di linea.
Se la scheda di linea è basata su un altro tipo di motore, è necessario sostituirla alla seconda occorrenza di un incidente simile.
Nei log della console potrebbe essere visualizzato il messaggio seguente:
SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERRS: L3FE DRAM error 12 address 41E9B9A0 SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 12 addr 41E9B9A0 io 0 addr 0 SLOT 2:Oct 23 17:07:45.531 EST: %GSR-3-INTPROC: Process Traceback= 40080BAC -Traceback= 40357084 40495D30 40496EE0 400CCF98
Questo messaggio segnala un errore di parità di scrittura DRAM CPU. L3FE è l'acronimo di Layer 3 Forwarding Engine. La scheda di linea deve essere sostituita alla seconda occorrenza di un problema simile.
Di seguito sono riportati alcuni messaggi di errore:
Nei registri di una scheda di linea Gigabit a una porta:
SLOT 5: %LCGE-3-INTR: TX GigaTranslator external interface parity error
Per le schede più recenti, una soluzione è stata sostituire l'ASIC TX GigaTranslator con un Gate Array (FPGA) programmabile. Nel secondo caso di un problema simile, la scheda dovrebbe essere sostituita.
Nell'output della console:
SLOT 6: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error, ECC status = 2 DRAM error status = = 21 SLOT 6: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 21 addr 200020 io 0 addr 0 SLOT 6: %LC-3-ECC: Salsa ECC: Addresses: Salsa returned =429BFDE8 correcting on = 429BFDE8 SLOT 6: %MEM_ECC-3-SBE: Single bit error detected and corrected at 0x429BFDE8 SLOT 6: %MEM_ECC-3-SYNDROME_SBE: 8-bit Syndrome for the detected Single-bit error: 0x8A SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60 SLOT 1:Jun 10 05:29:47.690 EDT: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error,ECC status = 0 DRAM error status =12 SLOT 6:Sep 26 15:18:01: %LC-3-SWECC: L2 event cleared: EPC = 0x40631CCC, CERR = 0xE40BB933, SysAD Addr = 1, total = 1 SLOT 0:Dec 7 13:48:11.480: %LC-3-SWECC_DATA: L2 event cleared: EPC = 0x400A8040, CERR = 0xA01DCE58, l1v = 0x41E3C20441E3C1C5, dv =0x41E3C1C441E3C204, SysAD Addr = 0, total = 1
Questi messaggi possono essere suddivisi nelle seguenti parti:
%LC-3-ECC: Salsa ECC - Errore nell'ASIC L3FE della scheda di linea.
%LC-3-L3FEERR - Errore nel reg. ASIC L3FE della scheda di linea. informazioni.
%MEM_ECC-3-SBE - È stato rilevato un errore correggibile a bit singolo in una lettura da DRAM. Il comando show memory ecc può essere usato per eseguire il dump degli errori a bit singolo registrati finora. Equivale al messaggio di errore %MEM_ECC-3-SBE_LIMIT.
%MEM_ECC-3-SYNDROME_SBE - La sindrome a 8 bit per l'errore a un bit rilevato. Questo valore non indica le posizioni esatte dei bit in errore, ma può essere utilizzato per approssimare le loro posizioni. Equivale al messaggio di errore %MEM_ECC-3-SYNDROME_SBE_LIMIT.
Fondamentalmente, la scheda di linea ha riportato un errore di bit singolo e lo ha corretto automaticamente. Non è richiesta alcuna azione da parte della parte, a meno che non si verifichi di frequente. In tal caso, si consiglia di sostituire la scheda di linea.
%LC-3-SWECC_DATA - Indica che un evento della cache è stato corretto sul LC nello SLOT 0 dal codice di correzione dell'errore software (SWECC).
Un altro possibile messaggio è:
SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60
Questo messaggio indica che è stato rilevato un errore irreversibile a bit singolo [hard error] su una CPU letta da DRAM. Il comando show memory ecc esegue il dump degli errori a bit singolo registrati finora e indica le posizioni degli indirizzi degli errori hardware rilevati.
Monitorare il sistema utilizzando il comando show memory ecc e sostituire la DRAM se si verificano troppi errori.
Nell'output della console potrebbe essere visualizzato il seguente errore:
SLOT 6: %LC-6-PSAECC: An TLU SDRAM ECC correctable error occurred address 19C49FD SLOT 2:035610: Feb 26 13:09:13.628 UTC: %LC-6-PSAECC: An PLU SDRAM ECC correctable error occurred address 1956059
Ciò significa che la SDRAM protetta da Packet Switching ASIC (PSA) ECC ha identificato un errore correggibile a un bit. Non è richiesta alcuna azione da parte dell'utente, a meno che questi messaggi non vengano visualizzati di frequente. In tal caso, si consiglia di sostituire la scheda di linea.
Nell'output della console è possibile visualizzare i seguenti errori:
SLOT 6:00:03:53: %PM622-3-SAR_SRAM_PARITY_ERR: (6/0): Parity error in Reassembly SAR SRAM address: 80000000.Resetting the port SLOT 3:00:00:53: %PM622-3- SAR_MULTIBIT_ECC_ERR: (3/0): Multi-bit ECC Uncorrectable error in SAR SDRAM address: 80000000. Resseting the port. SLOT 4:00:00:53: %PM622-3 SAR_SINGLE_BIT_ECC_ERR: (3/0): ECC corrected an error in SAR SDRAM address: 800000. SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC: RX ALPHA: An PLU SDRAM ECC correctable error occured address 1000C254 SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC2: RX ALPHA: An PLU SDRAM ECC multibit error occured at address 1000E254 SLOT 5:Nov 17 09:46:30.171: %EE48-6-ALPHA_PARITY: TX ALPHA: Transient SRAM64 parity corrected error 3E Data 0 100000 Parity bits 0 SLOT 10:Feb 21 16:55:36: %EE48-3-ALPHA_SRAM64_ERR: TX ALPHA: ALPHA_PST_RANGE_ERR error 11003F Data 0 0 Parity bits 0 SLOT 4:Jan 15 06:30:00.942 UTC: %EE48-2-GULF_TX_SRAM_ERROR: ASIC GULF: TX SRAM uncorrectable error detected. Details=0x0000 SLOT 0:Mar 16 19:50:22.464 cst: %EE48-4-QM_ZBT_PARITY: ToFab Address 0xB95E Data 0x1 SLOT 5:May 17 06:17:35.507: %EE48-4-QM_NON_ZBT_PARITY: ToFab Error 0x10000028 SLOT 5:May 17 06:17:53.883: %EE48-4-QM_ZBT_PARITY_TRANSIENT: FrFab Address 0x0 Data 0x7E SLOT 5:May 17 06:17:53.883: %EE48-4- GULF_RX_TB_PARITY_ERROR: ASIC GULF: RX telecom bus parity error on port 0 SLOT 1:Dec 13 00:27:42: %EE48-3-SRAM_PARITY: SRAM parity: Unable to find shadow 281B9EB4 SLOT 0:Aug 4 08:55:37: %EE48-3-QM_PARITY: FrFab Address 0x1859E Data 0x10 SLOT 0:Aug 4 08:55:37: %EE48-3-QM_ERROR: FrFab error register 0x80000.
Sulle schede di linea basate su Engine 4/4+ potrebbero essere visualizzati i messaggi seguenti:
SLOT 4: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - Parity error on rx_pbc_mem. -Traceback= 401C37C0 403D8814 400BE1EC SLOT 4: %LC-3-ERR_INTR: Error interrupt occurred -Traceback= 400CE028 400C8DF0 40010A24
o
SLOT 3: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - Parity error on rx_pbc_mem. -Traceback= 406012E0 406972A0 400C555C %FIB-3-FIBDISABLE: Fatal error, slot 3: IPC failure
o
SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_SBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_SBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 5:Apr 26 11:56:08.160: %MCC192-3-SDRAM_MBE: Error=0x200 - DIMM1 Syndrome=0x3000 Addr=0x811C3 SLOT 10:Mar 6 05:05:26.965: %RX192-3-ADJ_MEM_MBE: phy addr 0x7905E648, offset 0xBCC9, old ecc 0x0, new ecc 0x0, bit -1, value 0x0 - MBE on Adjacency Memory.. SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_MBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 2:00:03:41: %MCC192-3-RED: Error=0x80000 - RED PARAM 1 ECC SBE Error. -Traceback= 405AF5E0 405B1CEC 406DFF7C 406E057C 400FC7E SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_MBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No Sep 8 14:32:09 jst: %MEM_ECC-3-SYNDROME_SBE_LIMIT: 8-bit Syndrome for the detected Single-bit error: 0xD5
I sintomi di questo problema includono:
Cisco Express Forwarding su questa scheda di linea viene disabilitato
Le porte associate rimangono attive/attive
È possibile che la scheda di linea venga reimpostata automaticamente
Se la scheda di linea non viene reimpostata, per risolvere il problema, eseguire il comando microcode reload <slot>:
Questo messaggio non sempre indica un problema hardware con il modulo RX192. Alcuni bug del software Cisco IOS potrebbero generare questo messaggio di errore come effetto collaterale. Se questo messaggio viene visualizzato una sola volta, continua a monitorare la scheda. Il dispositivo verrà reimpostato. Se il problema persiste, la scheda verrà reimpostata automaticamente. Se il messaggio persiste, contattare il rappresentante del supporto tecnico Cisco.
Gli eventi SBE possono essere controllati su E4/E4+ con il comando show controller mcc192 ecc:
LC-Slot4#show controllers mcc192 ecc MCC192 SDRAM ECC Counters SBE = 0x0, MBE = 0x0 TX192 SDRAM ECC Counters SBE = 0x0, MBE = 0x0
Questo report viene eseguito sia su memoria RX che TX.
Nell'output della console è possibile visualizzare i seguenti errori:
SLOT 1:Jun 26 20:45:53 KST: %EE192-6-WAHOOECC: RX WAHOO: An PLU SDRAM ECC correctable error occured address 20000254 SLOT 9:Sep 2 21:27:49.680 GMT+8: %MCC192-3-PKTMEM_SBE: Single bit error detected and corrected SLOT 14:Jul 18 07:19:24.637: RX_XBMA: 1-bit CPUIM_ECCERR1 error 0x2 SLOT 15:Jan 4 16:53:16.591: TX_XBMA: (1) QSRAM qinfo SBE detected. info: 0x82605455 SLOT 12:Dec 12 22:34:15: %EE192-4-BM_ERRSSS: FrFab BM BADDR ECC ERR info single bit error(s) corrected, error 8250F63E count: 2 SLOT 1:Nov 22 13:40:02 JST: %EE192-3-QM_ERROR: RX_XBMA OQLLM error error register 0x1 -Traceback= 40AE71AC 406078C4 405F5EC0 SLOT 7:001113: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRS: RX WAHOO: WAHOO_CSRAM_CNTRL_INT PIPE0 error 8 SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRSSS: RX WAHOO: WAHOO_FFCRAM_CNTRL_INT PIPE0 error 4 addr 3FBFAB8 agent 94 SLOT 7:001114: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRSSSS: RX WAHOO: WAHOO_PPC_INT PIPE1 error pl_ctl 4000226 pl_aa_avl F9F7B pl_aa_end 7FF9 pl_aa_fatal 4800000 SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: RX WAHOO WAHOO_NFC_SRAM_MULTI_ECC_ERR multi-bit CSSRAM error SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_FFCRAM_CNTRL_INT MBE SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: FSRAM not OK WAHOO_FSRAM_CNTRL_INT ECC_1_BIT_EE | ECC_UNCORR_EE SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error SLOT 1:00:01:14: WEEKLY_THROTTLE_SOCKEYE_SBE: SOCKEYE SBE: addr: 0xC2A007C0, synd: 0xC4 SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_TX+i: CBSRAM SBE TX: 1-bit CBSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_RX+i: CBSRAM SBE RX: 1-bit CBSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_TX+i: CSSRAM SBE TX: 1-bit CSSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_RX+i: CSSRAM SBE RX: 1-bit CSSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_TX+i: CSRAM SBE TX: 1-bit CSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_RX+i: CSRAM SBE RX: 1-bit CSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_TX+throttle_i: TX FTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_RX+throttle_i: RX FTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_TX+throttle_i: TX CLTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_RX+throttle_i: RX CLTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_TX+throttle_i: TX NFTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_RX+throttle_i: RX NFTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_VMR: TCAM PRTY VMR error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_NO-VMR: TCAM PRTY NO-VMR error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_RX: FCRAM SBE TX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_PER_CHIP_SBE_TX: FCRAM CHIP SBE error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FCRAM_PER_CHIP_SBE_RX: FCRAM CHIP SBE error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_TX: FSRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_RX: FSRAM SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_TX: FSRAM MBE RX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_RX: FSRAM MBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_TX: ISERR TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_RX: ISERR RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_RX: FCRAM SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_TX: QSRAM LINK SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_RX: QSRAM LINK SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe rx error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_BADDR_SBE_TX: qsram bad addr sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_ QM_QSRAM_BADDR_SBE_RX: qsram bad addr sbe rx error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_TX: oqllm sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_RX: oqllm sbe rx error status = 0x3
Nell'output della console è possibile visualizzare i seguenti errori:
SLOT 0:Jan 14 08:53:44.581 GMT: %FIA-3-RAMECCERR: To Fabric ECC error was detected Single Bit Error RAM2 status = 0x8000 Syndrome = 0x0 addr = 0x0 SLOT 6:Apr 29 09:36:12: %E6LC-4-ECC_THRESHOLD: HERMES VID SBE exceeded threshold, possible memory failure SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_SBE: Head1 Syndrome=0x94 Addr=0xFFF2B -Traceback= 40544830 40546A90 40688C94 400EDC18 SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_SBE: Syndrome=0x59 Addr=0xFFF2B -Traceback= 40000830 40036A90 40555D44 400ddd23 SLOT 14:Dec 9 20:02:29: %E6_RX192-6-PBC_SBE: Single bit error detected and corrected RLDRAM Syndrome=0x61 Addr=0xF855 Dec 9 20:02:33: %GRP-4-RSTSLOT: Resetting the card in the slot: 14,Event: linecard error report SLOT 4:06:21:43: %E6_RX192-3-ACL_SBE: ACTION MEM Syndrome=0x7 Addr=0x0 -Traceback= 40549740 4054A7E0 4068D814 400EE018 SLOT 6:Mar 28 03:30:19: %RX192-3-HINTR: status = 0x1000000000000, mask = 0x7FFFFF0FA320F - L3X SBE error. -Traceback= 405816DC 406A1010 406A1650 400F70E8 SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_SBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B SLOT 6:Nov 27 23:32:36: %HERA-3-PKTMEM_SBE: Single bit error detected and corrected Error=0x80 – Syndrome=0x5100000000000000 Addr=0x894620 Data bit116 SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_SBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_SBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 12:May 24 03:03:36: %HERA-6- UPF_SBE: Single bit error detected and corrected Error=0x60 – Syndrome=0x4100000000000000 Addr=0x451140 Data bit216 SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 9:May 5 18:52:14: %HERA-6-QM_FBF_SBE: Free Block FIFO - Single Bit Error detected and corrected Syndrom = 0x10, Addr = 0x778, samebit Yes, diffbit No SLOT 9:May 5 18:52:14: %HERA-3-QM: Error=0x40 - FBF RAM ECC SBE. -Traceback= 405AD4CC 405AF5D0 405F2E80 406DCDB8 406DD434 400FC500 SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_SBE: Average Queue Depth - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x89, samebit No, diffbit No SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_SBE: Statistics - Single Bit Error detected and corrected Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_MBE: Single bit error detected and corrected Head1 Syndrome=0x94 Addr=0xFFF2B SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_MBE: Syndrome=0x59 Addr=0xFFF2B -Traceback= 40000830 40036A90 40555D44 400ddd23 00:00:18: %E6_RX192-3-PBC_MBE: ADJ OBANK LO Syndrome=0xE5 Addr=0x142 -Traceback= 405BF8B0 405C0F08 406E8D78 406E93B8 400FCCE0 SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_MBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B SLOT 0:Apr 18 06:44:53.751 GMT: %HERA-3-PKTMEM_MBE: Error=0x1010 - Syndrome=0x9900000000 SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_MBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_MBE: Single bit error detected and corrected Error=0x50 - Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 9:May 5 18:52:14: %HERA-6-QM_FBF_MBE: Free Block FIFO - Single Bit Error detected and corrected Syndrome = 0x10, Addr = 0x778, samebit Yes, diffbit No SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_MBE: Average Queue Depth - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x89, samebit No, diffbit No SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_MBE: Statistics - Single Bit Error detected and corrected Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No
Nell'output della console è possibile visualizzare i seguenti errori:
SLOT 7:Jan 4 02:04:00.487: %SPA_CHOC_DSX-3-UNCOR_PARITY_ERR: SPA4/0: CHOC SPA parity error(s) encountered SLOT 7:Jan 4 02:04:00.487: %MCT1E1-3-UNCOR_PARITY_ERR: SPA5/0: T1E1 SPA parity error(s) encountered SLOT 3: 00:33:48: %MCT1E1-3-UNCOR_MEM_ERR: SPA3/0: 1 uncorrectable HDLC SRAM memory error(s) encountered. SLOT 1:Oct 3 14:42:45.727: %SPA_PLIM-4-SBE_ECC: SPA-4XT3/E3[1/2] reports 2 SBE occurrence at 1 addresses SLOT 1: Jul 22 05:26:29.613 UTC: %SPA_DATABUS-3-SPI4_SINGLE_DIP4_PARITY: SIP Sbslt 0 Ingress Sink - A single DIP4 parity error has occurred on the data bus. SLOT 4: Dec 2 22:44:05: %SPA_DATABUS-3-SPI4_SINGLE_DIP2_PARITY: SIP Sbslt 0 Egress Source - A single DIP 2 parity error on the FIFO status bus has occurred. SLOT 1:Oct 3 14:42:45.727: %SPA_PLIM-4-SBE_OVERFLOW: SPA-4XT3/E3[1/2] reports SBE table (2 elements) overflows SLOT 1:Oct 3 14:42:45.727: % SPA_PLUGIN-3-SPI4_SETCB: SPA-4XT3/E3[1/2] : IPC SPI4 set callback failed(status 2).
Tutti i messaggi di errore di parità relativi allo switching delle schede fabric sono illustrati in dettaglio in Risoluzione dei problemi hardware per Cisco serie 12000 Internet Router. Tali messaggi comprendono (elenco non esaustivo):
%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error Data = 0x2. SLOT 1:%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error Data = 0x1