Cisco serie 12000 Internet Router Parity Error Fault Tree

Opzioni per il download

PDF (339.3 KB)
Visualizza con Adobe Reader su diversi dispositivi
ePub (130.6 KB)
Visualizza in diverse app su iPhone, iPad, Android, Sony Reader o Windows Phone
Mobi (Kindle) (181.6 KB)
Visualizza su dispositivo Kindle o tramite app Kindle su più dispositivi

Aggiornato:29 aprile 2008

ID documento:29320

Linguaggio senza pregiudizi

La documentazione per questo prodotto è stata redatta cercando di utilizzare un linguaggio senza pregiudizi. Ai fini di questa documentazione, per linguaggio senza di pregiudizi si intende un linguaggio che non implica discriminazioni basate su età, disabilità, genere, identità razziale, identità etnica, orientamento sessuale, status socioeconomico e intersezionalità. Le eventuali eccezioni possono dipendere dal linguaggio codificato nelle interfacce utente del software del prodotto, dal linguaggio utilizzato nella documentazione RFP o dal linguaggio utilizzato in prodotti di terze parti a cui si fa riferimento. Scopri di più sul modo in cui Cisco utilizza il linguaggio inclusivo.

Informazioni su questa traduzione

Cisco ha tradotto questo documento utilizzando una combinazione di tecnologie automatiche e umane per offrire ai nostri utenti in tutto il mondo contenuti di supporto nella propria lingua. Si noti che anche la migliore traduzione automatica non sarà mai accurata come quella fornita da un traduttore professionista. Cisco Systems, Inc. non si assume alcuna responsabilità per l’accuratezza di queste traduzioni e consiglia di consultare sempre il documento originale in inglese (disponibile al link fornito).

Sommario

Introduzione

Operazioni preliminari

Convenzioni

Prerequisiti

Componenti usati

Panoramica

Analisi struttura errori parità Gigabit Route Processor (GRP)

Analisi struttura errori parità scheda linea

Errori di parità/ECC in Cisco serie 12000 Gigabit Route Processor

Errori Single Bit (SBE)

Errori Multi-Bit (MBE)

Errori di parità della memoria del processore (PMPE)

%GRP-3-PARITYERR Messaggio di errore

%PRP-3-SBE_DATA: Dati non validi [hex] [hex] ECC rec [hex] calc [hex]

Errori di parità/ECC nelle schede di linea Cisco serie 12000

Errori SDRAM ECC

Eccezioni parità cache

Messaggi di errore della scheda di linea basata su 0 del motore

Messaggi di errore della scheda di linea basata sul motore 1

Messaggi di errore della scheda di linea basata sul motore 2

Messaggi di errore della scheda di linea basata su Engine 3

Messaggi di errore della scheda di linea basata su Engine 4/4+

Messaggi di errore della scheda di linea basata su Engine 5/5+

Messaggi di errore della scheda di linea basata sul motore 6

Messaggi di errore SPA

Errori di parità nelle schede fabric di switching Cisco serie 12000

Informazioni correlate

Introduzione

Questo documento illustra la procedura per risolvere e isolare una parte o un componente guasto di Cisco serie 12000 Internet Router dopo aver rilevato una serie di messaggi di errore di parità.

Nota: questo documento non descrive la causa degli errori di parità. Se si è interessati a una definizione più concisa degli errori di parità (noti anche come Single Event Upsets - SEU) e delle loro possibili cause, si consiglia di leggere i documenti collegati a Increment Network Availability.

Operazioni preliminari

Convenzioni

Per ulteriori informazioni sulle convenzioni usate, consultare il documento Cisco sulle convenzioni nei suggerimenti tecnici.

Prerequisiti

Prima di procedere, si consiglia di leggere i seguenti documenti:

Componenti usati

Le informazioni fornite in questo documento si basano sulle versioni software e hardware riportate di seguito.

Cisco serie 12000 Internet Router
Tutte le versioni del software Cisco IOS®

Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.

Panoramica

La maggior parte dei processori di routing e delle schede di linea dei router Internet Cisco serie 12000 include la funzionalità Error Code Correction (ECC). Esistono, tuttavia, alcune schede di linea sul campo che non dispongono della funzionalità ECC. La funzionalità ECC copre solo la RAM o la memoria SDRAM (Synchronous Dynamic RAM) presente sulle schede. Il resto non è protetto da ECC.

Di seguito viene riportato un confronto tra le funzionalità ECC per le schede di linea utilizzate con Cisco 12000:

Tutte le schede Engine 2 e versioni successive dispongono della funzionalità ECC.
Schede del motore 1 modificate in ECC dopo FCS.
Le schede del motore 0 non dispongono della funzionalità ECC.
Alcune schede possono essere aggiornate a prodotti simili che integrano la funzionalità ECC.

Nella tabella seguente sono elencati i prodotti dotati della funzionalità ECC:

Prodotti non ECC	Prodotti ECC
GRP(=)	GRP-B (=)
GE-SX/LH-SC(=)	GE-GBIC-SC-B(=)
GE-GBIC-SC-A(=)	GE-GBIC-SC-B(=)
8FE-FX-SC(=)	8FE-FX-SC-B(=)
8FE-TX-RF45 (=)	8FE-TX-RJ45-B(=)
6DS3-SMB(=)	6DS3-SMB-B(=)
12DS3-SBM(=)	12DS3-SMB-B(=)
OC12/SRP-IR-SC(=)	OC12/SRP-IR-SC-B(=)
OC12/SRP-MM-SC(=)	OC12/SRP-mm-SC-B(=)
OC12/SRP-LR-SC(=)	OC12/SRP-LR-SC-B(=)

Nota: -B ed ECC sono indipendenti. -B indica che il prodotto è una seconda revisione ordinabile della scheda. In alcuni casi si è trattato della revisione per l'ECC.

Cisco offre un Technology Migration Plan (TMP) che consente di aggiornare una scheda non ECC a una nuova scheda ECC. Verrà concesso un credito per l'acquisto della nuova scheda ECC in cambio della scheda non ECC.

Analisi struttura errori parità Gigabit Route Processor (GRP)

Il diagramma di flusso seguente aiuta a determinare il componente Cisco serie 12000 Internet Router responsabile dei messaggi di errore Parity/Error Code Correction (ECC) sul Gigabit Route Processor (GRP).

Nota: acquisire e registrare l'output show tech-support e i log della console e raccogliere tutti i file crashinfo durante gli eventi di errore di parità/ECC.

Analisi struttura errori parità scheda linea

Il diagramma di flusso seguente aiuta a determinare il componente di una scheda di linea del router Internet Cisco serie 12000 responsabile dei messaggi di errore Parity/Error Code Correction (ECC):

Nota: ogni volta che una scheda di linea rileva un errore di parità/ECC, raccogliere quante più informazioni possibili (per ulteriori informazioni, vedere Risoluzione dei problemi di arresto anomalo delle schede di linea sul router Internet Cisco serie 12000).

Cisco serie 12000 Internet Router recupera dagli errori di parità in altre memorie della scheda di linea (SDRAM e SRAM) senza crash.

Errori di parità/ECC in Cisco serie 12000 Gigabit Route Processor

I dati con parità errata possono essere segnalati da diversi dispositivi di controllo della parità per qualsiasi operazione di lettura o scrittura su Cisco serie 12000 Internet Router.

GRP-B e PRP utilizzano le funzioni Single Bit Error Correction e Multi-Bit Error Detection ECC per la memoria condivisa (SDRAM). L'errore di un singolo bit nella SDRAM viene corretto automaticamente e il sistema continua a funzionare normalmente.

Errori Single Bit (SBE)

PRP e GRP-B sono dotati del controller DRAM (Dynamic RAM) avanzato che supporta ECC. Pertanto, possono correggere gli errori a bit singolo e segnalare gli errori a bit multiplo. La correzione di un errore di bit singolo ha il seguente aspetto:

%Tiger-3-SBE: Single bit error detected and corrected at <address>

Gli SBE vengono corretti dal circuito di correzione degli errori e non influiscono sulla funzionalità di GRP-B o PRP. Non è richiesta alcuna azione per gli errori a bit singolo, a meno che non si verifichino di frequente. In tal caso, è consigliabile sostituire la scheda del processore.

Errori Multi-Bit (MBE)

Il rilevamento di un errore a più bit viene segnalato tramite un'eccezione di errore del bus o un'eccezione di errore di parità della cache della CPU.

Errori di parità della memoria del processore (PMPE)

Viene visualizzato un messaggio di errore di parità della memoria del processore se la CPU rileva un errore di parità durante l'accesso alla cache esterna del processore (L3 sul GRP) tramite il bus SysAD o una delle memorie cache interne della CPU (L1 o L2). La tabella 1 elenca alcuni esempi di messaggi che verrebbero stampati per ciascun tipo di errore di parità della cache:

Tabella 1. Percorso errore parità cache

Posizione dell'errore di parità	Messaggio di errore
Cache istruzioni L1	Errore: Primario, instr cache, campi: dati
Cache di dati L1	Errore: Primario, cache di dati, campi: dati
Cache istruzioni L2	Errore: SysAD, cache istr, campi: dati
Cache di dati L2	Errore: SysAD, cache dati, campi: dati
Cache istruzioni L3	Errore: SysAD, cache istr, campi: 1° dword
Cache di dati L3	Errore: SysAD, cache dati, campi: 1° dword

Esempio:

La prima riga del messaggio di errore indica la posizione dell'errore di parità e può corrispondere a qualsiasi posizione elencata nella Tabella 1. In questo esempio, la posizione è L3 Instruction Cache.

Error: SysAD, instr cache, fields: data, 1st dword
Physical addr(21:3) 0x000000,
virtual addr 0x6040BF60, vAddr(14:12) 0x3000
virtual address corresponds to main:text, cache word 0  
           Low Data     High Data  Par  Low Data     High Data  Par
L1 Data:   0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01          
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01           
           Low Data     High Data  Par  Low Data     High Data  Par
DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01           
           2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01

L'output del comando show version deve essere simile al seguente:

...System was restarted by processor memory parity error at PC 0x602310D0, 
address 0x0 at 03:18:21 GMT Sun Oct 27 2002 ...

Dall'output show context, è possibile vedere che il sistema è stato riavviato da un'eccezione Parità cache:

Router#show context slot 11
CRASH INFO: Slot 11, Index 1, Crash at 19:08:07 CST Thu Nov 14 2002

VERSION:
GS Software (GSR-P-M), Version 12.0(22)S1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1)
TAC Support: http://www.cisco.com/tac
Compiled Mon 16-Sep-02 17:36 by nmasa
Card Type: Route Processor, S/N

LC uptime was 0 minutes.
System exception: sig=20, code=0xE42F3E4B, context=0x52CF3D44
System restarted by a Cache Parity Exception
STACK TRACE:
-Traceback= 5020453C 500E5E24 5010E6DC 5015F89C 501E9F6C 501E9F58
...

Sostituire GRP o PRP dopo un secondo errore.

%GRP-3-PARITYERR Messaggio di errore

Nell'output della console potrebbe essere visualizzato il seguente messaggio:

SEC 7: %GRP-3-PARITYERR: Parity error detected in the fabric buffers. Data (8)

Questo messaggio indica che è stato rilevato un errore di parità dall'hardware dell'interfaccia dell'infrastruttura sul GRP. Il numero esadecimale indica il vettore di interruzione dell'errore. Ciò indica in genere un problema hardware sul GRP che riporta l'errore (in questo caso, lo slot 7). Il GRP difettoso deve essere sostituito alla seconda occorrenza di un problema simile.

%PRP-3-SBE_DATA: Dati non validi [hex] [hex] ECC rec [hex] calc [hex]

Questo messaggio di errore viene visualizzato quando il router riceve dati con parità non valida.

I dati con parità errata vengono segnalati da diversi dispositivi di controllo della parità per qualsiasi operazione di lettura o scrittura eseguita su Cisco serie 12000 Internet Router.

PRP utilizza la correzione degli errori a bit singolo e il rilevamento degli errori a bit multiplo ECC per condividere la memoria (SDRAM). L'errore di un singolo bit nella SDRAM viene corretto automaticamente e il sistema continua a funzionare normalmente.

Gli errori a bit singolo (SBE) vengono corretti dal circuito di correzione degli errori (ECC, Error Correction Circuit) e non influiscono sulla funzionalità di PRP. Per gli errori a bit singolo non è richiesta alcuna azione, a meno che non si verifichino di frequente.

Se l'errore si verifica frequentemente, si consiglia di sostituire la scheda del processore.

Errori di parità/ECC nelle schede di linea Cisco serie 12000

Errori SDRAM ECC

Errori SDRAM Single Bit Error-Correcting Code (ECC)

Un errore a bit singolo è un singolo bit di dati non corretto in una parola letta dalla memoria. Per gli SBE, l'errore può essere corretto senza interrompere le operazioni.

Vengono rilevati errori di bit singolo e presentati i dati corretti. Ad esempio, gli errori a bit singolo vengono segnalati come segue nel motore 4/4+:
```
SLOT 6:Jul 19 07:37:34: %TX192-3-SDRAM_SBE: Error=0x2 - DIMM1 Syndrome=0x7600 
Addr=0xBEA09 Data bit80-Traceback= 401C8C9C 401C9508 401CDE08 401CDE40 4007F674 
4009ED0C 4009ECF8
```
Gli SBE vengono corretti dal circuito di correzione degli errori e non influiscono sulla funzionalità della scheda di linea. Non è richiesta alcuna azione per gli errori a bit singolo, a meno che non si verifichino di frequente. In tal caso, si consiglia di sostituire la scheda di linea.
Errori SDRAM Multi-bit ECC

L'errore di più bit si verifica quando più bit non sono corretti nella stessa parola. Per gli MBE, viene rilevato l'errore e la scheda di linea si blocca. La presenza di SBE e MBE è molto rara.

Di seguito è riportato un esempio del messaggio stampato sulla console in risposta a un errore ECC multi-bit nella SDRAM:
```
SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_SBE: Error=0x808 - DIMM0 
Syndrome=0x31000000 Addr=0x81034 Data bit120
-Traceback= 401C8C9C 401C9508 40450018 400BF7D4
SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_MBE: Error=0x808 - DIMM0 
Syndrome=0x18000000 Addr=0x80834
-Traceback= 401C8D88 401C9508 40450018 400BF7D4
```
Gli MBE non possono essere corretti da ECC e causano il blocco della scheda di linea. La scheda di linea verrà quindi ricaricata e riattivata dal processore di routing.

La diagnostica sul campo può essere utilizzata per verificare la presenza di MBE nella memoria della scheda di linea. Gli MBE vengono rilevati dalla diagnostica dei campi come errori di memoria. Di seguito è riportato un esempio di scheda che ha riscontrato un errore multi-bit sulla SDRAM TX che non ha superato la diagnostica sul campo:
```
FDIAG_STAT_IN_PROGRESS(5): test #12 TX SDRAM Marching Pattern
FD 5> RIM:
FD 5> TX Registers
FD 5> INT_CAUSE_REG = 0x00000680
FD 5> Unexpected L3FE Interrupt occured.
FD 5> ERROR: TX BMA Asic Interrupt Occured
FD 5> *** 0-INT: External Interrupt ***
FDIAG_STAT_DONE_FAIL(5) test_num 12, error_code 1
Field Diagnostic: ****TEST FAILURE**** slot 5: last test run 12,
TX SDRAM Marching Pattern, error 1
Field Diag eeprom values: run 5 fail mode 1 (TEST FAILURE) slot 5
last test failed was 12, error code 1
```
Se si dispone di una scheda di linea QOC48 o OC192, fare riferimento a questa informativa sul campo: QOC48/OC192 SBE/MBE. In caso contrario, è necessario sostituire la scheda di linea dopo un secondo errore.

Eccezioni parità cache

Controllare il valore del campo sig= nell'output show context slot [slot#]:

Router#show context slot 4
       CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999
       
VERSION:
GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE
  SOFTWARE (fc1)
Compiled Mon 28-Dec-98 14:53 by tamb
Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL
System exception: SIG=20, code=0xA414EF5A, 
context=0x40337424
System restarted by a Cache Parity Exception

Alcune schede basate sul motore di inoltro Engine 1 sono soggette a problemi di danneggiamento della cache interna quando funzionano a condizioni di tensione e temperatura molto specifiche.

La funzione di recupero degli errori della cache (CERF, Cache Error Recovery Feature) è una funzione software delle schede di linea Engine1 che rileva e corregge gli errori di parità della cache scaricando gli errori dalla cache della CPU esterna e aggiornando la linea della cache dalla memoria DRAM. Questa funzione fornisce informazioni intelligenti nell'algoritmo di gestione della cache della CPU che consentono alla CPU di eseguire il ripristino da un errore di parità della memoria cache, evitando un arresto anomalo della scheda di linea senza compromettere le prestazioni.

Nota: CERF è attivo per default. L'attività di questo ECC (Error Correction Code) software può essere monitorata dal comando show controller cerf. Per disattivare questa funzionalità, utilizzare il comando di configurazione globale no service cerf.

Vedere Notifica Errore di parità cache sulla scheda GSR 1GE per ulteriori informazioni.

Per determinare su quale motore di inoltro si basa la scheda di linea, vedere Come è possibile determinare quale scheda motore è in esecuzione nella casella? dal Cisco serie 12000 Internet Router: Documento Domande frequenti.

Se la scheda di linea è basata sul motore 1, per risolvere il problema, aggiornare il software Cisco IOS a una versione che contiene la funzione di recupero dell'errore della cache (CERF). Questa funzione è stata inizialmente disponibile nel software Cisco IOS versione 12.0(21)S3. Se il problema persiste, è necessario sostituire la scheda di linea.

Se la scheda di linea è basata su un altro tipo di motore, è necessario sostituirla alla seconda occorrenza di un incidente simile.

Messaggi di errore della scheda di linea basata su 0 del motore

Nei log della console potrebbe essere visualizzato il messaggio seguente:

SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERRS: L3FE DRAM error 12 
address 41E9B9A0
SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 
txbma 0 addr 0 dram 12 addr 41E9B9A0 io 0 addr 0
SLOT 2:Oct 23 17:07:45.531 EST: %GSR-3-INTPROC: Process Traceback= 40080BAC
	-Traceback= 40357084 40495D30 40496EE0 400CCF98

Questo messaggio segnala un errore di parità di scrittura DRAM CPU. L3FE è l'acronimo di Layer 3 Forwarding Engine. La scheda di linea deve essere sostituita alla seconda occorrenza di un problema simile.

Messaggi di errore della scheda di linea basata sul motore 1

Di seguito sono riportati alcuni messaggi di errore:

Nei registri di una scheda di linea Gigabit a una porta:
```
SLOT 5: %LCGE-3-INTR: TX GigaTranslator external interface parity error
```
Per le schede più recenti, una soluzione è stata sostituire l'ASIC TX GigaTranslator con un Gate Array (FPGA) programmabile. Nel secondo caso di un problema simile, la scheda dovrebbe essere sostituita.
Nell'output della console:
```
SLOT 6: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error,
ECC status = 2 DRAM error status = = 21
SLOT 6: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 21 
addr 200020 io 0 addr 0
SLOT 6: %LC-3-ECC: Salsa ECC: Addresses: Salsa returned =429BFDE8 correcting 
on = 429BFDE8
SLOT 6: %MEM_ECC-3-SBE: Single bit error detected and corrected at 0x429BFDE8
SLOT 6: %MEM_ECC-3-SYNDROME_SBE: 8-bit Syndrome for the detected Single-bit error: 
0x8A
SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60
SLOT 1:Jun 10 05:29:47.690 EDT: %LC-3-ECC: Salsa ECC:  About to handle ECC single bit error,ECC status = 0 DRAM error status =12
SLOT 6:Sep 26 15:18:01: %LC-3-SWECC: L2 event cleared: EPC = 0x40631CCC, CERR = 0xE40BB933, SysAD Addr = 1, total = 1
SLOT 0:Dec  7 13:48:11.480: %LC-3-SWECC_DATA: L2 event cleared: EPC = 0x400A8040, CERR = 0xA01DCE58, l1v = 0x41E3C20441E3C1C5, dv =0x41E3C1C441E3C204, SysAD Addr = 0, total = 1
```
Questi messaggi possono essere suddivisi nelle seguenti parti:
- %LC-3-ECC: Salsa ECC - Errore nell'ASIC L3FE della scheda di linea.
- %LC-3-L3FEERR - Errore nel reg. ASIC L3FE della scheda di linea. informazioni.
- %MEM_ECC-3-SBE - È stato rilevato un errore correggibile a bit singolo in una lettura da DRAM. Il comando show memory ecc può essere usato per eseguire il dump degli errori a bit singolo registrati finora. Equivale al messaggio di errore %MEM_ECC-3-SBE_LIMIT.
- %MEM_ECC-3-SYNDROME_SBE - La sindrome a 8 bit per l'errore a un bit rilevato. Questo valore non indica le posizioni esatte dei bit in errore, ma può essere utilizzato per approssimare le loro posizioni. Equivale al messaggio di errore %MEM_ECC-3-SYNDROME_SBE_LIMIT.
  
  Fondamentalmente, la scheda di linea ha riportato un errore di bit singolo e lo ha corretto automaticamente. Non è richiesta alcuna azione da parte della parte, a meno che non si verifichi di frequente. In tal caso, si consiglia di sostituire la scheda di linea.
- %LC-3-SWECC_DATA - Indica che un evento della cache è stato corretto sul LC nello SLOT 0 dal codice di correzione dell'errore software (SWECC).
Un altro possibile messaggio è:
```
SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 
0x6299FB60 
```
Questo messaggio indica che è stato rilevato un errore irreversibile a bit singolo [hard error] su una CPU letta da DRAM. Il comando show memory ecc esegue il dump degli errori a bit singolo registrati finora e indica le posizioni degli indirizzi degli errori hardware rilevati.

Monitorare il sistema utilizzando il comando show memory ecc e sostituire la DRAM se si verificano troppi errori.

Messaggi di errore della scheda di linea basata sul motore 2

Nell'output della console potrebbe essere visualizzato il seguente errore:

SLOT 6: %LC-6-PSAECC: An TLU SDRAM ECC correctable error occurred 
address 19C49FD
SLOT 2:035610: Feb 26 13:09:13.628 UTC: %LC-6-PSAECC: An PLU SDRAM ECC correctable error occurred address 1956059

Ciò significa che la SDRAM protetta da Packet Switching ASIC (PSA) ECC ha identificato un errore correggibile a un bit. Non è richiesta alcuna azione da parte dell'utente, a meno che questi messaggi non vengano visualizzati di frequente. In tal caso, si consiglia di sostituire la scheda di linea.

Messaggi di errore della scheda di linea basata su Engine 3

Nell'output della console è possibile visualizzare i seguenti errori:

SLOT 6:00:03:53: %PM622-3-SAR_SRAM_PARITY_ERR: (6/0): Parity error in Reassembly SAR SRAM address: 80000000.Resetting the port
SLOT 3:00:00:53: %PM622-3- SAR_MULTIBIT_ECC_ERR: (3/0): Multi-bit ECC Uncorrectable error in SAR SDRAM address: 80000000. Resseting the port.
SLOT 4:00:00:53: %PM622-3 SAR_SINGLE_BIT_ECC_ERR: (3/0): ECC corrected an error in SAR SDRAM address: 800000.
SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC: RX ALPHA: An PLU SDRAM ECC correctable error occured address 1000C254
SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC2: RX ALPHA: An PLU SDRAM ECC multibit error occured at address 1000E254
SLOT 5:Nov 17 09:46:30.171: %EE48-6-ALPHA_PARITY: TX ALPHA: Transient SRAM64 parity corrected error 3E Data  0 100000 Parity bits  0
SLOT 10:Feb 21 16:55:36: %EE48-3-ALPHA_SRAM64_ERR: TX ALPHA: ALPHA_PST_RANGE_ERR error 11003F Data  0 0 Parity bits  0
SLOT 4:Jan 15 06:30:00.942 UTC: %EE48-2-GULF_TX_SRAM_ERROR: ASIC GULF: TX SRAM uncorrectable error detected. Details=0x0000
SLOT 0:Mar 16 19:50:22.464 cst: %EE48-4-QM_ZBT_PARITY: ToFab Address 0xB95E Data 0x1
SLOT 5:May 17 06:17:35.507: %EE48-4-QM_NON_ZBT_PARITY: ToFab Error 0x10000028
SLOT 5:May 17 06:17:53.883: %EE48-4-QM_ZBT_PARITY_TRANSIENT: FrFab Address 0x0 Data 0x7E
SLOT 5:May 17 06:17:53.883: %EE48-4- GULF_RX_TB_PARITY_ERROR: ASIC GULF: RX telecom bus parity error on port 0
SLOT 1:Dec 13 00:27:42: %EE48-3-SRAM_PARITY: SRAM parity: Unable to find shadow 281B9EB4
SLOT 0:Aug  4 08:55:37: %EE48-3-QM_PARITY: FrFab Address 0x1859E Data 0x10
SLOT 0:Aug  4 08:55:37: %EE48-3-QM_ERROR: FrFab error register 0x80000.

Messaggi di errore della scheda di linea basata su Engine 4/4+

Sulle schede di linea basate su Engine 4/4+ potrebbero essere visualizzati i messaggi seguenti:

SLOT 4: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - 
Parity error on rx_pbc_mem.
-Traceback= 401C37C0 403D8814 400BE1EC
SLOT 4: %LC-3-ERR_INTR: Error interrupt occurred
-Traceback= 400CE028 400C8DF0 40010A24

SLOT 3: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - 
Parity error on rx_pbc_mem.
-Traceback= 406012E0 406972A0 400C555C
%FIB-3-FIBDISABLE: Fatal error, slot 3: IPC failure

SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_SBE: Parameter 1 - Single Bit Error detected and corrected 
Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_SBE: Parameter 1 - Single Bit Error detected and corrected
Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
SLOT 5:Apr 26 11:56:08.160: %MCC192-3-SDRAM_MBE: Error=0x200 - DIMM1 Syndrome=0x3000 Addr=0x811C3
SLOT 10:Mar  6 05:05:26.965: %RX192-3-ADJ_MEM_MBE: phy addr 0x7905E648, offset 0xBCC9, old ecc 0x0, new ecc 0x0, bit -1, value 0x0 - MBE on Adjacency Memory..
SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_MBE: Parameter 1 - Single Bit Error detected and corrected
Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
SLOT 2:00:03:41: %MCC192-3-RED: Error=0x80000 - RED PARAM 1 ECC SBE Error.
-Traceback= 405AF5E0 405B1CEC 406DFF7C 406E057C 400FC7E
SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_MBE: Parameter 1 - Single Bit Error detected and corrected
Syndrome = 0x7, Address = 0x43, samebit No, diffbit No
Sep  8 14:32:09 jst: %MEM_ECC-3-SYNDROME_SBE_LIMIT: 
8-bit Syndrome for the detected Single-bit error: 0xD5

I sintomi di questo problema includono:

Cisco Express Forwarding su questa scheda di linea viene disabilitato
Le porte associate rimangono attive/attive
È possibile che la scheda di linea venga reimpostata automaticamente

Se la scheda di linea non viene reimpostata, per risolvere il problema, eseguire il comando microcode reload <slot>:

Questo messaggio non sempre indica un problema hardware con il modulo RX192. Alcuni bug del software Cisco IOS potrebbero generare questo messaggio di errore come effetto collaterale. Se questo messaggio viene visualizzato una sola volta, continua a monitorare la scheda. Il dispositivo verrà reimpostato. Se il problema persiste, la scheda verrà reimpostata automaticamente. Se il messaggio persiste, contattare il rappresentante del supporto tecnico Cisco.

Gli eventi SBE possono essere controllati su E4/E4+ con il comando show controller mcc192 ecc:

LC-Slot4#show controllers mcc192 ecc 
MCC192 SDRAM ECC Counters
        SBE = 0x0,              MBE = 0x0
TX192 SDRAM ECC Counters
        SBE = 0x0,              MBE = 0x0

Questo report viene eseguito sia su memoria RX che TX.

Messaggi di errore della scheda di linea basata su Engine 5/5+

Nell'output della console è possibile visualizzare i seguenti errori:

SLOT 1:Jun 26 20:45:53 KST: %EE192-6-WAHOOECC: RX WAHOO: An PLU SDRAM ECC correctable error occured address 20000254
SLOT 9:Sep 2 21:27:49.680 GMT+8: %MCC192-3-PKTMEM_SBE: Single bit error detected and corrected
SLOT 14:Jul 18 07:19:24.637:  RX_XBMA: 1-bit CPUIM_ECCERR1 error 0x2
SLOT 15:Jan  4 16:53:16.591:  TX_XBMA: (1) QSRAM qinfo SBE detected. info: 0x82605455
SLOT 12:Dec 12 22:34:15: %EE192-4-BM_ERRSSS: FrFab BM BADDR ECC ERR info single bit error(s) corrected, error 8250F63E count:  2
SLOT 1:Nov 22 13:40:02 JST: %EE192-3-QM_ERROR: RX_XBMA OQLLM error error register 0x1
-Traceback= 40AE71AC 406078C4 405F5EC0
SLOT 7:001113: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRS: RX WAHOO: WAHOO_CSRAM_CNTRL_INT PIPE0 error 8
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRSSS: RX WAHOO: WAHOO_FFCRAM_CNTRL_INT PIPE0 error 4  addr 3FBFAB8  agent 94
SLOT 7:001114: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRSSSS: RX WAHOO: WAHOO_PPC_INT PIPE1 error pl_ctl 4000226 pl_aa_avl F9F7B pl_aa_end 7FF9 pl_aa_fatal 4800000
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: RX WAHOO WAHOO_NFC_SRAM_MULTI_ECC_ERR multi-bit CSSRAM error 
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_FFCRAM_CNTRL_INT MBE
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: FSRAM not OK WAHOO_FSRAM_CNTRL_INT ECC_1_BIT_EE | ECC_UNCORR_EE
SLOT 6:Oct  4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error
SLOT 1:00:01:14: WEEKLY_THROTTLE_SOCKEYE_SBE: SOCKEYE SBE: addr: 0xC2A007C0, synd: 0xC4
SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_TX+i: CBSRAM SBE TX: 1-bit CBSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_RX+i: CBSRAM SBE RX: 1-bit CBSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_TX+i: CSSRAM SBE TX: 1-bit CSSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_RX+i: CSSRAM SBE RX: 1-bit CSSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_TX+i: CSRAM SBE TX: 1-bit CSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_RX+i: CSRAM SBE RX: 1-bit CSRAM error.
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_TX+throttle_i: TX FTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_RX+throttle_i: RX FTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_TX+throttle_i: TX CLTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_RX+throttle_i: RX CLTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_TX+throttle_i: TX NFTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_RX+throttle_i: RX NFTCAM PRTY error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_VMR: TCAM PRTY VMR error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_NO-VMR: TCAM PRTY NO-VMR error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_RX: FCRAM SBE TX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_PER_CHIP_SBE_TX: FCRAM CHIP SBE error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FCRAM_PER_CHIP_SBE_RX: FCRAM CHIP SBE error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_TX: FSRAM SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_RX: FSRAM SBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_TX: FSRAM MBE RX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_RX: FSRAM MBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_TX: ISERR TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_RX: ISERR RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_RX: FCRAM SBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_TX: QSRAM LINK SBE TX error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_RX: QSRAM LINK SBE RX error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe tx error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe rx error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_BADDR_SBE_TX: qsram bad addr sbe tx error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_ QM_QSRAM_BADDR_SBE_RX: qsram bad addr sbe rx error, status = 0x3
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_TX: oqllm sbe tx error, status = 0x2
SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_RX: oqllm sbe rx error status = 0x3

Messaggi di errore della scheda di linea basata sul motore 6

Nell'output della console è possibile visualizzare i seguenti errori:

SLOT 0:Jan 14 08:53:44.581 GMT: %FIA-3-RAMECCERR: To Fabric ECC error was detected Single Bit Error RAM2 status = 0x8000  
Syndrome = 0x0 addr = 0x0
SLOT 6:Apr 29 09:36:12: %E6LC-4-ECC_THRESHOLD: HERMES VID SBE exceeded threshold, possible memory failure
SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_SBE: Head1 Syndrome=0x94 Addr=0xFFF2B 
-Traceback= 40544830 40546A90 40688C94 400EDC18
SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_SBE: Syndrome=0x59 Addr=0xFFF2B
-Traceback= 40000830 40036A90 40555D44 400ddd23
SLOT 14:Dec  9 20:02:29: %E6_RX192-6-PBC_SBE: Single bit error detected and corrected RLDRAM 
Syndrome=0x61 Addr=0xF855
Dec  9 20:02:33: %GRP-4-RSTSLOT: Resetting the card in the slot: 14,Event: linecard error report
SLOT 4:06:21:43: %E6_RX192-3-ACL_SBE: ACTION MEM Syndrome=0x7 Addr=0x0
-Traceback= 40549740 4054A7E0 4068D814 400EE018
SLOT 6:Mar 28 03:30:19: %RX192-3-HINTR: status = 0x1000000000000, mask = 0x7FFFFF0FA320F - L3X SBE error.
-Traceback= 405816DC 406A1010 406A1650 400F70E8
SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_SBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B
SLOT 6:Nov 27 23:32:36: %HERA-3-PKTMEM_SBE: Single bit error detected and corrected Error=0x80 – 
Syndrome=0x5100000000000000 Addr=0x894620 Data bit116
SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_SBE: Single bit error detected and corrected Error=0x50 – 
Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_SBE: Single bit error detected and corrected Error=0x50 – 
Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 12:May 24 03:03:36: %HERA-6- UPF_SBE: Single bit error detected and corrected Error=0x60 – 
Syndrome=0x4100000000000000 Addr=0x451140 Data bit216
SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
SLOT 9:May  5 18:52:14: %HERA-6-QM_FBF_SBE: Free Block FIFO - Single Bit Error detected and corrected 
Syndrom = 0x10, Addr = 0x778, samebit Yes, diffbit No
SLOT 9:May  5 18:52:14: %HERA-3-QM: Error=0x40 - FBF RAM ECC SBE.
-Traceback= 405AD4CC 405AF5D0 405F2E80 406DCDB8 406DD434 400FC500
SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_SBE: Average Queue Depth - Single Bit Error detected and corrected 
Syndrome = 0x7, Address = 0x89, samebit No, diffbit No
SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_SBE: Statistics - Single Bit Error detected and corrected 
Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No
SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_MBE: Single bit error detected and corrected Head1 
Syndrome=0x94 Addr=0xFFF2B
SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_MBE: Syndrome=0x59 Addr=0xFFF2B
-Traceback= 40000830 40036A90 40555D44 400ddd23
00:00:18: %E6_RX192-3-PBC_MBE: ADJ OBANK LO Syndrome=0xE5 Addr=0x142
-Traceback= 405BF8B0 405C0F08 406E8D78 406E93B8 400FCCE0
SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_MBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B
SLOT 0:Apr 18 06:44:53.751 GMT: %HERA-3-PKTMEM_MBE: Error=0x1010 - Syndrome=0x9900000000
SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_MBE: Single bit error detected and corrected Error=0x50 – 
Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_MBE: Single bit error detected and corrected Error=0x50 - Syndrome=0x3100000000000000 Addr=0x331110 Data bit216
SLOT 13:Dec  5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C
SLOT 9:May  5 18:52:14: %HERA-6-QM_FBF_MBE: Free Block FIFO - Single Bit Error detected and corrected 
Syndrome = 0x10, Addr = 0x778, samebit Yes, diffbit No
SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_MBE: Average Queue Depth - Single Bit Error detected and corrected 
Syndrome = 0x7, Address = 0x89, samebit No, diffbit No
SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_MBE: Statistics - Single Bit Error detected and corrected 
Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No

Messaggi di errore SPA

Nell'output della console è possibile visualizzare i seguenti errori:

SLOT 7:Jan 4 02:04:00.487: %SPA_CHOC_DSX-3-UNCOR_PARITY_ERR:  SPA4/0: CHOC SPA parity error(s) encountered
SLOT 7:Jan 4 02:04:00.487: %MCT1E1-3-UNCOR_PARITY_ERR:  SPA5/0: T1E1 SPA parity error(s) encountered
SLOT 3: 00:33:48: %MCT1E1-3-UNCOR_MEM_ERR: SPA3/0: 1 uncorrectable HDLC SRAM memory error(s) encountered.
SLOT 1:Oct  3 14:42:45.727: %SPA_PLIM-4-SBE_ECC: SPA-4XT3/E3[1/2] reports 2 SBE occurrence at 1 addresses
SLOT 1: Jul 22 05:26:29.613 UTC: %SPA_DATABUS-3-SPI4_SINGLE_DIP4_PARITY: SIP Sbslt 0 Ingress Sink - A single DIP4 parity error has occurred on the data bus.
SLOT 4: Dec  2 22:44:05: %SPA_DATABUS-3-SPI4_SINGLE_DIP2_PARITY: SIP Sbslt 0 Egress Source - A single DIP 2 parity error on the FIFO status bus has occurred.
SLOT 1:Oct  3 14:42:45.727: %SPA_PLIM-4-SBE_OVERFLOW: SPA-4XT3/E3[1/2] reports SBE table (2 elements) overflows
SLOT 1:Oct  3 14:42:45.727: % SPA_PLUGIN-3-SPI4_SETCB: SPA-4XT3/E3[1/2] : IPC SPI4 set callback failed(status 2).

Errori di parità nelle schede fabric di switching Cisco serie 12000

Tutti i messaggi di errore di parità relativi allo switching delle schede fabric sono illustrati in dettaglio in Risoluzione dei problemi hardware per Cisco serie 12000 Internet Router. Tali messaggi comprendono (elenco non esaustivo):

%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error 
Data = 0x2.

SLOT 1:%FABRIC-3-PARITYERR: To Fabric parity error was detected. 

Grant parity error Data = 0x1