La documentazione per questo prodotto è stata redatta cercando di utilizzare un linguaggio senza pregiudizi. Ai fini di questa documentazione, per linguaggio senza di pregiudizi si intende un linguaggio che non implica discriminazioni basate su età, disabilità, genere, identità razziale, identità etnica, orientamento sessuale, status socioeconomico e intersezionalità. Le eventuali eccezioni possono dipendere dal linguaggio codificato nelle interfacce utente del software del prodotto, dal linguaggio utilizzato nella documentazione RFP o dal linguaggio utilizzato in prodotti di terze parti a cui si fa riferimento. Scopri di più sul modo in cui Cisco utilizza il linguaggio inclusivo.
Cisco ha tradotto questo documento utilizzando una combinazione di tecnologie automatiche e umane per offrire ai nostri utenti in tutto il mondo contenuti di supporto nella propria lingua. Si noti che anche la migliore traduzione automatica non sarà mai accurata come quella fornita da un traduttore professionista. Cisco Systems, Inc. non si assume alcuna responsabilità per l’accuratezza di queste traduzioni e consiglia di consultare sempre il documento originale in inglese (disponibile al link fornito).
In questo documento viene spiegato come risolvere i problemi di arresto anomalo delle schede di linea sui Cisco serie 12000 Internet Router.
Nessun requisito specifico previsto per questo documento.
Le informazioni fornite in questo documento si basano sulle seguenti versioni software e hardware:
Tutti i Cisco serie 12000 Internet Router, inclusi i router 12008, 12012, 12016, 12404, 12406, 12410 e 12416.
Tutte le versioni software Cisco IOS® che supportano Cisco serie 12000 Internet Router.
Le informazioni discusse in questo documento fanno riferimento a dispositivi usati in uno specifico ambiente di emulazione. Su tutti i dispositivi menzionati nel documento la configurazione è stata ripristinata ai valori predefiniti. Se la rete è operativa, valutare attentamente eventuali conseguenze derivanti dall'uso dei comandi.
Per ulteriori informazioni sulle convenzioni usate, consultare il documento Cisco sulle convenzioni nei suggerimenti tecnici.
In questa sezione viene illustrato come identificare un arresto anomalo di una scheda di linea.
Per identificare rapidamente un arresto anomalo di una scheda di linea, utilizzare il comando show context summary:
Router#show context summary CRASH INFO SUMMARY Slot 0 : 0 crashes Slot 1 : 0 crashes Slot 2 : 0 crashes Slot 3 : 0 crashes Slot 4 : 1 crashes 1 - crash at 04:28:56 EDT Tue Apr 20 1999 Slot 5 : 0 crashes Slot 6 : 0 crashes Slot 7 : 0 crashes Slot 8 : 0 crashes Slot 9 : 0 crashes Slot 10: 0 crashes Slot 11: 0 crashes
Se l'arresto anomalo interessa il router stesso (e non solo la scheda di linea), consultare il documento sulla risoluzione dei problemi di blocco del router.
Per raccogliere i dati sull'arresto anomalo, usare i comandi mostrati nella tabella 1.
Tabella 1 - Comandi da utilizzare per raccogliere i dati sull'arresto anomaloComando | Descrizione |
---|---|
show version | Fornisce informazioni generali sulle configurazioni hardware e software del sistema. |
show logging (visualizza registri) | Visualizza i registri generali del router. |
show diag [slot #] | Fornisce informazioni specifiche su uno slot specifico: tipo di motore, revisioni hardware, configurazione della memoria e così via. |
show context slot [slot #] | Fornisce informazioni di contesto sugli arresti anomali recenti. Si tratta spesso del comando più utile per la risoluzione dei problemi di arresto anomalo delle schede di linea. |
dump | Un core dump di una scheda di linea è il contenuto completo della sua memoria al momento dell'arresto anomalo. Questi dati non sono in genere necessari per una risoluzione iniziale dei problemi. Potrebbe essere richiesto in seguito se il problema si rivela essere un nuovo bug software. In questo caso, consultare il documento sulla configurazione di un core dump su una scheda di linea GSR. |
Se il dispositivo Cisco restituisce i risultati di un comando show tech-support (in modalità di abilitazione), è possibile usare per visualizzare potenziali problemi e correzioni. Per utilizzare , è necessario essere un cliente registrato, aver eseguito l'accesso e avere JavaScript abilitato.
Controllare il valore del campo sig= nell'output show context slot [slot#]:
Router#show context slot 4 CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 VERSION: GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) Compiled Mon 28-Dec-98 14:53 by tamb Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL System exception: SIG=20, code=0xA414EF5A, context=0x40337424 Traceback Using RA STACK TRACE: traceback 4014CFC0 40141AB8 40143944 4014607C 4014A7EC 401499D4 40149BB4 40149FD4 40080118 40080104 CONTEXT: $0 : 00000000, AT : 40330000, v0 : 00000000, v1 : 00000038 a0 : 4094EF58, a1 : 00000120, a2 : 00000002, a3 : 00000001 t0 : 00000010, t1 : 3400BF01, t2 : 34008D00, t3 : FFFF00FF t4 : 400A1410, t5 : 00000002, t6 : 00000000, t7 : 4041783C s0 : 4093F980, s1 : 4093F980, s2 : 4094EEF0, s3 : 4094EF00 s4 : 00000000, s5 : 00000001, s6 : 00000000, s7 : 00000000 t8 : 34008000, t9 : 00000000, k0 : 404D1860, k1 : 400A2F68 gp : 402F3070, sp : 4082BFB0, s8 : 00000000, ra : 400826FC EPC : 0x40098824, SREG : 0x3400BF04, Cause : 0x00000000 ErrorEPC : 0x4015B7E4
Vedere Tabella 2 per individuare il motivo dell'errore che corrisponde al valore SIG registrato.
Tabella 2 - Individuare l'errore corrispondente al valore SIGValore SIG | Nome SIG | Motivo dell'errore |
---|---|---|
2 | SIGINT | Interruzione hardware imprevista. |
3 | CHIUDI | Interrompi a causa della chiave di interruzione. |
4 | SIGILLO | Eccezione opcode non valida. |
5 | SIGTRAP | Interruzione causata da un punto di interruzione o da un'eccezione aritmetica. |
8 | SIGFPE | Eccezione unità di elaborazione in virgola mobile (FPU). |
9 | SIGKILL | Eccezione riservata. |
10 | SIGBUS | Eccezione di errore del bus. |
11 | SIGSEGV | Eccezione SegV. |
20 | SIGCACHE | Eccezione di parità della cache. |
21 | SIGWBERR | Interruzione dell'errore bus di scrittura. |
22 | SIGERROR | Errore hardware irreversibile. |
23 | SIGRELOAD | Arresto forzato del software. |
Nota: le eccezioni di parità della cache (SIG=20), le eccezioni di errore del bus (SIG=10) e gli arresti anomali forzati del software (SIG=23) rappresentano oltre il 95% degli arresti anomali della scheda di linea.
Cisco serie 12000 supporta il comando diag [slot#] per testare i diversi componenti della scheda. Questo comando è utile per la risoluzione dei problemi relativi all'hardware e per identificare la scheda difettosa.
L'opzione verbose (Dettagliata) consente al router di visualizzare l'elenco dei test mentre vengono eseguiti. In caso contrario, viene semplicemente visualizzato il messaggio "PASSED" o "FAILURE".
Nota: l'esecuzione di questa diagnostica arresta tutte le attività della scheda di linea per la durata dei test (generalmente circa cinque minuti).
A partire dal software Cisco IOS versione 12.0(22)S, Cisco ha separato l'immagine della scheda di linea diagnostica sul campo del router Internet Cisco serie 12000 dall'immagine del software Cisco IOS. Nelle versioni precedenti, la diagnostica può essere avviata dalla riga di comando e l'immagine incorporata viene avviata. Per soddisfare le esigenze dei clienti che dispongono di schede di memoria flash da 20 MB, la diagnostica sul campo della scheda di linea viene ora memorizzata e gestita come immagine separata che deve essere disponibile su una scheda di memoria flash o su un server di avvio TFTP (Trivial File Transfer Protocol) prima che i comandi di diagnostica sul campo possano essere utilizzati. La diagnostica sul campo del processore del router e del fabric dello switch continua ad essere fornita in bundle e non deve essere avviata da un'immagine separata. Per ulteriori informazioni, consultare il documento Field Diagnostics per Cisco serie 12000 Internet Router.
Di seguito è riportato un esempio di output del comando diag [slot#]:
Router#diag 3 verbose Running DIAG config check Running Diags will halt ALL activity on the requested slot. [confirm] CR1.LND10# Launching a Field Diagnostic for slot 3 Downloading diagnostic tests to slot 3 (timeout set to 400 sec.) Field Diag download COMPLETE for slot 3 FD 3> ***************************************************** FD 3> GSR Field Diagnostics V3.0 FD 3> Compiled by award on Tue Aug 3 15:58:13 PDT 1999 FD 3> view: award-bfr_112.FieldDiagRelease FD 3> ***************************************************** FD 3> BFR_CARD_TYPE_OC48_1P_POS testing... FD 3> running in slot 3 (128 tests) Executing all diagnostic tests in slot 3 (total/indiv. timeout set to 600/200 sec.) FD 3> Verbosity now (0x00000001) TESTSDISP FDIAG_STAT_IN_PROGRESS: test #1 R5K Internal Cache FDIAG_STAT_IN_PROGRESS: test #2 Burst Operations FDIAG_STAT_IN_PROGRESS: test #3 Subblock Ordering FDIAG_STAT_IN_PROGRESS: test #4 Dram Marching Pattern FDIAG_STAT_DONE_FAIL test_num 4, error_code 6 Field Diagnostic: ****TEST FAILURE**** slot 3: last test run 4, Dram Marching Pattern, error 6 Field Diag eeprom values: run 2 fail mode 1 (TEST FAILURE) slot 3 last test failed was 4, error code 6 Shutting down diags in slot 3 slot 3 done, will not reload automatically
A seconda dell'errore rilevato, lo slot potrebbe essere ricaricato o meno automaticamente. In caso contrario, potrebbe essere bloccato o in uno stato incoerente (controllare con il comando show diag [slot #] ) finché non viene ricaricato manualmente. Si tratta di un comportamento normale. Per ricaricare manualmente la scheda, usare il comando hw-module slot [slot#]reload.
È possibile identificare le eccezioni di parità della cache dal SIG=20 nell'output show context [slot #].
Se il dispositivo Cisco restituisce i risultati di un comando show tech-support (in modalità di abilitazione), è possibile usare per visualizzare potenziali problemi e correzioni. Per utilizzare , è necessario essere un cliente registrato, aver eseguito l'accesso e avere JavaScript abilitato.
Esistono due tipi diversi di errori di parità:
Errori di soft parity - Si verificano quando un livello di energia all'interno del chip (ad esempio, uno o zero) cambia. In caso di errore di parità soft, non è necessario sostituire la scheda o uno dei componenti.
Errori di parità hardware: si verificano quando si verifica un errore del chip o della scheda che causa il danneggiamento dei dati. In questo caso, è necessario ricollocare o sostituire il componente interessato, in genere uno scambio di chip di memoria o di schede. Si verifica un errore di parità hardware quando più errori di parità vengono rilevati nello stesso indirizzo. Ci sono casi più complicati che sono più difficili da identificare ma, in generale, se in una particolare area di memoria si rileva più di un errore di parità in un periodo di tempo relativamente breve (da diverse settimane a mesi), questo può essere considerato un errore di parità difficile.
Gli studi hanno dimostrato che gli errori di parità soft sono da 10 a 100 volte più frequenti degli errori di parità hard.
Per risolvere questi errori, individuare una finestra di manutenzione in cui eseguire il comando diag per lo slot.
Se la diagnosi causa un errore, sostituire la scheda di linea.
Se non si verifica alcun errore, è probabile che si verifichi un errore di parità soft e che la scheda di linea non debba essere sostituita (a meno che non si blocchi una seconda volta con un errore di parità dopo un breve periodo di tempo).
È possibile identificare le eccezioni di errore del bus dal SIG=10 nell'output show context [slot #].
Se il dispositivo Cisco restituisce i risultati di un comando show tech-support (in modalità di abilitazione), è possibile usare per visualizzare potenziali problemi e correzioni. Per utilizzare , è necessario essere un cliente registrato, aver eseguito l'accesso e avere JavaScript abilitato.
Questo tipo di arresto anomalo è in genere correlato al software, ma se per qualche motivo (ad esempio, si tratta di una scheda nuova di zecca o gli arresti anomali iniziano dopo un'interruzione dell'alimentazione) si ritiene che il problema possa essere correlato all'hardware, eseguire il comando diag per lo slot interessato.
Nota: è noto che alcuni bug del software causano la segnalazione di errori da parte del comando diag, anche se non ci sono problemi con l'hardware. Se una scheda è già stata sostituita ma non supera lo stesso test nella diagnostica, il problema potrebbe riguardare l'utente. In tal caso, trattare il crash come un problema software.
L'aggiornamento all'ultima versione del software Cisco IOS elimina tutti i bug corretti che causano errori del bus della scheda di linea. Se il problema persiste anche dopo l'aggiornamento, raccogli le informazioni appropriate (vedi Raccogliere informazioni sull'errore), mostra il supporto tecnico e qualsiasi informazione ritenuta utile (come una recente modifica della topologia o una nuova funzionalità implementata di recente) e contatta il rappresentante del supporto Cisco.
È possibile identificare gli arresti anomali forzati dal software con SIG=23 nell'output show context [slot #]. Nonostante il nome, questi arresti anomali non sono sempre legati al software.
Se il dispositivo Cisco restituisce i risultati di un comando show tech-support (in modalità di abilitazione), è possibile usare per visualizzare potenziali problemi e correzioni. Per utilizzare , è necessario essere un cliente registrato, aver eseguito l'accesso e avere JavaScript abilitato.
La causa più comune degli arresti anomali dovuti a software è il "Timeout del ping del fabric". Durante il normale funzionamento del router, il processore di routing (RP) effettua continuamente il ping delle schede di linea. Se una scheda di linea non risponde, il processore di routing decide di reimpostarla. Il risultato è un arresto forzato del software (SIG=23) della scheda di linea interessata e i seguenti errori dovrebbero essere visualizzati nei log del router:
Mar 12 00:42:48: %GRP-3-FABRIC_UNI: Unicast send timed out (4) Mar 12 00:42:50: %GRP-3-COREDUMP: Core dump incident on slot 4, error: Fabric ping failure
Per risolvere i problemi di timeout del ping dell'infrastruttura, è necessario capire perché la scheda di linea non ha risposto al ping. Le cause possono essere diverse:
Nella scheda di linea è presente un elevato utilizzo della CPU. È possibile verificare questa condizione utilizzando il comando execute-on slot [slot #] show proc cpu. Se la CPU è effettivamente alta (oltre il 95%), fare riferimento alla sezione Risoluzione dei problemi di utilizzo elevato della CPU sui router Cisco.
Sono presenti bug software nella comunicazione tra processi (IPC) o la scheda di linea sta esaurendo i buffer IPC. La maggior parte delle volte questi ricaricamenti forzati dal software sono causati da bug del software.
L'aggiornamento all'ultima versione del software Cisco IOS elimina tutti i bug risolti che causano timeout del ping dell'infrastruttura. Se il problema persiste anche dopo l'aggiornamento, raccogliere le informazioni appropriate (vedere Recupero di informazioni sull'arresto anomalo), mostrare il supporto tecnico, visualizzare lo stato dell'ipc e qualsiasi informazione ritenuta utile (ad esempio, una recente modifica della topologia o una nuova funzionalità implementata di recente) e contattare il supporto tecnico Cisco.
Guasto hardware: se la scheda funziona correttamente da molto tempo e non sono state apportate modifiche recenti alla topologia, al software o alle funzionalità, oppure se il problema si è verificato dopo un trasferimento o un'interruzione dell'alimentazione, è possibile che la causa sia un guasto hardware. Eseguire il comando diag sulla scheda di linea interessata. In caso di guasto, sostituire la scheda di linea. Se sono interessate più schede di linea o il diag è corretto, sostituire il tessuto.
L'errore TXECCERR/RXECCERR si verifica quando l'interrupt dell'errore ECC irreversibile RxFIFO o TxFIFO si verifica in MAC per un valore superiore al valore di soglia nell'intervallo di tempo. Gli errori ECC irreversibili non possono essere corretti dalla logica ECC. Quando si verifica un errore irreversibile durante la lettura di RxFIFO, il pacchetto a cui appartengono i dati viene contrassegnato con EOP/Abort sull'interfaccia di ricezione SPI4 e viene scartato dagli strati superiori.
Ciò è dovuto all'hardware e viene corretto una volta ricaricato il SIP/SPA. La soluzione permanente è sostituire il SIP/SPA per evitare gli errori.
Altri tipi di incidenti sono, di gran lunga, meno comuni dei due sopra menzionati. Nella maggior parte dei casi, il comando diag deve indicare se la scheda deve essere sostituita o meno. Se la scheda supera correttamente il test diagnostico, valutare l'opportunità di aggiornare il software.
Se dopo aver eseguito le procedure di risoluzione dei problemi descritte sopra è ancora necessaria assistenza e si desidera aprire una richiesta di assistenza (solo utenti registrati) con Cisco TAC, includere le seguenti informazioni: |
---|
Nota: non ricaricare o spegnere e riaccendere manualmente il router prima di aver raccolto le informazioni sopra menzionate, a meno che non sia necessario per risolvere un problema di scheda di linea sul router Cisco Internet serie 12000. Questa situazione può causare la perdita di informazioni importanti necessarie per determinare la causa principale del problema. |
Revisione | Data di pubblicazione | Commenti |
---|---|---|
1.0 |
23-Apr-2007 |
Versione iniziale |