In diesem Dokument werden die Schritte zur Fehlerbehebung und Isolierung eines defekten Teils oder einer Komponente des Cisco Internet Routers der Serie 1200 beschrieben, nachdem Sie eine Reihe von Paritätsfehlermeldungen erhalten haben.
Hinweis: Dieses Dokument behandelt nicht die Ursache von Paritätsfehlern. Wenn Sie an einer präziseren Definition von Paritätsfehlern (auch bekannt als Single Event Upsets - SEUs) und deren möglicher Ursache interessiert sind, empfehlen wir Ihnen, die Dokumente zu lesen, die auf der Erhöhen der Netzwerkverfügbarkeit verlinkt sind.
Weitere Informationen zu Dokumentkonventionen finden Sie in den Cisco Technical Tips Conventions.
Bevor Sie mit diesem Dokument fortfahren, sollten Sie die folgenden Dokumente lesen:
Die Informationen in diesem Dokument basieren auf den unten stehenden Software- und Hardwareversionen.
Cisco Internet Router der Serie 1200
Alle Versionen der Cisco IOS®-Software
Die in diesem Dokument enthaltenen Informationen wurden aus Geräten in einer bestimmten Laborumgebung erstellt. Alle in diesem Dokument verwendeten Geräte haben mit einer leeren (Standard-)Konfiguration begonnen. Wenn Sie in einem Live-Netzwerk arbeiten, stellen Sie sicher, dass Sie die potenziellen Auswirkungen eines Befehls verstehen, bevor Sie es verwenden.
Die meisten Routingprozessoren und Line Cards für Cisco Internet Router der Serie 12000 umfassen ECC-Funktionen (Error Code Correction). Es gibt jedoch einige Line Cards im Feld, die nicht über die ECC-Funktion verfügen. Die ECC-Funktionalität deckt nur den RAM- oder SDRAM-Speicher (Synchronous Dynamic RAM) auf den Karten ab. Der Rest ist nicht durch ECC geschützt.
Im Folgenden werden die ECC-Funktionen für Linecards verglichen, die mit der Cisco Serie 12000 verwendet werden:
Alle Karten der Engine 2 und neuer verfügen über ECC-Funktionalität.
Modul 1-Karten nach Erstauslieferung in ECC geändert.
Modul 0-Karten verfügen nicht über ECC-Funktionalität.
Einige Karten können auf ähnliche Produkte aufgerüstet werden, die die ECC-Funktionalität integrieren.
In der folgenden Tabelle sind die Produkte mit ECC-Funktionen aufgeführt:
Nicht-ECC-Produkte | ECC-Produkte |
---|---|
GRP(=) | GRP-B(=) |
GE-SX/LH-SC(=) | GE-GBIC-SC-B(=) |
GE-GBIC-SC-A(=) | GE-GBIC-SC-B(=) |
8FE-FX-SC(=) | 8FE-FX-SC-B(=) |
8FE-TX-RF45(=) | 8FE-TX-RJ45-B(=) |
6DS3-SMB(=) | 6DS3-SMB-B(=) |
12DS3-SBM(=) | 12DS3-SMB-B(=) |
OC12/SRP-IR-SC(=) | OC12/SRP-IR-SC-B(=) |
OC12/SRP-MM-SC(=) | OC12/SRP-mm-SC-B(=) |
OC12/SRP-LR-SC(=) | OC12/SRP-LR-SC-B(=) |
Hinweis: -B und ECC sind unabhängig. -B bedeutet, dass das Produkt eine zweite große bestellbare Version des Motherboards ist. In einigen Fällen war dies die Überarbeitung der ECC.
Cisco bietet einen Technology Migration Plan (TMP) an, mit dem Sie ein Nicht-ECC-Mainboard auf ein neues ECC-Mainboard aktualisieren können. Für den Kauf des neuen ECC-Vorstands im Gegenzug für den Vorstand außerhalb der ECC wird eine Gutschrift gewährt.
Das folgende Flussdiagramm hilft Ihnen festzustellen, welche Komponente des Cisco Internet-Routers der Serie 1200 für ECC-Fehlermeldungen (Parity/Error Code Correction) auf dem Gigabit Route Processor (GRP) verantwortlich ist.
Hinweis: Erfassen und notieren Sie die show tech-support-Ausgabe und die Konsolenprotokolle, und sammeln Sie alle Crashinfo-Dateien während Paritäts-/ECC-Fehlerereignissen.
Das folgende Diagramm hilft Ihnen zu bestimmen, welche Komponente einer Cisco Internet Router Line Card der Serie 12000 für ECC-Fehlermeldungen (Parity/Error Code Correction) zuständig ist:
Hinweis: Wenn bei einer Linecard ein Paritäts-/ECC-Fehlerereignis auftritt, sammeln Sie so viele Informationen wie möglich (weitere Informationen finden Sie unter Fehlerbehebung bei Line Card-Abstürzen auf dem Cisco Internet Router der Serie 12000).
Der Cisco Internet Router der Serie 1200 behebt Paritätsfehler in anderen Linecard-Memories (SDRAM und SRAM), ohne dass Abstürze auftreten.
Daten mit schlechter Parität können von mehreren Paritätsprüfungsgeräten für alle Lese- und Schreibvorgänge auf dem Cisco Internet Router der Serie 12000 gemeldet werden.
GRP-B und PRP verwenden Single Bit Error Correction und Multi-Bit Error Detection ECC in Shared Memory (SDRAM). Ein einzelner Bit-Fehler im SDRAM wird automatisch korrigiert, und das System funktioniert weiterhin wie gewohnt.
PRP und GRP-B verfügen über den erweiterten DRAM-Controller (Dynamic RAM), der ECC unterstützt. Aus diesem Grund können sie Einzelbitfehler korrigieren und Multi-Bit-Fehler melden. Die Korrektur eines Einzelbitfehlers sieht wie folgt aus:
%Tiger-3-SBE: Single bit error detected and corrected at <address>
SBEs werden durch den Error Correction Circuit korrigiert und beeinträchtigen nicht die Funktionalität von GRP-B oder PRP. Bei Einzelbitfehlern ist keine Aktion erforderlich, es sei denn, sie treten häufig auf. In diesem Fall ist es ratsam, die Prozessorplatine auszutauschen.
Die Erkennung eines Multi-Bit-Fehlers wird durch eine Busfehler-Ausnahme oder eine Paritätsfehler-Ausnahme für den CPU-Cache gemeldet.
Eine Prozessorspeicherparitätsfehler-Meldung wird angezeigt, wenn die CPU einen Paritätsfehler beim Zugriff auf den externen Cache (L3 auf der GRP) des Prozessors über den SysAD-Bus oder einen der internen CPU-Cache-Speicher (L1 oder L2) erkennt. In Tabelle 1 sind Beispiele für Meldungen aufgeführt, die für die einzelnen Typen von Cache-Paritätsfehlern ausgegeben werden:
Tabelle 1: Speicherort für Paritätsfehler im Cache
Ort des Paritätsfehlers | Fehlermeldung |
---|---|
L1-Anweisungscache | Fehler: Primär, Instant-Cache, Felder: Daten |
L1-Datencache | Fehler: Primär, Datencache, Felder: Daten |
L2-Anweisungscache | Fehler: SysAD, Instant-Cache, Felder: Daten |
L2-Datencache | Fehler: SysAD, Datencache, Felder: Daten |
L3-Anweisungscache | Fehler: SysAD, Instant-Cache, Felder: 1. Gedankenwort |
L3-Datencache | Fehler: SysAD, Datencache, Felder: 1. Gedankenwort |
Beispiel:
Die erste Zeile der Fehlermeldung gibt den Ort des Paritätsfehlers an und kann ein beliebiger Ort sein, der in Tabelle 1 aufgeführt ist. In diesem Beispiel ist der Speicherort L3 Instruction Cache.
Error: SysAD, instr cache, fields: data, 1st dword Physical addr(21:3) 0x000000, virtual addr 0x6040BF60, vAddr(14:12) 0x3000 virtual address corresponds to main:text, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01 Low Data High Data Par Low Data High Data Par DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
Die Ausgabe der Anzeigeversion sollte ähnlich wie folgt aussehen:
...System was restarted by processor memory parity error at PC 0x602310D0, address 0x0 at 03:18:21 GMT Sun Oct 27 2002 ...
In der Ausgabe show context sehen Sie, dass das System von einer Cache Parity Exception neu gestartet wurde:
Router#show context slot 11 CRASH INFO: Slot 11, Index 1, Crash at 19:08:07 CST Thu Nov 14 2002 VERSION: GS Software (GSR-P-M), Version 12.0(22)S1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) TAC Support: http://www.cisco.com/tac Compiled Mon 16-Sep-02 17:36 by nmasa Card Type: Route Processor, S/N LC uptime was 0 minutes. System exception: sig=20, code=0xE42F3E4B, context=0x52CF3D44 System restarted by a Cache Parity Exception STACK TRACE: -Traceback= 5020453C 500E5E24 5010E6DC 5015F89C 501E9F6C 501E9F58 ...
Ersetzen Sie die GRP oder den PRP nach einem zweiten Fehler.
Die folgende Meldung kann in der Konsolenausgabe angezeigt werden:
SEC 7: %GRP-3-PARITYERR: Parity error detected in the fabric buffers. Data (8)
Diese Meldung bedeutet, dass ein Paritätsfehler von der Fabric-Schnittstellenhardware auf der GRP erkannt wurde. Die Hexadezimalzahl gibt den Fehlerstörungsvektor an. Dies weist normalerweise auf ein Hardwareproblem auf der GRP hin, das den Fehler meldet (in diesem Fall Steckplatz 7). Die fehlerhafte GRP sollte beim zweiten Auftreten eines ähnlichen Problems ersetzt werden.
Diese Fehlermeldung wird angezeigt, wenn der Router Daten mit schlechter Parität empfängt.
Daten mit schlechter Parität werden von mehreren Paritätsprüfungsgeräten für Lese- und Schreibvorgänge gemeldet, die auf dem Cisco Internet Router der Serie 12000 ausgeführt werden.
PRP verwendet Single Bit Error Correction und Multi-Bit Error Detection ECC zur gemeinsamen Nutzung von Speicher (SDRAM). Ein einzelner Bit-Fehler im SDRAM wird automatisch korrigiert, und das System funktioniert weiterhin wie gewohnt.
Single-Bit-Fehler (SBE) werden durch den Error Correction Circuit (ECC) korrigiert und beeinträchtigen die Funktion des PRP nicht. Bei Einzelbitfehlern ist keine Aktion erforderlich, es sei denn, sie treten häufig auf.
Wenn der Fehler häufig auftritt, empfiehlt es sich, die Prozessorplatine auszutauschen.
ECC-Fehler (Error Correcting Code) für SDRAM (Single Bit)
Ein Einzelbitfehler ist ein einzelnes Datenbit, das in einem aus dem Speicher gelesenen Wort falsch ist. Bei SBEs kann der Fehler ohne Betriebsunterbrechung korrigiert werden.
Einzelbitfehler werden erkannt, und die korrigierten Daten werden angezeigt. Einbit-Fehler werden z. B. für Engine 4/4+ wie folgt gemeldet:
SLOT 6:Jul 19 07:37:34: %TX192-3-SDRAM_SBE: Error=0x2 - DIMM1 Syndrome=0x7600 Addr=0xBEA09 Data bit80-Traceback= 401C8C9C 401C9508 401CDE08 401CDE40 4007F674 4009ED0C 4009ECF8
SBEs werden durch den Error Correction Circuit korrigiert und haben keine Auswirkungen auf die Funktionalität der Linecard. Bei Einzelbitfehlern ist keine Aktion erforderlich, es sei denn, sie treten häufig auf. In diesem Fall ist es ratsam, die Linecard zu ersetzen.
SDRAM-Multi-Bit-ECC-Fehler
Ein Multi-Bit-Fehler tritt auf, wenn mehr als ein Bit im gleichen Wort falsch ist. Bei MBEs wird der Fehler erkannt, und die Linecard stürzt ab. Das Auftreten von SBEs und MBEs ist sehr selten.
Im Folgenden sehen Sie ein Beispiel für die Meldung, die als Reaktion auf einen Multi-Bit-ECC-Fehler im SDRAM an die Konsole ausgegeben wurde:
SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_SBE: Error=0x808 - DIMM0 Syndrome=0x31000000 Addr=0x81034 Data bit120 -Traceback= 401C8C9C 401C9508 40450018 400BF7D4 SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_MBE: Error=0x808 - DIMM0 Syndrome=0x18000000 Addr=0x80834 -Traceback= 401C8D88 401C9508 40450018 400BF7D4
MBEs können nicht durch ECC korrigiert werden und führen dazu, dass die Linecard abstürzt. Die Linecard wird dann neu geladen und vom Routingprozessor wieder in den normalen Betrieb gebracht.
Mithilfe der Felddiagnose kann der Linecard-Speicher auf MBEs überprüft werden. MBEs werden von der Felddiagnose als Speicherfehler erkannt. Im Folgenden sehen Sie ein Beispiel für ein Motherboard, bei dem ein Multi-Bit-Fehler im TX SDRAM aufgetreten ist, bei dem die Felddiagnose fehlgeschlagen ist:
FDIAG_STAT_IN_PROGRESS(5): test #12 TX SDRAM Marching Pattern FD 5> RIM: FD 5> TX Registers FD 5> INT_CAUSE_REG = 0x00000680 FD 5> Unexpected L3FE Interrupt occured. FD 5> ERROR: TX BMA Asic Interrupt Occured FD 5> *** 0-INT: External Interrupt *** FDIAG_STAT_DONE_FAIL(5) test_num 12, error_code 1 Field Diagnostic: ****TEST FAILURE**** slot 5: last test run 12, TX SDRAM Marching Pattern, error 1 Field Diag eeprom values: run 5 fail mode 1 (TEST FAILURE) slot 5 last test failed was 12, error code 1
Wenn Sie über eine QOC48- oder eine OC192-Linecard verfügen, lesen Sie den folgenden Hinweis: QOC48/OC192 SBEs/MBEs. Andernfalls sollten Sie die Linecard nach einem zweiten Ausfall ersetzen.
Überprüfen Sie den Wert des sig=-Felds im Anzeigekontextslot [slot#] Ausgabe:
Router#show context slot 4 CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 VERSION: GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) Compiled Mon 28-Dec-98 14:53 by tamb Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL System exception: SIG=20, code=0xA414EF5A, context=0x40337424 System restarted by a Cache Parity Exception
Einige Karten auf der Engine 1-Weiterleitungs-Engine sind anfällig für interne Cache-Beschädigungen, wenn sie unter sehr spezifischen Spannung- und Temperaturbedingungen betrieben werden.
Die Cache Error Recovery Feature (CERF) ist eine Softwarefunktion in Engine1-Linecards, die Cache-Paritätsfehler erkennt und korrigiert, indem sie Fehler aus dem externen CPU-Cache löscht und die Cache-Zeile aus DRAM aktualisiert. Diese Funktion bietet intelligente Funktionen im CPU-Cache-Managementalgorithmus, mit denen die CPU nach einem Paritätsfehler im Cache-Speicher wiederhergestellt werden kann. Dadurch wird ein Absturz der Linecard verhindert, ohne dass es zu einem Leistungseinbruch kommt.
Hinweis: CERF ist standardmäßig aktiviert. Die Aktivität dieses Software Error Correction Code (ECC) kann mithilfe des Befehls show controller cerf überwacht werden. Um die Funktion zu deaktivieren, verwenden Sie den globalen Konfigurationsbefehl no service cerf.
Siehe Problemhinweis: Cache Parity Error auf GSR 1GE Card für zusätzliche Informationen.
Um festzustellen, auf welcher Weiterleitungs-Engine die Linecard basiert, lesen Sie Wie kann ich feststellen, welche Engine-Karte in der Box ausgeführt wird? vom Cisco Internet Router der Serie 1200: Dokument mit häufig gestellten Fragen.
Wenn die Linecard auf Engine 1 basiert, besteht die Problemumgehung darin, die Cisco IOS-Software auf eine Version zu aktualisieren, die die Cache Error Recovery Feature (CERF) enthält. Diese Funktion wurde erstmals in der Cisco IOS Software-Version 12.0(21)S3 eingeführt. Wenn sie weiterhin durch Cache Parity Exception abstürzt, muss die Linecard ausgetauscht werden.
Wenn die Linecard auf einem anderen Modultyp basiert, sollten Sie die Linecard beim zweiten Auftreten eines ähnlichen Absturzes ersetzen.
Möglicherweise wird die folgende Meldung in den Konsolenprotokollen angezeigt:
SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERRS: L3FE DRAM error 12 address 41E9B9A0 SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 12 addr 41E9B9A0 io 0 addr 0 SLOT 2:Oct 23 17:07:45.531 EST: %GSR-3-INTPROC: Process Traceback= 40080BAC -Traceback= 40357084 40495D30 40496EE0 400CCF98
Diese Meldung meldet einen Paritätsfehler beim Schreiben von CPU-DRAM. L3FE steht für die Layer-3-Weiterleitungs-Engine. Die Linecard sollte beim zweiten Auftreten eines ähnlichen Problems ausgetauscht werden.
Im Folgenden sind einige Fehlermeldungen aufgeführt, auf die Sie möglicherweise stoßen:
In den Protokollen für eine Gigabit-Linecard mit einem Port:
SLOT 5: %LCGE-3-INTR: TX GigaTranslator external interface parity error
Bei neueren Motherboards konnte eine der Verbesserungen darin bestehen, die TX GigaTranslator ASIC durch ein Field-Programmable Gate Array (FPGA) zu ersetzen. Beim zweiten Auftreten eines ähnlichen Problems sollte die Platine ersetzt werden.
In der Konsolenausgabe:
SLOT 6: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error, ECC status = 2 DRAM error status = = 21 SLOT 6: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 21 addr 200020 io 0 addr 0 SLOT 6: %LC-3-ECC: Salsa ECC: Addresses: Salsa returned =429BFDE8 correcting on = 429BFDE8 SLOT 6: %MEM_ECC-3-SBE: Single bit error detected and corrected at 0x429BFDE8 SLOT 6: %MEM_ECC-3-SYNDROME_SBE: 8-bit Syndrome for the detected Single-bit error: 0x8A SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60 SLOT 1:Jun 10 05:29:47.690 EDT: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error,ECC status = 0 DRAM error status =12 SLOT 6:Sep 26 15:18:01: %LC-3-SWECC: L2 event cleared: EPC = 0x40631CCC, CERR = 0xE40BB933, SysAD Addr = 1, total = 1 SLOT 0:Dec 7 13:48:11.480: %LC-3-SWECC_DATA: L2 event cleared: EPC = 0x400A8040, CERR = 0xA01DCE58, l1v = 0x41E3C20441E3C1C5, dv =0x41E3C1C441E3C204, SysAD Addr = 0, total = 1
Diese Meldungen können in die folgenden Teile aufgeteilt werden:
%LC-3-ECC: Salsa ECC - Der L3FE ASIC der Linecard weist einen Fehler auf.
%LC-3-L3FEERR - In der L3FE ASIC-Reg der Linecard ist ein Fehler aufgetreten. Informationen.
%MEM_ECC-3-SBE - Bei einer DRAM-Lesebestätigung wurde ein Fehler mit einem Bit erkannt. Mit dem Befehl show memory ecc können bisher protokollierte Einzelbitfehler ausgelesen werden. Dies entspricht der Fehlermeldung %MEM_ECC-3-SBE_LIMIT.
%MEM_ECC-3-SYNDROME_SBE - Das 8-Bit-Syndrom zur Erkennung eines Single-Bit-Fehlers. Dieser Wert gibt nicht die genaue Position der Bits in Fehler an, sondern kann verwendet werden, um ihre Positionen zu annähern. Dies ist die gleiche Fehlermeldung wie die Fehlermeldung %MEM_ECC-3-SYNDROME_SBE_LIMIT.
Grundsätzlich meldete die Linecard einen Single-Bit-Fehler und berichtigte diesen automatisch. Von Ihrer Seite ist keine Aktion erforderlich, es sei denn, dies tritt häufig auf. In diesem Fall ist es ratsam, die Linecard zu ersetzen.
%LC-3-SWECC_DATA - gibt an, dass ein Cacheereignis in LC in SLOT 0 durch den Software Error Correction Code (SWECC) korrigiert wurde.
Eine weitere mögliche Meldung ist:
SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60
Diese Meldung bedeutet, dass ein Fehler [harter Fehler] mit einem Bit nicht korrigierbar auf einer von DRAM gelesenen CPU erkannt wurde. Der Befehl show memory ecc löscht die bisher protokollierten Einzelbitfehler und zeigt die erkannten Fehleradressenorte an.
Überwachen Sie das System mit dem Befehl show memory ecc (Speicher anzeigen ecc), und ersetzen Sie das DRAM, wenn zu viele Fehler auftreten.
Möglicherweise wird in der Konsolenausgabe der folgende Fehler angezeigt:
SLOT 6: %LC-6-PSAECC: An TLU SDRAM ECC correctable error occurred address 19C49FD SLOT 2:035610: Feb 26 13:09:13.628 UTC: %LC-6-PSAECC: An PLU SDRAM ECC correctable error occurred address 1956059
Das bedeutet, dass der Packet Switching ASIC (PSA) ECC-geschützte SDRAM einen korrigierbaren 1-Bit-Fehler identifiziert hat. Von Ihrer Seite ist keine Aktion erforderlich, es sei denn, diese Meldungen treten häufig auf. In diesem Fall ist es ratsam, die Linecard zu ersetzen.
Diese Fehler werden in der Konsolenausgabe angezeigt:
SLOT 6:00:03:53: %PM622-3-SAR_SRAM_PARITY_ERR: (6/0): Parity error in Reassembly SAR SRAM address: 80000000.Resetting the port SLOT 3:00:00:53: %PM622-3- SAR_MULTIBIT_ECC_ERR: (3/0): Multi-bit ECC Uncorrectable error in SAR SDRAM address: 80000000. Resseting the port. SLOT 4:00:00:53: %PM622-3 SAR_SINGLE_BIT_ECC_ERR: (3/0): ECC corrected an error in SAR SDRAM address: 800000. SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC: RX ALPHA: An PLU SDRAM ECC correctable error occured address 1000C254 SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC2: RX ALPHA: An PLU SDRAM ECC multibit error occured at address 1000E254 SLOT 5:Nov 17 09:46:30.171: %EE48-6-ALPHA_PARITY: TX ALPHA: Transient SRAM64 parity corrected error 3E Data 0 100000 Parity bits 0 SLOT 10:Feb 21 16:55:36: %EE48-3-ALPHA_SRAM64_ERR: TX ALPHA: ALPHA_PST_RANGE_ERR error 11003F Data 0 0 Parity bits 0 SLOT 4:Jan 15 06:30:00.942 UTC: %EE48-2-GULF_TX_SRAM_ERROR: ASIC GULF: TX SRAM uncorrectable error detected. Details=0x0000 SLOT 0:Mar 16 19:50:22.464 cst: %EE48-4-QM_ZBT_PARITY: ToFab Address 0xB95E Data 0x1 SLOT 5:May 17 06:17:35.507: %EE48-4-QM_NON_ZBT_PARITY: ToFab Error 0x10000028 SLOT 5:May 17 06:17:53.883: %EE48-4-QM_ZBT_PARITY_TRANSIENT: FrFab Address 0x0 Data 0x7E SLOT 5:May 17 06:17:53.883: %EE48-4- GULF_RX_TB_PARITY_ERROR: ASIC GULF: RX telecom bus parity error on port 0 SLOT 1:Dec 13 00:27:42: %EE48-3-SRAM_PARITY: SRAM parity: Unable to find shadow 281B9EB4 SLOT 0:Aug 4 08:55:37: %EE48-3-QM_PARITY: FrFab Address 0x1859E Data 0x10 SLOT 0:Aug 4 08:55:37: %EE48-3-QM_ERROR: FrFab error register 0x80000.
Auf Line Cards, die auf Engine 4/4+ basieren, können folgende Meldungen auftreten:
SLOT 4: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - Parity error on rx_pbc_mem. -Traceback= 401C37C0 403D8814 400BE1EC SLOT 4: %LC-3-ERR_INTR: Error interrupt occurred -Traceback= 400CE028 400C8DF0 40010A24
oder
SLOT 3: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - Parity error on rx_pbc_mem. -Traceback= 406012E0 406972A0 400C555C %FIB-3-FIBDISABLE: Fatal error, slot 3: IPC failure
oder
SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_SBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_SBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 5:Apr 26 11:56:08.160: %MCC192-3-SDRAM_MBE: Error=0x200 - DIMM1 Syndrome=0x3000 Addr=0x811C3 SLOT 10:Mar 6 05:05:26.965: %RX192-3-ADJ_MEM_MBE: phy addr 0x7905E648, offset 0xBCC9, old ecc 0x0, new ecc 0x0, bit -1, value 0x0 - MBE on Adjacency Memory.. SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_MBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 2:00:03:41: %MCC192-3-RED: Error=0x80000 - RED PARAM 1 ECC SBE Error. -Traceback= 405AF5E0 405B1CEC 406DFF7C 406E057C 400FC7E SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_MBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No Sep 8 14:32:09 jst: %MEM_ECC-3-SYNDROME_SBE_LIMIT: 8-bit Syndrome for the detected Single-bit error: 0xD5
Zu den Symptomen für dieses Problem gehören:
Cisco Express Forwarding für diese Linecard wird deaktiviert
Die zugehörigen Ports bleiben aktiv/aktiv
Die Linecard kann automatisch zurückgesetzt werden.
Wenn die Linecard nicht zurückgesetzt wird, besteht die Problemumgehung darin, den Befehl Microcode reload <slot> auszuführen:
Diese Meldung weist nicht immer auf ein Hardwareproblem mit dem RX192-Modul hin. Einige Cisco IOS Software-Fehler können diese Fehlermeldung als Nebeneffekt hervorrufen. Wenn diese Meldung nur einmal angezeigt wird, behalten Sie die Überwachung des Motherboards bei. Das Gerät wird zurückgesetzt. Wenn das Problem weiterhin besteht, wird die Karte automatisch zurückgesetzt. Wenden Sie sich an Ihren Ansprechpartner beim technischen Support von Cisco, um Unterstützung zu erhalten, falls diese Meldung nicht mehr auftritt.
Die SBE-Ereignisse können mit dem Befehl show controller mcc192 ecc auf dem E4/E4+ überprüft werden:
LC-Slot4#show controllers mcc192 ecc MCC192 SDRAM ECC Counters SBE = 0x0, MBE = 0x0 TX192 SDRAM ECC Counters SBE = 0x0, MBE = 0x0
Diese Meldung bezieht sich auf RX- und TX-Speicher.
Diese Fehler werden in der Konsolenausgabe angezeigt:
SLOT 1:Jun 26 20:45:53 KST: %EE192-6-WAHOOECC: RX WAHOO: An PLU SDRAM ECC correctable error occured address 20000254 SLOT 9:Sep 2 21:27:49.680 GMT+8: %MCC192-3-PKTMEM_SBE: Single bit error detected and corrected SLOT 14:Jul 18 07:19:24.637: RX_XBMA: 1-bit CPUIM_ECCERR1 error 0x2 SLOT 15:Jan 4 16:53:16.591: TX_XBMA: (1) QSRAM qinfo SBE detected. info: 0x82605455 SLOT 12:Dec 12 22:34:15: %EE192-4-BM_ERRSSS: FrFab BM BADDR ECC ERR info single bit error(s) corrected, error 8250F63E count: 2 SLOT 1:Nov 22 13:40:02 JST: %EE192-3-QM_ERROR: RX_XBMA OQLLM error error register 0x1 -Traceback= 40AE71AC 406078C4 405F5EC0 SLOT 7:001113: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRS: RX WAHOO: WAHOO_CSRAM_CNTRL_INT PIPE0 error 8 SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRSSS: RX WAHOO: WAHOO_FFCRAM_CNTRL_INT PIPE0 error 4 addr 3FBFAB8 agent 94 SLOT 7:001114: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRSSSS: RX WAHOO: WAHOO_PPC_INT PIPE1 error pl_ctl 4000226 pl_aa_avl F9F7B pl_aa_end 7FF9 pl_aa_fatal 4800000 SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: RX WAHOO WAHOO_NFC_SRAM_MULTI_ECC_ERR multi-bit CSSRAM error SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_FFCRAM_CNTRL_INT MBE SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: FSRAM not OK WAHOO_FSRAM_CNTRL_INT ECC_1_BIT_EE | ECC_UNCORR_EE SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error SLOT 1:00:01:14: WEEKLY_THROTTLE_SOCKEYE_SBE: SOCKEYE SBE: addr: 0xC2A007C0, synd: 0xC4 SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_TX+i: CBSRAM SBE TX: 1-bit CBSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_RX+i: CBSRAM SBE RX: 1-bit CBSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_TX+i: CSSRAM SBE TX: 1-bit CSSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_RX+i: CSSRAM SBE RX: 1-bit CSSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_TX+i: CSRAM SBE TX: 1-bit CSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_RX+i: CSRAM SBE RX: 1-bit CSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_TX+throttle_i: TX FTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_RX+throttle_i: RX FTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_TX+throttle_i: TX CLTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_RX+throttle_i: RX CLTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_TX+throttle_i: TX NFTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_RX+throttle_i: RX NFTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_VMR: TCAM PRTY VMR error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_NO-VMR: TCAM PRTY NO-VMR error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_RX: FCRAM SBE TX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_PER_CHIP_SBE_TX: FCRAM CHIP SBE error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FCRAM_PER_CHIP_SBE_RX: FCRAM CHIP SBE error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_TX: FSRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_RX: FSRAM SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_TX: FSRAM MBE RX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_RX: FSRAM MBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_TX: ISERR TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_RX: ISERR RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_RX: FCRAM SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_TX: QSRAM LINK SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_RX: QSRAM LINK SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe rx error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_BADDR_SBE_TX: qsram bad addr sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_ QM_QSRAM_BADDR_SBE_RX: qsram bad addr sbe rx error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_TX: oqllm sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_RX: oqllm sbe rx error status = 0x3
Diese Fehler werden in der Konsolenausgabe angezeigt:
SLOT 0:Jan 14 08:53:44.581 GMT: %FIA-3-RAMECCERR: To Fabric ECC error was detected Single Bit Error RAM2 status = 0x8000 Syndrome = 0x0 addr = 0x0 SLOT 6:Apr 29 09:36:12: %E6LC-4-ECC_THRESHOLD: HERMES VID SBE exceeded threshold, possible memory failure SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_SBE: Head1 Syndrome=0x94 Addr=0xFFF2B -Traceback= 40544830 40546A90 40688C94 400EDC18 SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_SBE: Syndrome=0x59 Addr=0xFFF2B -Traceback= 40000830 40036A90 40555D44 400ddd23 SLOT 14:Dec 9 20:02:29: %E6_RX192-6-PBC_SBE: Single bit error detected and corrected RLDRAM Syndrome=0x61 Addr=0xF855 Dec 9 20:02:33: %GRP-4-RSTSLOT: Resetting the card in the slot: 14,Event: linecard error report SLOT 4:06:21:43: %E6_RX192-3-ACL_SBE: ACTION MEM Syndrome=0x7 Addr=0x0 -Traceback= 40549740 4054A7E0 4068D814 400EE018 SLOT 6:Mar 28 03:30:19: %RX192-3-HINTR: status = 0x1000000000000, mask = 0x7FFFFF0FA320F - L3X SBE error. -Traceback= 405816DC 406A1010 406A1650 400F70E8 SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_SBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B SLOT 6:Nov 27 23:32:36: %HERA-3-PKTMEM_SBE: Single bit error detected and corrected Error=0x80 – Syndrome=0x5100000000000000 Addr=0x894620 Data bit116 SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_SBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_SBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 12:May 24 03:03:36: %HERA-6- UPF_SBE: Single bit error detected and corrected Error=0x60 – Syndrome=0x4100000000000000 Addr=0x451140 Data bit216 SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 9:May 5 18:52:14: %HERA-6-QM_FBF_SBE: Free Block FIFO - Single Bit Error detected and corrected Syndrom = 0x10, Addr = 0x778, samebit Yes, diffbit No SLOT 9:May 5 18:52:14: %HERA-3-QM: Error=0x40 - FBF RAM ECC SBE. -Traceback= 405AD4CC 405AF5D0 405F2E80 406DCDB8 406DD434 400FC500 SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_SBE: Average Queue Depth - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x89, samebit No, diffbit No SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_SBE: Statistics - Single Bit Error detected and corrected Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_MBE: Single bit error detected and corrected Head1 Syndrome=0x94 Addr=0xFFF2B SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_MBE: Syndrome=0x59 Addr=0xFFF2B -Traceback= 40000830 40036A90 40555D44 400ddd23 00:00:18: %E6_RX192-3-PBC_MBE: ADJ OBANK LO Syndrome=0xE5 Addr=0x142 -Traceback= 405BF8B0 405C0F08 406E8D78 406E93B8 400FCCE0 SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_MBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B SLOT 0:Apr 18 06:44:53.751 GMT: %HERA-3-PKTMEM_MBE: Error=0x1010 - Syndrome=0x9900000000 SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_MBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_MBE: Single bit error detected and corrected Error=0x50 - Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 9:May 5 18:52:14: %HERA-6-QM_FBF_MBE: Free Block FIFO - Single Bit Error detected and corrected Syndrome = 0x10, Addr = 0x778, samebit Yes, diffbit No SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_MBE: Average Queue Depth - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x89, samebit No, diffbit No SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_MBE: Statistics - Single Bit Error detected and corrected Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No
Diese Fehler werden in der Konsolenausgabe angezeigt:
SLOT 7:Jan 4 02:04:00.487: %SPA_CHOC_DSX-3-UNCOR_PARITY_ERR: SPA4/0: CHOC SPA parity error(s) encountered SLOT 7:Jan 4 02:04:00.487: %MCT1E1-3-UNCOR_PARITY_ERR: SPA5/0: T1E1 SPA parity error(s) encountered SLOT 3: 00:33:48: %MCT1E1-3-UNCOR_MEM_ERR: SPA3/0: 1 uncorrectable HDLC SRAM memory error(s) encountered. SLOT 1:Oct 3 14:42:45.727: %SPA_PLIM-4-SBE_ECC: SPA-4XT3/E3[1/2] reports 2 SBE occurrence at 1 addresses SLOT 1: Jul 22 05:26:29.613 UTC: %SPA_DATABUS-3-SPI4_SINGLE_DIP4_PARITY: SIP Sbslt 0 Ingress Sink - A single DIP4 parity error has occurred on the data bus. SLOT 4: Dec 2 22:44:05: %SPA_DATABUS-3-SPI4_SINGLE_DIP2_PARITY: SIP Sbslt 0 Egress Source - A single DIP 2 parity error on the FIFO status bus has occurred. SLOT 1:Oct 3 14:42:45.727: %SPA_PLIM-4-SBE_OVERFLOW: SPA-4XT3/E3[1/2] reports SBE table (2 elements) overflows SLOT 1:Oct 3 14:42:45.727: % SPA_PLUGIN-3-SPI4_SETCB: SPA-4XT3/E3[1/2] : IPC SPI4 set callback failed(status 2).
Alle Paritätsfehlermeldungen im Zusammenhang mit Switching Fabric Cards werden ausführlich unter Hardware Troubleshooting for the Cisco Internet Router der Serie 12000 behandelt. Diese Meldungen beinhalten (nicht erschöpfende Liste):
%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error Data = 0x2. SLOT 1:%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error Data = 0x1