この文書では、Cisco 12000 シリーズ インターネット ルータでさまざまなパリティ エラー メッセージが発生した際のトラブルシューティングの手順や、問題の部分やコンポーネントを切り離すための手順について説明します。
注:この文書では、パリティ エラーの原因については説明しません。(Single Event Upset(SEU; シングル イベント アップセット)とも呼ばれる)パリティ エラーとその原因の簡単な定義に興味がある場合は、『ネットワーク アベイラビリティの向上』からリンクされているドキュメントを読むことを推奨いたします。
ドキュメント表記の詳細は、『シスコ テクニカル ティップスの表記法』を参照してください。
この文書を読む前に、次の文書に目を通すことをお勧めします。
このドキュメントの情報は、次のソフトウェアとハードウェアのバージョンに基づくものです。
Cisco 12000 シリーズ インターネット ルータ
Cisco IOS®ソフトウェアのすべてのバージョン
このマニュアルの情報は、特定のラボ環境に置かれたデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、初期(デフォルト)設定の状態から起動しています。実稼動中のネットワークで作業をしている場合、実際にコマンドを使用する前に、その潜在的な影響について理解しておく必要があります。
多くの Cisco 12000 シリーズ インターネット ルータのルート プロセッサとラインカードには、Error Code Correction(ECC; エラー コード訂正)機能が組み込まれています。ただし、実際に使用されているラインカードの中には、ECC 機能を持たないものもあります。ECC 機能は、カード上の RAM または Synchronous Dynamic RAM(SDRAM; 同期ダイナミック ランダム アクセス メモリ)のみを対象としています。他のカードは ECC では保護されません。
Cisco 12000 で使用されているラインカードの ECC 機能を比較したものを次に示します。
Engine 2 以降のすべてのカードには ECC 機能が備わっています。
Engine 1 カードは FCS の後で ECC 機能が付加されています。
Engine 0 カードには ECC 機能がありません。
一部のカードは、ECC 機能が組み込まれている同様の製品にアップグレード可能です。
次の表は、ECC 機能を備えた製品の一覧です。
ECC 非対応製品 | ECC 対応製品 |
---|---|
GRP(=) | GRP-B(=) |
GE-SX/LH-SC(=) | GE-GBIC-SC-B(=) |
GE-GBIC-SC-A(=) | GE-GBIC-SC-B(=) |
8FE-FX-SC(=) | 8FE-FX-SC-B(=) |
8FE-TX-RF45(=) | 8FE-TX-RJ45-B(=) |
6DS3-SMB(=) | 6DS3-SMB-B(=) |
12DS3-SBM(=) | 12DS3-SMB-B(=) |
OC12/SRP-IR-SC(=) | OC12/SRP-IR-SC-B(=) |
OC12/SRP-MM-SC(=) | OC12/SRP-mm-SC-B(=) |
OC12/SRP-LR-SC(=) | OC12/SRP-LR-SC-B(=) |
注:-B と ECC は無関係です。-Bは、製品がボードの2番目の主要な発注可能なリビジョンであることを意味します。製品によっては、ECC のリビジョンを示しています。
シスコでは、ECC 非対応のボードを ECC 対応の新しいボードにアップグレードできる Technology Migration Plan(TMP; テクノロジー移行プラン)を提供しています。クレジットは、ECC 非対応ボードに代えて新しい ECC 対応ボードを購入する場合に適用されます。
次のフローチャートは、Cisco 12000 シリーズ インターネット ルータのどのコンポーネントが、Gigabit Route Processor(GRP; ギガビット ルート プロセッサ)でのパリティおよび Error Code Correction(ECC; エラー コード訂正)のエラー メッセージの原因となっているのかを判断するために役立ちます。
注:パリティおよび ECC のエラーが発生した際には、show tech-support コマンドの出力とコンソールのログを取得および記録し、crashinfo ファイルをすべて収集してください。
次のフローチャートは、Cisco 12000 シリーズ インターネット ルータ ラインカードのどのコンポーネントが、パリティおよび Error Code Correction(ECC; エラー コード訂正)のエラー メッセージの原因になっているかを判断するために役立ちます。
注:ラインカードでパリティおよび ECC のエラーが発生した際には、できるだけ多くの情報を収集してください(詳細は、「トラブルシューティング:Cisco 12000 シリーズ インターネット ルータのラインカードのクラッシュ」を参照してください)。
Cisco 12000 シリーズ インターネット ルータは、クラッシュすることなく、他のラインカードのメモリ(SDRAM および SRAM)でのパリティ エラーから回復します。
Cisco 12000 シリーズ インターネット ルータの読み込みあるいは書き込み操作では、いくつかのパリティ チェック デバイスから誤ったパリティを持つデータについて報告がある場合があります。
GRP-B および PRP では、共有メモリ(SDRAM)に対してシングルビット エラー訂正とマルチビット エラー検出 ECC を使用しています。SDRAM のシングルビット エラーは自動的に訂正され、システムは通常通り操作を続行します。
PRP および GRP-B には、ECC をサポートする拡張 Dynamic RAM(DRAM; ダイナミック RAM)コントローラが搭載されています。したがって、これらによってシングルビット エラーの訂正と、マルチビット エラーの報告が行われます。シングルビット エラーの訂正は次のように表示されます。
%Tiger-3-SBE: Single bit error detected and corrected at <address>
SBE はエラー訂正回路によって訂正され、GRP-B または PRP の機能には影響を及ぼしません。シングルビット エラーについては、頻発しない限りは何も対処する必要はありません。頻発する場合は、プロセッサ ボードを交換することをお勧めします。
マルチビット エラーの検出は、バス エラー例外または CPU キャッシュ パリティ エラー例外によって報告されます。
SysAD バスを経由したプロセッサの外部キャッシュ(GRP の L3)へのアクセスや、CPU の内部キャッシュ メモリ(L1 または L2)のいずれかへのアクセスの際、CPU によってパリティ エラーが検出されると、プロセッサ メモリ パリティ エラー メッセージが報告されます。 表 1 では、各タイプのキャッシュ パリティ エラーに対して出力されるメッセージ例をリストしています。
表 1:キャッシュ パリティ エラーの場所
パリティ エラーの発生箇所 | エラー メッセージ |
---|---|
L1 命令キャッシュ | エラー:Primary, instr cache, fields:data |
L1 データ キャッシュ | エラー:Primary, data cache, fields:data |
L2 命令キャッシュ | エラー:SysAD, instr cache, fields:data |
L2 データ キャッシュ | エラー:SysAD, data cache, fields:data |
L3 命令キャッシュ | エラー:SysAD, instr cache, fields:1st dword |
L3 データ キャッシュ | エラー:SysAD, data cache, fields:1st dword |
例:
エラーメッセージの最初の行は、パリティエラーの場所を示し、表1に示す任意の場所を指定できます。この例では、場所はL3命令キャッシュです。
Error: SysAD, instr cache, fields: data, 1st dword Physical addr(21:3) 0x000000, virtual addr 0x6040BF60, vAddr(14:12) 0x3000 virtual address corresponds to main:text, cache word 0 Low Data High Data Par Low Data High Data Par L1 Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01 Low Data High Data Par Low Data High Data Par DRAM Data: 0:0xAE620068 0x8C830000 0x00 1:0x50400001 0xAC600004 0x01 2:0xAC800000 0x00000000 0x02 3:0x1600000B 0x00000000 0x01
show version コマンドの出力は次のようになります。
...System was restarted by processor memory parity error at PC 0x602310D0, address 0x0 at 03:18:21 GMT Sun Oct 27 2002 ...
show context の出力から、キャッシュ パリティ例外によってシステムが再起動されたことが分かります。
Router#show context slot 11 CRASH INFO: Slot 11, Index 1, Crash at 19:08:07 CST Thu Nov 14 2002 VERSION: GS Software (GSR-P-M), Version 12.0(22)S1, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) TAC Support: http://www.cisco.com/tac Compiled Mon 16-Sep-02 17:36 by nmasa Card Type: Route Processor, S/N LC uptime was 0 minutes. System exception: sig=20, code=0xE42F3E4B, context=0x52CF3D44 System restarted by a Cache Parity Exception STACK TRACE: -Traceback= 5020453C 500E5E24 5010E6DC 5015F89C 501E9F6C 501E9F58 ...
障害が再発したときは、その GRP または PRP を交換してください。
コンソールの出力に、次のようなメッセージが表示される場合があります。
SEC 7: %GRP-3-PARITYERR: Parity error detected in the fabric buffers. Data (8)
このメッセージは、GRP のファブリック インターフェイス ハードウェアによって、パリティ エラーが検出されたことを示しています。16 進数の数字は、このエラーの割り込みベクターです。このエラーは、通常はこのエラーを報告した GRP のハードウェアに関する問題を示します(この場合、スロット 7)。 障害が発生した GRP は、同様の問題が再発したときには交換する必要があります。
このエラー メッセージは、不良パリティが含まれたデータがルータで受信されると表示されます。
不良パリティが含まれたデータは、Cisco 12000 シリーズ インターネット ルータ上で実行される読み書き操作に対して、複数のパリティ チェック デバイスによって報告されます。
PRP では、シングル ビット エラー修正とマルチ ビット エラー検出の ECC が、共有メモリ(SDRAM)に対して使用されます。SDRAM のシングルビット エラーは自動的に訂正され、システムは通常通り操作を続行します。
Single-Bit Error(SBE; シングルビット エラー)は Error Correction Circuit(ECC; エラー訂正回路)により訂正され、PRP の機能には影響しません。シングルビット エラーは、頻発しない限り、対処は不要です。
エラーが頻発する場合は、プロセッサ ボードを交換することを推奨いたします。
SDRAM シングルビットのエラー訂正コード(ECC)エラー
シングルビット エラーとは、メモリから読み込まれた 1 ワード内で 1 ビットのデータが正しくないことを意味します。SBE の場合は、操作に影響を与えることなくエラーを訂正することができます。
シングルビット エラーは検出され、訂正されたデータが表示されます。たとえば、Engine 4/4+ でシングルビット エラーが発生すると、次のように報告されます。
SLOT 6:Jul 19 07:37:34: %TX192-3-SDRAM_SBE: Error=0x2 - DIMM1 Syndrome=0x7600 Addr=0xBEA09 Data bit80-Traceback= 401C8C9C 401C9508 401CDE08 401CDE40 4007F674 4009ED0C 4009ECF8
SBE はエラー訂正回路により訂正され、ラインカードの機能には影響しません。シングルビット エラーは、頻発しない限り、対処は不要です。エラーが頻発する場合は、そのラインカードを交換することをお勧めします。
SDRAM のマルチビット ECC エラー
マルチビットエラーは、同一のワード内で複数のビットが正しくないことを意味します。MBE の場合、このエラーが検出されると、ラインカードがクラッシュします。SBE および MBE が発生することは非常にまれです。
SDRAM でマルチビット ECC エラーが発生したときに、コンソールに表示されるメッセージの例を次に示します。
SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_SBE: Error=0x808 - DIMM0 Syndrome=0x31000000 Addr=0x81034 Data bit120 -Traceback= 401C8C9C 401C9508 40450018 400BF7D4 SLOT 5:Jul 25 16:58:51: %MCC192-3-SDRAM_MBE: Error=0x808 - DIMM0 Syndrome=0x18000000 Addr=0x80834 -Traceback= 401C8D88 401C9508 40450018 400BF7D4
MBE は ECC で訂正することはできず、そのラインカードはクラッシュします。その後、ラインカードはルート プロセッサによってリロードされ、通常の動作に戻ります。
MBE が発生した場合にラインカードのメモリをチェックするには、フィールド診断が使用されます。MBE は、フィールド診断によってメモリ エラーとして検出されます。次に示すものは、TX SDRAM でマルチビット エラーが発生してフィールド診断が失敗したボードの例です。
FDIAG_STAT_IN_PROGRESS(5): test #12 TX SDRAM Marching Pattern FD 5> RIM: FD 5> TX Registers FD 5> INT_CAUSE_REG = 0x00000680 FD 5> Unexpected L3FE Interrupt occured. FD 5> ERROR: TX BMA Asic Interrupt Occured FD 5> *** 0-INT: External Interrupt *** FDIAG_STAT_DONE_FAIL(5) test_num 12, error_code 1 Field Diagnostic: ****TEST FAILURE**** slot 5: last test run 12, TX SDRAM Marching Pattern, error 1 Field Diag eeprom values: run 5 fail mode 1 (TEST FAILURE) slot 5 last test failed was 12, error code 1
QOC48またはOC192ラインカードを使用している場合は、次のField Noticeを参照してください。QOC48/OC192 SBE/MBE。これ以外のラインカードの場合は、このエラーが再発した時点でラインカードを交換する必要があります。
show context slot [slot#] 出力の、sig= field の値をチェックします。
Router#show context slot 4 CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 VERSION: GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) Compiled Mon 28-Dec-98 14:53 by tamb Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL System exception: SIG=20, code=0xA414EF5A, context=0x40337424 System restarted by a Cache Parity Exception
フォワーディング エンジン Engine 1 をベースとするカードには、ある一定の電圧や気温の条件下で内部キャッシュの破壊に関する問題が発生しやすいものがあります。
Cache Error Recovery Feature(CERF)は、Engine1 ラインカードのソフトウェアの機能で、外部 CPU キャッシュからエラーをフラッシュし、DRAM からキャッシュ ラインをリフレッシュすることによって、キャッシュのパリティ エラーを検出および訂正します。この機能により、CPU のキャッシュ管理アルゴリズムが高度になり、CPU がキャッシュ メモリのパリティ エラーから回復できるようになるため、パフォーマンスに影響を与えることなくラインカードのクラッシュを回避できます。
注:CERF はデフォルトで有効になっています。このソフトウェアによる Error Correction Code(ECC; エラー訂正コード)の動作は、show controller cerf コマンドで監視できます。この機能をオフにするには、グローバル設定コマンドの no service cerf を使用します。
Field Noticeを参照してください。GSR 1GEカードのキャッシュパリティエラー」を参照してください。
ラインカードがどのフォワーディングエンジンに基づいているかを確認するには、「ボックスで実行されているエンジンカードを判別するにはどうすればよいのですか」を参照してください。cisco 12000シリーズインターネットルータから:FAQ に関する文書
ラインカードが Engine 1 をベースとしている場合、この問題の回避策は Cisco IOS ソフトウェアを Cache Error Recovery Feature(CERF; キャッシュ エラー回復機能)を備えているものにアップグレードすることです。 この機能は、Cisco IOSソフトウェアリリース12.0(21)S3で初めて利用可能になりました。それでもキャッシュパリティ例外によってクラッシュする場合は、ラインカードを交換する必要があります。
ラインカードがその他の Engine タイプをベースとしている場合、同様のクラッシュが再発した時点でラインカードを交換する必要があります。
コンソールのログに、次のようなエラー メッセージが表示される場合があります。
SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERRS: L3FE DRAM error 12 address 41E9B9A0 SLOT 2:Oct 23 17:07:45.531 EST: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 12 addr 41E9B9A0 io 0 addr 0 SLOT 2:Oct 23 17:07:45.531 EST: %GSR-3-INTPROC: Process Traceback= 40080BAC -Traceback= 40357084 40495D30 40496EE0 400CCF98
このメッセージは、CPU DRAM の書き込みパリティ エラーを報告しています。L3FE は、レイヤ 3 のフォワーディング エンジンを意味しています。同様の問題が再発した時には、このラインカードを交換する必要があります。
発生する可能性のあるエラー メッセージの例を次に示します。
1 ポートのギガビット ラインカードのログでは、次のように表示されます。
SLOT 5: %LCGE-3-INTR: TX GigaTranslator external interface parity error
新しいボードでは、TX GigaTranslator ASIC を Field-programmable Gate Array(FPGA)で置き換えることで 1 つの解決が行われています。 同様の問題が再発したときには、ボードを交換する必要があります。
コンソール出力には、次のように表示されます。
SLOT 6: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error, ECC status = 2 DRAM error status = = 21 SLOT 6: %LC-3-L3FEERR: L3FE error: rxbma 0 addr 0 txbma 0 addr 0 dram 21 addr 200020 io 0 addr 0 SLOT 6: %LC-3-ECC: Salsa ECC: Addresses: Salsa returned =429BFDE8 correcting on = 429BFDE8 SLOT 6: %MEM_ECC-3-SBE: Single bit error detected and corrected at 0x429BFDE8 SLOT 6: %MEM_ECC-3-SYNDROME_SBE: 8-bit Syndrome for the detected Single-bit error: 0x8A SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60 SLOT 1:Jun 10 05:29:47.690 EDT: %LC-3-ECC: Salsa ECC: About to handle ECC single bit error,ECC status = 0 DRAM error status =12 SLOT 6:Sep 26 15:18:01: %LC-3-SWECC: L2 event cleared: EPC = 0x40631CCC, CERR = 0xE40BB933, SysAD Addr = 1, total = 1 SLOT 0:Dec 7 13:48:11.480: %LC-3-SWECC_DATA: L2 event cleared: EPC = 0x400A8040, CERR = 0xA01DCE58, l1v = 0x41E3C20441E3C1C5, dv =0x41E3C1C441E3C204, SysAD Addr = 0, total = 1
これらのメッセージは、次のように分類できます。
%LC-3-ECC:Salsa ECC - ラインカードの L3FE ASIC でエラーが発生しています。
%LC-3-L3FEERR – ラインカードのL3FE ASICレジストリにエラーがあります。情報
%MEM_ECC-3-SBE - シングルビットの訂正可能なエラーが DRAM からの読み込みで検出。これまでに記録されたシングルビット エラーをダンプするには、show memory ecc コマンドを使用できます。これは %MEM_ECC-3-SBE_LIMIT エラー メッセージと同じです。
%MEM_ECC-3-SYNDROME_SBE - 検出されたシングルビット エラーの 8 ビット シンドローム。この値は、エラーが生じたビットの正確な位置を示しているわけではありませんが、だいたいの位置を調べるために使用されます。これは %MEM_ECC-3-SYNDROME_SBE_LIMIT エラー メッセージと同じです。
基本的に、ラインカードは自動でシングルビット エラーを報告し、訂正します。このエラーが頻発しない限りは、何らかの対処をする必要はありません。エラーが頻発する場合は、そのラインカードを交換することをお勧めします。
%LC-3-SWECC_DATA:Software Error Correction Code(SWECC; ソフトウェア エラー訂正コード)によって、スロット 0 の LC でキャッシュ イベントが訂正されたことを示しています。
発生する可能性のあるその他のメッセージには、次のものがあります。
SLOT 4: %MEM_ECC-3-SBE_HARD: Single bit *hard* error detected at 0x6299FB60
このメッセージは、CPU の DRAM からの読み込みの際に、シングルビットの訂正不可能なエラー(ハード エラー)が検出されたことを意味します。show memory ecc コマンドを使用すると、これまでに記録されたシングルビット エラーをダンプし、検出されたハード エラーのアドレス位置を調べることができます。
show memory ecc コマンドを使用してシステムを監視し、これらのエラーが頻発する場合には DRAM を交換してください。
コンソール出力に、次のようなエラーが表示される場合があります。
SLOT 6: %LC-6-PSAECC: An TLU SDRAM ECC correctable error occurred address 19C49FD SLOT 2:035610: Feb 26 13:09:13.628 UTC: %LC-6-PSAECC: An PLU SDRAM ECC correctable error occurred address 1956059
このエラーは、Packet Switching ASIC(PSA)ECC によって保護された SDRAM により、訂正可能なシングルビット エラーが検出されたことを意味します。このメッセージが頻発しない限りは、何らかの対処をする必要はありません。エラーが頻発する場合は、そのラインカードを交換することをお勧めします。
コンソール出力に、次のようなエラーが表示される可能性があります。
SLOT 6:00:03:53: %PM622-3-SAR_SRAM_PARITY_ERR: (6/0): Parity error in Reassembly SAR SRAM address: 80000000.Resetting the port SLOT 3:00:00:53: %PM622-3- SAR_MULTIBIT_ECC_ERR: (3/0): Multi-bit ECC Uncorrectable error in SAR SDRAM address: 80000000. Resseting the port. SLOT 4:00:00:53: %PM622-3 SAR_SINGLE_BIT_ECC_ERR: (3/0): ECC corrected an error in SAR SDRAM address: 800000. SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC: RX ALPHA: An PLU SDRAM ECC correctable error occured address 1000C254 SLOT 0:Jun 25 20:45:53 KST: %EE48-6-ALPHAECC2: RX ALPHA: An PLU SDRAM ECC multibit error occured at address 1000E254 SLOT 5:Nov 17 09:46:30.171: %EE48-6-ALPHA_PARITY: TX ALPHA: Transient SRAM64 parity corrected error 3E Data 0 100000 Parity bits 0 SLOT 10:Feb 21 16:55:36: %EE48-3-ALPHA_SRAM64_ERR: TX ALPHA: ALPHA_PST_RANGE_ERR error 11003F Data 0 0 Parity bits 0 SLOT 4:Jan 15 06:30:00.942 UTC: %EE48-2-GULF_TX_SRAM_ERROR: ASIC GULF: TX SRAM uncorrectable error detected. Details=0x0000 SLOT 0:Mar 16 19:50:22.464 cst: %EE48-4-QM_ZBT_PARITY: ToFab Address 0xB95E Data 0x1 SLOT 5:May 17 06:17:35.507: %EE48-4-QM_NON_ZBT_PARITY: ToFab Error 0x10000028 SLOT 5:May 17 06:17:53.883: %EE48-4-QM_ZBT_PARITY_TRANSIENT: FrFab Address 0x0 Data 0x7E SLOT 5:May 17 06:17:53.883: %EE48-4- GULF_RX_TB_PARITY_ERROR: ASIC GULF: RX telecom bus parity error on port 0 SLOT 1:Dec 13 00:27:42: %EE48-3-SRAM_PARITY: SRAM parity: Unable to find shadow 281B9EB4 SLOT 0:Aug 4 08:55:37: %EE48-3-QM_PARITY: FrFab Address 0x1859E Data 0x10 SLOT 0:Aug 4 08:55:37: %EE48-3-QM_ERROR: FrFab error register 0x80000.
Engine 4/4+ ベースのラインカードでは、次のメッセージが表示される場合があります。
SLOT 4: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - Parity error on rx_pbc_mem. -Traceback= 401C37C0 403D8814 400BE1EC SLOT 4: %LC-3-ERR_INTR: Error interrupt occurred -Traceback= 400CE028 400C8DF0 40010A24
または
SLOT 3: %RX192-3-HINTR: status = 0x4000000, mask = 0x3FFFFFFF - Parity error on rx_pbc_mem. -Traceback= 406012E0 406972A0 400C555C %FIB-3-FIBDISABLE: Fatal error, slot 3: IPC failure
または
SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_SBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_SBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 5:Apr 26 11:56:08.160: %MCC192-3-SDRAM_MBE: Error=0x200 - DIMM1 Syndrome=0x3000 Addr=0x811C3 SLOT 10:Mar 6 05:05:26.965: %RX192-3-ADJ_MEM_MBE: phy addr 0x7905E648, offset 0xBCC9, old ecc 0x0, new ecc 0x0, bit -1, value 0x0 - MBE on Adjacency Memory.. SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 2:00:03:41: %MCC192-6-RED_PARAM1_MBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No SLOT 2:00:03:41: %MCC192-3-RED: Error=0x80000 - RED PARAM 1 ECC SBE Error. -Traceback= 405AF5E0 405B1CEC 406DFF7C 406E057C 400FC7E SLOT 2:00:03:41: %MCC192-6-RED_PARAM2_MBE: Parameter 1 - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x43, samebit No, diffbit No Sep 8 14:32:09 jst: %MEM_ECC-3-SYNDROME_SBE_LIMIT: 8-bit Syndrome for the detected Single-bit error: 0xD5
この問題の症状としては、次のものがあります。
このラインカードの Cisco Express Forwarding がディセーブルになる
関連するポートが up/up のままになる
ラインカードが自動的にリセットされることもある
ラインカードがリセットされない場合の回避策は、microcode reload <slot>コマンドを実行することです。
このメッセージは、常に RX192 モジュールのハードウェアの問題を示しているわけではありません。Cisco IOS ソフトウェアの不具合によって、このエラー メッセージが副次的なものとして表示される場合があります。このメッセージが一度だけ現れた場合は、モニタの監視を続けてください。デバイスはリセットされます。依然として問題が残る場合は、カードは自動的にリセットされます。このメッセージが引き続き表示される場合は、シスコのテクニカルサポート担当者に連絡して支援を求めてください。
E4/E4+ での SBE イベントは、show controllers mcc192 ecc コマンドでチェックできます。
LC-Slot4#show controllers mcc192 ecc MCC192 SDRAM ECC Counters SBE = 0x0, MBE = 0x0 TX192 SDRAM ECC Counters SBE = 0x0, MBE = 0x0
この表示は、RX メモリと TX メモリの両方について報告しています。
コンソール出力に、次のようなエラーが表示される可能性があります。
SLOT 1:Jun 26 20:45:53 KST: %EE192-6-WAHOOECC: RX WAHOO: An PLU SDRAM ECC correctable error occured address 20000254 SLOT 9:Sep 2 21:27:49.680 GMT+8: %MCC192-3-PKTMEM_SBE: Single bit error detected and corrected SLOT 14:Jul 18 07:19:24.637: RX_XBMA: 1-bit CPUIM_ECCERR1 error 0x2 SLOT 15:Jan 4 16:53:16.591: TX_XBMA: (1) QSRAM qinfo SBE detected. info: 0x82605455 SLOT 12:Dec 12 22:34:15: %EE192-4-BM_ERRSSS: FrFab BM BADDR ECC ERR info single bit error(s) corrected, error 8250F63E count: 2 SLOT 1:Nov 22 13:40:02 JST: %EE192-3-QM_ERROR: RX_XBMA OQLLM error error register 0x1 -Traceback= 40AE71AC 406078C4 405F5EC0 SLOT 7:001113: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRS: RX WAHOO: WAHOO_CSRAM_CNTRL_INT PIPE0 error 8 SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRSSS: RX WAHOO: WAHOO_FFCRAM_CNTRL_INT PIPE0 error 4 addr 3FBFAB8 agent 94 SLOT 7:001114: Oct 24 10:50:28.520 BST: %EE192-3-WAHOOERRSSSS: RX WAHOO: WAHOO_PPC_INT PIPE1 error pl_ctl 4000226 pl_aa_avl F9F7B pl_aa_end 7FF9 pl_aa_fatal 4800000 SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: RX WAHOO WAHOO_NFC_SRAM_MULTI_ECC_ERR multi-bit CSSRAM error SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_FFCRAM_CNTRL_INT MBE SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: FSRAM not OK WAHOO_FSRAM_CNTRL_INT ECC_1_BIT_EE | ECC_UNCORR_EE SLOT 6:Oct 4 16:48:00.487: %EE192-3-WAHOOERRS: WAHOO_CTCAM_CNTRL_INT multi-bit CSRAM error SLOT 1:00:01:14: WEEKLY_THROTTLE_SOCKEYE_SBE: SOCKEYE SBE: addr: 0xC2A007C0, synd: 0xC4 SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_TX+i: CBSRAM SBE TX: 1-bit CBSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CBSRAM_SBE_RX+i: CBSRAM SBE RX: 1-bit CBSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_TX+i: CSSRAM SBE TX: 1-bit CSSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSSRAM_SBE_RX+i: CSSRAM SBE RX: 1-bit CSSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_TX+i: CSRAM SBE TX: 1-bit CSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_CSRAM_SBE_RX+i: CSRAM SBE RX: 1-bit CSRAM error. SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_TX+throttle_i: TX FTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FW_TCAM_PRTY_RX+throttle_i: RX FTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_TX+throttle_i: TX CLTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_CL_TCAM_PRTY_RX+throttle_i: RX CLTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_TX+throttle_i: TX NFTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_NF_TCAM_PRTY_RX+throttle_i: RX NFTCAM PRTY error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_VMR: TCAM PRTY VMR error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_TCAM_PRTY_NO-VMR: TCAM PRTY NO-VMR error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_SBE_RX: FCRAM SBE TX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FCRAM_PER_CHIP_SBE_TX: FCRAM CHIP SBE error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FCRAM_PER_CHIP_SBE_RX: FCRAM CHIP SBE error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_TX: FSRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_FSRAM_SBE_RX: FSRAM SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_TX: FSRAM MBE RX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_W_ FSRAM_MBE_RX: FSRAM MBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_TX: ISERR TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_ISERR_RX: ISERR RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_TX: FCRAM SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_BM_FCRAM_SBE_RX: FCRAM SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_TX: QSRAM LINK SBE TX error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_LINK_SBE_RX: QSRAM LINK SBE RX error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_QEINFO_SBE_TX: QSRAM queue info sbe rx error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_QSRAM_BADDR_SBE_TX: qsram bad addr sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_ QM_QSRAM_BADDR_SBE_RX: qsram bad addr sbe rx error, status = 0x3 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_TX: oqllm sbe tx error, status = 0x2 SLOT 1:00:01:14: WEEKLY_THROTTLE_QM_OQLLM_SBE_RX: oqllm sbe rx error status = 0x3
コンソール出力に、次のようなエラーが表示される可能性があります。
SLOT 0:Jan 14 08:53:44.581 GMT: %FIA-3-RAMECCERR: To Fabric ECC error was detected Single Bit Error RAM2 status = 0x8000 Syndrome = 0x0 addr = 0x0 SLOT 6:Apr 29 09:36:12: %E6LC-4-ECC_THRESHOLD: HERMES VID SBE exceeded threshold, possible memory failure SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_SBE: Head1 Syndrome=0x94 Addr=0xFFF2B -Traceback= 40544830 40546A90 40688C94 400EDC18 SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_SBE: Syndrome=0x59 Addr=0xFFF2B -Traceback= 40000830 40036A90 40555D44 400ddd23 SLOT 14:Dec 9 20:02:29: %E6_RX192-6-PBC_SBE: Single bit error detected and corrected RLDRAM Syndrome=0x61 Addr=0xF855 Dec 9 20:02:33: %GRP-4-RSTSLOT: Resetting the card in the slot: 14,Event: linecard error report SLOT 4:06:21:43: %E6_RX192-3-ACL_SBE: ACTION MEM Syndrome=0x7 Addr=0x0 -Traceback= 40549740 4054A7E0 4068D814 400EE018 SLOT 6:Mar 28 03:30:19: %RX192-3-HINTR: status = 0x1000000000000, mask = 0x7FFFFF0FA320F - L3X SBE error. -Traceback= 405816DC 406A1010 406A1650 400F70E8 SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_SBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B SLOT 6:Nov 27 23:32:36: %HERA-3-PKTMEM_SBE: Single bit error detected and corrected Error=0x80 – Syndrome=0x5100000000000000 Addr=0x894620 Data bit116 SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_SBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_SBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 12:May 24 03:03:36: %HERA-6- UPF_SBE: Single bit error detected and corrected Error=0x60 – Syndrome=0x4100000000000000 Addr=0x451140 Data bit216 SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_SBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 9:May 5 18:52:14: %HERA-6-QM_FBF_SBE: Free Block FIFO - Single Bit Error detected and corrected Syndrom = 0x10, Addr = 0x778, samebit Yes, diffbit No SLOT 9:May 5 18:52:14: %HERA-3-QM: Error=0x40 - FBF RAM ECC SBE. -Traceback= 405AD4CC 405AF5D0 405F2E80 406DCDB8 406DD434 400FC500 SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_SBE: Average Queue Depth - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x89, samebit No, diffbit No SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_SBE: Statistics - Single Bit Error detected and corrected Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No SLOT 4:*Mar 13 23:38:19.295: %E6_RX192-3-MTRIE_MBE: Single bit error detected and corrected Head1 Syndrome=0x94 Addr=0xFFF2B SLOT 7:*Mar 4 1234:19.295: %E6_RX192-3-ADJ_MBE: Syndrome=0x59 Addr=0xFFF2B -Traceback= 40000830 40036A90 40555D44 400ddd23 00:00:18: %E6_RX192-3-PBC_MBE: ADJ OBANK LO Syndrome=0xE5 Addr=0x142 -Traceback= 405BF8B0 405C0F08 406E8D78 406E93B8 400FCCE0 SLOT 6:Mar 28 03:30:19: %E6_RX192-6-VID_MBE: Single bit error detected and corrected VID memory Syndrome=0x19 Addr=0xE51B SLOT 0:Apr 18 06:44:53.751 GMT: %HERA-3-PKTMEM_MBE: Error=0x1010 - Syndrome=0x9900000000 SLOT 7:Oct 2 23:32:36: %HERA-6- MCD_MBE: Single bit error detected and corrected Error=0x50 – Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 1:Jun 22 03:32:36: %HERA-6- MRW_MBE: Single bit error detected and corrected Error=0x50 - Syndrome=0x3100000000000000 Addr=0x331110 Data bit216 SLOT 13:Dec 5 07:30:15.272 cst: %HERA-6-PAM_ACL_MBE: PKT CNT MEM Syndrome=0x8 Addr=0x523C SLOT 9:May 5 18:52:14: %HERA-6-QM_FBF_MBE: Free Block FIFO - Single Bit Error detected and corrected Syndrome = 0x10, Addr = 0x778, samebit Yes, diffbit No SLOT 3:Aug 16 00:45:14: %MCC192-6-RED_AQD_MBE: Average Queue Depth - Single Bit Error detected and corrected Syndrome = 0x7, Address = 0x89, samebit No, diffbit No SLOT 2:Jan 23 06:29:56 KST: %MCC192-6-RED_STAT_MBE: Statistics - Single Bit Error detected and corrected Syndrome = 0x38, Address = 0xFF, samebit No, diffbit No
コンソール出力に、次のようなエラーが表示される可能性があります。
SLOT 7:Jan 4 02:04:00.487: %SPA_CHOC_DSX-3-UNCOR_PARITY_ERR: SPA4/0: CHOC SPA parity error(s) encountered SLOT 7:Jan 4 02:04:00.487: %MCT1E1-3-UNCOR_PARITY_ERR: SPA5/0: T1E1 SPA parity error(s) encountered SLOT 3: 00:33:48: %MCT1E1-3-UNCOR_MEM_ERR: SPA3/0: 1 uncorrectable HDLC SRAM memory error(s) encountered. SLOT 1:Oct 3 14:42:45.727: %SPA_PLIM-4-SBE_ECC: SPA-4XT3/E3[1/2] reports 2 SBE occurrence at 1 addresses SLOT 1: Jul 22 05:26:29.613 UTC: %SPA_DATABUS-3-SPI4_SINGLE_DIP4_PARITY: SIP Sbslt 0 Ingress Sink - A single DIP4 parity error has occurred on the data bus. SLOT 4: Dec 2 22:44:05: %SPA_DATABUS-3-SPI4_SINGLE_DIP2_PARITY: SIP Sbslt 0 Egress Source - A single DIP 2 parity error on the FIFO status bus has occurred. SLOT 1:Oct 3 14:42:45.727: %SPA_PLIM-4-SBE_OVERFLOW: SPA-4XT3/E3[1/2] reports SBE table (2 elements) overflows SLOT 1:Oct 3 14:42:45.727: % SPA_PLUGIN-3-SPI4_SETCB: SPA-4XT3/E3[1/2] : IPC SPI4 set callback failed(status 2).
スイッチング ファブリック カードに関連するパリティ エラー メッセージについては、すべて、「Cisco 12000 シリーズ ルータのハードウェアに関するトラブルシューティング」で詳しく説明されています。これらのメッセージには、次のものが含まれます(リストの一部)。
%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error Data = 0x2. SLOT 1:%FABRIC-3-PARITYERR: To Fabric parity error was detected. Grant parity error Data = 0x1