Troubleshooting de Travamentos de Placa de Linha no Cisco 12000 Series Internet Router

Opções de download

PDF (297.1 KB)
Ver no Adobe Reader em vários dispositivos
ePub (91.7 KB)
Ver em vários aplicativos no iPhone, iPad, Android, Sony Reader ou Windows Phone
Mobi (Kindle) (86.4 KB)
Ver no dispositivo Kindle ou no aplicativo Kindle em vários dispositivos

Atualizado:23 de abril de 2007

ID do documento:12770

Linguagem imparcial

O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.

Sobre esta tradução

A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.

Introduction

Prerequisites

Requirements

Componentes Utilizados

Conventions

Informações de Apoio

Identificar um travamento da placa de linha

Colete informações sobre o travamento

Analisar os dados coletados

O comando de execução diag

Exceções de paridade de cache

Exceções de erro de barramento

Travamentos forçados por software

%GSRSPA-6-ERRORRECOVER: Ocorreu um erro de hardware ou software na Subslot 0. Modelo do motivo: Início da recuperação automática de erros TXECCERR

Outros travamentos

Informações a serem coletadas se você abrir um pedido de serviço de TAC

Informações Relacionadas

Introduction

Este documento fornece informações sobre como resolver problemas relacionados a travamento da placa de linha em um Cisco 12000 Series Internet Router.

Prerequisites

Requirements

Não existem requisitos específicos para este documento.

Componentes Utilizados

As informações neste documento são baseadas nestas versões de software e hardware:

Todos os 12000 Series Internet Routers, incluindo 12008, 12012, 12016, 12404, 12406, 12410 e 12416.
Todas as versões do software Cisco IOS® que suportam o Cisco 12000 Series Internet Router.

The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. If your network is live, make sure that you understand the potential impact of any command.

Conventions

Consulte as Convenções de Dicas Técnicas da Cisco para obter mais informações sobre convenções de documentos.

Informações de Apoio

Esta seção fornece um plano de fundo sobre como identificar um travamento da placa de linha.

Identificar um travamento da placa de linha

Para identificar rapidamente um travamento da placa de linha, use o comando show context summary:

   Router#show context summary 
       CRASH INFO SUMMARY 
         Slot 0 : 0 crashes 
         Slot 1 : 0 crashes 
         Slot 2 : 0 crashes 
         Slot 3 : 0 crashes 
         Slot 4 : 1 crashes 
           1 - crash at 04:28:56 EDT Tue Apr 20 1999 
         Slot 5 : 0 crashes 
         Slot 6 : 0 crashes 
         Slot 7 : 0 crashes 
         Slot 8 : 0 crashes 
         Slot 9 : 0 crashes 
         Slot 10: 0 crashes 
         Slot 11: 0 crashes

Se o travamento afetar o próprio roteador (e não apenas a placa de linha), consulte Troubleshooting de Travamentos do Roteador.

Colete informações sobre o travamento

Para coletar os dados relevantes sobre o travamento, use os comandos mostrados na Tabela 1.

Tabela 1 - Comandos a serem usados para coletar dados sobre o travamento

Comando	Descrição
show version	Fornece informações gerais sobre as configurações de hardware e software do sistema.
show logging	Exibe os logs gerais do roteador.
show diag [slot #]	Fornece informações específicas sobre um slot específico: tipo de mecanismo, revisões de hardware, configuração de memória etc.
show context slot [slot #]	Fornece informações de contexto sobre o(s) travamento(s) recente(s). Esse é geralmente o comando mais útil para solucionar problemas de travamentos da placa de linha.
Dump central	Um dump central de uma placa de linha é o conteúdo completo de sua memória no momento do travamento. Normalmente, esses dados não são necessários para uma solução de problemas inicial. Pode ser necessário mais tarde se o problema for um novo bug de software. Nesse caso, consulte Configurando um Dump Central em uma Placa de Linha GSR.

Se você tiver a saída de um comando show tech-support (do modo enable) de seu dispositivo Cisco, poderá usar para exibir possíveis problemas e correções. Para usar , você deve ser um cliente registrado, estar conectado e ter JavaScript habilitado.

Analisar os dados coletados

Verifique o valor do campo sig= na saída show context slot [slot#]:

       Router#show context slot 4 
       CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 

       VERSION: 
       GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE 
       SOFTWARE (fc1) 
       Compiled Mon 28-Dec-98 14:53 by tamb 
       Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL 
       System exception: SIG=20, code=0xA414EF5A, context=0x40337424 

       Traceback Using RA 
       STACK TRACE: 
         traceback 4014CFC0 40141AB8 40143944 4014607C 4014A7EC 401499D4 40149BB4 
       40149FD4 40080118 40080104 
       CONTEXT: 
       $0 : 00000000, AT : 40330000, v0 : 00000000, v1 : 00000038 
       a0 : 4094EF58, a1 : 00000120, a2 : 00000002, a3 : 00000001 
       t0 : 00000010, t1 : 3400BF01, t2 : 34008D00, t3 : FFFF00FF 
       t4 : 400A1410, t5 : 00000002, t6 : 00000000, t7 : 4041783C 
       s0 : 4093F980, s1 : 4093F980, s2 : 4094EEF0, s3 : 4094EF00 
       s4 : 00000000, s5 : 00000001, s6 : 00000000, s7 : 00000000 
       t8 : 34008000, t9 : 00000000, k0 : 404D1860, k1 : 400A2F68 
       gp : 402F3070, sp : 4082BFB0, s8 : 00000000, ra : 400826FC 
       EPC : 0x40098824, SREG : 0x3400BF04, Cause : 0x00000000 
       ErrorEPC : 0x4015B7E4

Consulte a Tabela 2 para saber qual razão de erro corresponde ao valor SIG que você gravou.

Tabela 2 - Encontre o erro que corresponde ao valor SIG

Valor de SIG	Nome do SIG	Motivo do erro
2	SIGINT	Interrupção de hardware inesperada.
3	SIGQUIT	Suspensão devido a tecla de interrupção.
4	SIGILL	Exceção de opcode ilegal.
5	SIGTRAP	abortar devido a um Break Point ou uma exceção aritmética.
8	SIGFPE	Exceção de unidade de ponto flutuante (FPU).
9	SIGKILL	Exceção reservada.
10	SIGBUS	Exceção de erro de barramento.
11	SIGSEGV	Exceção de SegV.
20	SIGCACHE	Exceção de paridade de cache.
21	SIGWBERR	Interrupção de erro de barramento de gravação.
22	SIGERROR	Erro de hardware fatal.
23	SIGRELOAD	Travamento forçado por software.

Nota: Exceção de paridade de cache (SIG=20), Exceção de erro de barramento (SIG=10) e Travamentos forçados de software (SIG=23) são responsáveis por mais de 95% dos travamentos da placa de linha.

O comando de execução diag

O Cisco 12000 Series suporta o comando diag [slot#] para testar os diferentes componentes da placa. Esse comando é útil para solucionar problemas de travamentos relacionados ao hardware e para identificar a placa com defeito.

A opção verbose faz com que o roteador exiba a lista de testes à medida que eles são executados. Caso contrário, ele simplesmente exibe uma mensagem "PASSED" ou "FAILURE".

Observação: a execução desse diagnóstico interrompe todas as atividades da placa de linha durante os testes (geralmente em torno de cinco minutos).

Começando com o Cisco IOS Software Release 12.0(22)S, a Cisco desagregou a imagem da placa de linha de diagnóstico de campo do Cisco 12000 Series Internet Router da imagem do Cisco IOS Software. Em versões anteriores, o diagnóstico poderia ser iniciado a partir da linha de comando e a imagem incorporada seria iniciada. Para acomodar clientes com placas de memória Flash de 20 MB, os diagnósticos de campo da placa de linha são agora armazenados e mantidos como uma imagem separada que deve estar disponível em uma placa de memória Flash ou em um servidor de inicialização Trivial File Transfer Protocol (TFTP) antes que os comandos de diagnóstico de campo possam ser usados. Os diagnósticos de campo do processador de roteador e da matriz de comutação continuam em pacote e não precisam ser iniciados a partir de uma imagem separada. Você pode encontrar mais informações no Field Diagnostics para o Cisco 12000 Series Internet Router.

Aqui está um exemplo de uma saída do comando diag [slot#]:

Router#diag 3 verbose 
Running DIAG config check 
Running Diags will halt ALL activity on the requested slot. 
[confirm] 
CR1.LND10# 
Launching a Field Diagnostic for slot 3 
Downloading diagnostic tests to slot 3 (timeout set to 400 sec.) 
Field Diag download COMPLETE for slot 3 
FD 3> ***************************************************** 
FD 3> GSR Field Diagnostics V3.0 
FD 3> Compiled by award on Tue Aug 3 15:58:13 PDT 1999 
FD 3> view: award-bfr_112.FieldDiagRelease 
FD 3> ***************************************************** 
FD 3> BFR_CARD_TYPE_OC48_1P_POS testing... 
FD 3> running in slot 3 (128 tests) 

Executing all diagnostic tests in slot 3 
(total/indiv. timeout set to 600/200 sec.) 
FD 3> Verbosity now (0x00000001) TESTSDISP 

FDIAG_STAT_IN_PROGRESS: test #1 R5K Internal Cache 
FDIAG_STAT_IN_PROGRESS: test #2 Burst Operations 
FDIAG_STAT_IN_PROGRESS: test #3 Subblock Ordering 
FDIAG_STAT_IN_PROGRESS: test #4 Dram Marching Pattern 
FDIAG_STAT_DONE_FAIL test_num 4, error_code 6 
Field Diagnostic: ****TEST FAILURE**** slot 3: last test run 4, 
Dram Marching Pattern, error 6 
Field Diag eeprom values: run 2 fail mode 1 (TEST FAILURE) slot 3 
last test failed was 4, error code 6 
Shutting down diags in slot 3 

slot 3 done, will not reload automatically

Dependendo do erro encontrado, o slot pode ou não ser automaticamente recarregado. Se não estiver, ele pode estar em um estado preso ou inconsistente (verifique com o comando show diag [slot #]) até que seja recarregado manualmente. This is normal. Para recarregar manualmente a placa, use o comando hw-module slot [slot#] reload.

Exceções de paridade de cache

Você pode identificar exceções de paridade de cache pelo SIG=20 na saída show context [slot #].

Há dois tipos diferentes de erros de paridade:

Erros de paridade suave — ocorrem quando um nível de energia dentro do chip (por exemplo, um ou zero) muda. No caso de um erro de paridade suave, não há necessidade de trocar a placa ou qualquer um dos componentes.
Erros de paridade de hardware — ocorrem quando há uma falha de chip ou placa que faz com que os dados sejam corrompidos. Nesse caso, você deve recolocar ou substituir o componente afetado, geralmente uma troca de chip de memória ou uma troca de placa. Há um erro de paridade difícil quando vários erros de paridade são vistos no mesmo endereço. Há casos mais complicados que são mais difíceis de identificar, mas, em geral, se mais de um erro de paridade for observado em uma região de memória específica em um período relativamente curto (várias semanas a meses), isso pode ser considerado um erro de paridade difícil.

Estudos mostram que os erros de paridade suave são de 10 a 100 vezes mais freqüentes que os erros de paridade difícil.

Para solucionar esses erros, encontre uma janela de manutenção para executar o comando diag para esse slot.

Se o diagnóstico resultar em uma falha, substitua a placa de linha.
Se não houver falha, é provável que haja um erro de paridade suave e a placa de linha não precisa ser substituída (a menos que trave uma segunda vez com erro de paridade após um curto período de tempo).

Exceções de erro de barramento

Você pode identificar exceções de erro de barramento pelo SIG=10 na saída show context [slot #].

Esse tipo de travamento é normalmente relacionado ao software, mas se, por algum motivo (por exemplo, é uma placa nova ou os travamentos começam após uma queda de energia) você achar que o problema pode estar relacionado ao hardware, execute o comando diag para esse slot.

Nota: Sabe-se que alguns bugs de software fazem com que o comando diag reporte erros, mesmo que não haja nenhum problema com o hardware. Se uma placa já tiver sido substituída, mas ainda falhar no mesmo teste no diagnóstico, você poderá ser afetado por esse problema. Nesse caso, trate o travamento como um problema de software.

A atualização para a versão mais recente da versão do software Cisco IOS elimina todos os bugs corrigidos que causam erros de barramento da placa de linha. Se o travamento ainda estiver presente após a atualização, reúna as informações relevantes (consulte Colete informações sobre o travamento), juntamente com um show tech-support, e qualquer informação que você considere útil (como alteração recente de topologia ou um novo recurso implementado recentemente) e entre em contato com o representante de suporte da Cisco.

Travamentos forçados por software

Você pode identificar travamentos forçados por software pelo SIG=23 na saída show context [slot #]. Apesar do nome, esses acidentes nem sempre são relacionados ao software.

O motivo mais comum para travamentos forçados por software é o "Tempo limite do ping de estrutura". Durante a operação normal do roteador, o RP (Route Processor, Processador de Rota) efetua ping continuamente nas placas de linha. Se uma placa de linha não atender, o processador de rota decide redefini-la. Isso resulta em um travamento forçado por software (SIG=23) da placa de linha afetada, e você deve ver estes erros nos registros do roteador:

Mar 12 00:42:48: %GRP-3-FABRIC_UNI: 
Unicast send timed out (4) 
Mar 12 00:42:50: %GRP-3-COREDUMP: Core dump incident on slot 4, error: Fabric ping failure

Para solucionar problemas de timeouts de ping de estrutura, você precisa descobrir por que a placa de linha não respondeu ao ping. Pode haver várias causas:

A placa de linha está passando por uma alta utilização da CPU—Isso pode ser verificado usando o comando execute-on slot [slot #] show proc cpu. Se a CPU for realmente alta (acima de 95%), consulte Troubleshooting High CPU Utilization on Cisco Routers (Troubleshooting de Alta Utilização da CPU em Cisco Routers).
Há bugs de software na comunicação entre processos (IPC) ou a placa de linha está ficando sem buffers IPC. Na maioria das vezes, essas recargas forçadas por software são causadas por bugs de software.

A atualização para a versão mais recente da versão do software Cisco IOS elimina todos os bugs corrigidos que causam timeouts de ping de estrutura. Se o travamento ainda estiver presente após a atualização, reúna as informações relevantes (consulte Obtendo informações sobre o travamento), juntamente com um show tech-support, um show ipc status e qualquer informação que você considere útil (como alteração recente de topologia ou um novo recurso implementado recentemente) e entre em contato com o representante de suporte da Cisco.
Falha de hardware—Se a placa estiver funcionando bem há muito tempo e nenhuma topologia, software ou alteração de recurso recente tiver ocorrido, ou se os problemas tiverem começado após uma mudança ou uma queda de energia, o hardware defeituoso pode ser a causa. Execute o comando diag na placa de linha afetada. Substitua a placa de linha, se estiver com defeito. Se várias placas de linha forem afetadas ou o diagnóstico estiver bom, substitua a estrutura.

%GSRSPA-6-ERRORRECOVER: Ocorreu um erro de hardware ou software na Subslot 0. Modelo do motivo: Início da recuperação automática de erros TXECCERR

O erro TXECCERR/RXECCERR ocorre quando a interrupção de erro RxFIFO ou TxFIFO irrecuperável de ECC ocorre no MAC mais do que o valor limite dentro do intervalo de tempo. Erros ECC irrecuperáveis não podem ser corrigidos pela lógica ECC. Quando ocorre um erro irrecuperável durante a leitura RxFIFO, o pacote ao qual os dados pertencem é marcado com EOP/Abort na interface de recebimento SPI4 e é descartado pelas camadas superiores.

Isso é devido ao hardware e é corrigido assim que reinicializamos o SIP/SPA. A solução permanente é substituir o SIP/SPA para evitar os erros.

Outros travamentos

Outros tipos de acidentes são, de longe, menos comuns do que os dois acima mencionados. Na maioria dos casos, o comando diag deve indicar se a placa precisa ser substituída ou não. Se a placa passar no teste de diagnóstico corretamente, considere atualizar o software.

Informações a serem coletadas se você abrir um pedido de serviço de TAC

Se você ainda precisar de assistência após seguir as etapas de solução de problemas acima e quiser abrir uma solicitação de serviço (somente clientes registrados) com o Cisco TAC, inclua as seguintes informações:
Troubleshooting realizado antes da abertura da solicitação de serviço. show technical-support output (no modo enable, se possível). mostrar registro de saída ou capturas de tela do console, se disponível. execute-on slot [slot #] show tech para o slot que experimentou o travamento da placa de linha. Anexe os dados coletados à sua solicitação de serviço em formato de texto simples (.txt) não compactado. Você pode anexar informações à sua requisição de serviço ao fazer o upload dela com a Ferramenta TAC Service Request Tool (somente para clientes registrados). Se você não puder acessar a ferramenta Solicitação de serviço, poderá enviar as informações em um anexo de e-mail para attach@cisco.com com seu número de solicitação de serviço na linha de assunto de sua mensagem. Observação: não recarregue manualmente ou desligue e ligue o roteador antes de coletar as informações acima, a menos que seja necessário solucionar problemas de travamento de uma placa de linha no Cisco 12000 Series Internet Router, pois isso pode causar a perda de informações importantes necessárias para determinar a causa raiz do problema.

Se você ainda precisar de assistência após seguir as etapas de solução de problemas acima e quiser abrir uma solicitação de serviço (somente clientes registrados) com o Cisco TAC, inclua as seguintes informações:

Troubleshooting realizado antes da abertura da solicitação de serviço.
show technical-support output (no modo enable, se possível).
mostrar registro de saída ou capturas de tela do console, se disponível.
execute-on slot [slot #] show tech para o slot que experimentou o travamento da placa de linha.

Anexe os dados coletados à sua solicitação de serviço em formato de texto simples (.txt) não compactado. Você pode anexar informações à sua requisição de serviço ao fazer o upload dela com a Ferramenta TAC Service Request Tool (somente para clientes registrados). Se você não puder acessar a ferramenta Solicitação de serviço, poderá enviar as informações em um anexo de e-mail para attach@cisco.com com seu número de solicitação de serviço na linha de assunto de sua mensagem.

Observação: não recarregue manualmente ou desligue e ligue o roteador antes de coletar as informações acima, a menos que seja necessário solucionar problemas de travamento de uma placa de linha no Cisco 12000 Series Internet Router, pois isso pode causar a perda de informações importantes necessárias para determinar a causa raiz do problema.

Informações Relacionadas

Histórico de revisões

Revisão	Data de publicação	Comentários
1.0	23-Apr-2007	Versão inicial

Este documento lhe foi útil?

Feedback

Contate a Cisco

Abrir um caso de suporte
(É necessário um Contrato de Serviço da Cisco)

Troubleshooting de Travamentos de Placa de Linha no Cisco 12000 Series Internet Router

Opções de download

Linguagem imparcial

Sobre esta tradução

Contents

Introduction

Prerequisites

Requirements

Componentes Utilizados

Conventions

Informações de Apoio

Identificar um travamento da placa de linha

Colete informações sobre o travamento

Analisar os dados coletados

O comando de execução diag

Exceções de paridade de cache

Exceções de erro de barramento

Travamentos forçados por software

%GSRSPA-6-ERRORRECOVER: Ocorreu um erro de hardware ou software na Subslot 0. Modelo do motivo: Início da recuperação automática de erros TXECCERR

Outros travamentos

Informações a serem coletadas se você abrir um pedido de serviço de TAC

Informações Relacionadas

Histórico de revisões

Este documento lhe foi útil?

Contate a Cisco

Este documento se refere a estes produtos