O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.
A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.
Este documento fornece informações sobre como resolver problemas relacionados a travamento da placa de linha em um Cisco 12000 Series Internet Router.
Não existem requisitos específicos para este documento.
As informações neste documento são baseadas nestas versões de software e hardware:
Todos os 12000 Series Internet Routers, incluindo 12008, 12012, 12016, 12404, 12406, 12410 e 12416.
Todas as versões do software Cisco IOS® que suportam o Cisco 12000 Series Internet Router.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. If your network is live, make sure that you understand the potential impact of any command.
Consulte as Convenções de Dicas Técnicas da Cisco para obter mais informações sobre convenções de documentos.
Esta seção fornece um plano de fundo sobre como identificar um travamento da placa de linha.
Para identificar rapidamente um travamento da placa de linha, use o comando show context summary:
Router#show context summary CRASH INFO SUMMARY Slot 0 : 0 crashes Slot 1 : 0 crashes Slot 2 : 0 crashes Slot 3 : 0 crashes Slot 4 : 1 crashes 1 - crash at 04:28:56 EDT Tue Apr 20 1999 Slot 5 : 0 crashes Slot 6 : 0 crashes Slot 7 : 0 crashes Slot 8 : 0 crashes Slot 9 : 0 crashes Slot 10: 0 crashes Slot 11: 0 crashes
Se o travamento afetar o próprio roteador (e não apenas a placa de linha), consulte Troubleshooting de Travamentos do Roteador.
Para coletar os dados relevantes sobre o travamento, use os comandos mostrados na Tabela 1.
Tabela 1 - Comandos a serem usados para coletar dados sobre o travamentoComando | Descrição |
---|---|
show version | Fornece informações gerais sobre as configurações de hardware e software do sistema. |
show logging | Exibe os logs gerais do roteador. |
show diag [slot #] | Fornece informações específicas sobre um slot específico: tipo de mecanismo, revisões de hardware, configuração de memória etc. |
show context slot [slot #] | Fornece informações de contexto sobre o(s) travamento(s) recente(s). Esse é geralmente o comando mais útil para solucionar problemas de travamentos da placa de linha. |
Dump central | Um dump central de uma placa de linha é o conteúdo completo de sua memória no momento do travamento. Normalmente, esses dados não são necessários para uma solução de problemas inicial. Pode ser necessário mais tarde se o problema for um novo bug de software. Nesse caso, consulte Configurando um Dump Central em uma Placa de Linha GSR. |
Se você tiver a saída de um comando show tech-support (do modo enable) de seu dispositivo Cisco, poderá usar para exibir possíveis problemas e correções. Para usar , você deve ser um cliente registrado, estar conectado e ter JavaScript habilitado.
Verifique o valor do campo sig= na saída show context slot [slot#]:
Router#show context slot 4 CRASH INFO: Slot 4, Index 1, Crash at 04:28:56 EDT Tue Apr 20 1999 VERSION: GS Software (GLC1-LC-M), Version 11.2(15)GS1a, EARLY DEPLOYMENT RELEASE SOFTWARE (fc1) Compiled Mon 28-Dec-98 14:53 by tamb Card Type: 1 Port Packet Over SONET OC-12c/STM-4c, S/N CAB020500AL System exception: SIG=20, code=0xA414EF5A, context=0x40337424 Traceback Using RA STACK TRACE: traceback 4014CFC0 40141AB8 40143944 4014607C 4014A7EC 401499D4 40149BB4 40149FD4 40080118 40080104 CONTEXT: $0 : 00000000, AT : 40330000, v0 : 00000000, v1 : 00000038 a0 : 4094EF58, a1 : 00000120, a2 : 00000002, a3 : 00000001 t0 : 00000010, t1 : 3400BF01, t2 : 34008D00, t3 : FFFF00FF t4 : 400A1410, t5 : 00000002, t6 : 00000000, t7 : 4041783C s0 : 4093F980, s1 : 4093F980, s2 : 4094EEF0, s3 : 4094EF00 s4 : 00000000, s5 : 00000001, s6 : 00000000, s7 : 00000000 t8 : 34008000, t9 : 00000000, k0 : 404D1860, k1 : 400A2F68 gp : 402F3070, sp : 4082BFB0, s8 : 00000000, ra : 400826FC EPC : 0x40098824, SREG : 0x3400BF04, Cause : 0x00000000 ErrorEPC : 0x4015B7E4
Consulte a Tabela 2 para saber qual razão de erro corresponde ao valor SIG que você gravou.
Tabela 2 - Encontre o erro que corresponde ao valor SIGValor de SIG | Nome do SIG | Motivo do erro |
---|---|---|
2 | SIGINT | Interrupção de hardware inesperada. |
3 | SIGQUIT | Suspensão devido a tecla de interrupção. |
4 | SIGILL | Exceção de opcode ilegal. |
5 | SIGTRAP | abortar devido a um Break Point ou uma exceção aritmética. |
8 | SIGFPE | Exceção de unidade de ponto flutuante (FPU). |
9 | SIGKILL | Exceção reservada. |
10 | SIGBUS | Exceção de erro de barramento. |
11 | SIGSEGV | Exceção de SegV. |
20 | SIGCACHE | Exceção de paridade de cache. |
21 | SIGWBERR | Interrupção de erro de barramento de gravação. |
22 | SIGERROR | Erro de hardware fatal. |
23 | SIGRELOAD | Travamento forçado por software. |
Nota: Exceção de paridade de cache (SIG=20), Exceção de erro de barramento (SIG=10) e Travamentos forçados de software (SIG=23) são responsáveis por mais de 95% dos travamentos da placa de linha.
O Cisco 12000 Series suporta o comando diag [slot#] para testar os diferentes componentes da placa. Esse comando é útil para solucionar problemas de travamentos relacionados ao hardware e para identificar a placa com defeito.
A opção verbose faz com que o roteador exiba a lista de testes à medida que eles são executados. Caso contrário, ele simplesmente exibe uma mensagem "PASSED" ou "FAILURE".
Observação: a execução desse diagnóstico interrompe todas as atividades da placa de linha durante os testes (geralmente em torno de cinco minutos).
Começando com o Cisco IOS Software Release 12.0(22)S, a Cisco desagregou a imagem da placa de linha de diagnóstico de campo do Cisco 12000 Series Internet Router da imagem do Cisco IOS Software. Em versões anteriores, o diagnóstico poderia ser iniciado a partir da linha de comando e a imagem incorporada seria iniciada. Para acomodar clientes com placas de memória Flash de 20 MB, os diagnósticos de campo da placa de linha são agora armazenados e mantidos como uma imagem separada que deve estar disponível em uma placa de memória Flash ou em um servidor de inicialização Trivial File Transfer Protocol (TFTP) antes que os comandos de diagnóstico de campo possam ser usados. Os diagnósticos de campo do processador de roteador e da matriz de comutação continuam em pacote e não precisam ser iniciados a partir de uma imagem separada. Você pode encontrar mais informações no Field Diagnostics para o Cisco 12000 Series Internet Router.
Aqui está um exemplo de uma saída do comando diag [slot#]:
Router#diag 3 verbose Running DIAG config check Running Diags will halt ALL activity on the requested slot. [confirm] CR1.LND10# Launching a Field Diagnostic for slot 3 Downloading diagnostic tests to slot 3 (timeout set to 400 sec.) Field Diag download COMPLETE for slot 3 FD 3> ***************************************************** FD 3> GSR Field Diagnostics V3.0 FD 3> Compiled by award on Tue Aug 3 15:58:13 PDT 1999 FD 3> view: award-bfr_112.FieldDiagRelease FD 3> ***************************************************** FD 3> BFR_CARD_TYPE_OC48_1P_POS testing... FD 3> running in slot 3 (128 tests) Executing all diagnostic tests in slot 3 (total/indiv. timeout set to 600/200 sec.) FD 3> Verbosity now (0x00000001) TESTSDISP FDIAG_STAT_IN_PROGRESS: test #1 R5K Internal Cache FDIAG_STAT_IN_PROGRESS: test #2 Burst Operations FDIAG_STAT_IN_PROGRESS: test #3 Subblock Ordering FDIAG_STAT_IN_PROGRESS: test #4 Dram Marching Pattern FDIAG_STAT_DONE_FAIL test_num 4, error_code 6 Field Diagnostic: ****TEST FAILURE**** slot 3: last test run 4, Dram Marching Pattern, error 6 Field Diag eeprom values: run 2 fail mode 1 (TEST FAILURE) slot 3 last test failed was 4, error code 6 Shutting down diags in slot 3 slot 3 done, will not reload automatically
Dependendo do erro encontrado, o slot pode ou não ser automaticamente recarregado. Se não estiver, ele pode estar em um estado preso ou inconsistente (verifique com o comando show diag [slot #]) até que seja recarregado manualmente. This is normal. Para recarregar manualmente a placa, use o comando hw-module slot [slot#] reload.
Você pode identificar exceções de paridade de cache pelo SIG=20 na saída show context [slot #].
Se você tiver a saída de um comando show tech-support (do modo enable) de seu dispositivo Cisco, poderá usar para exibir possíveis problemas e correções. Para usar , você deve ser um cliente registrado, estar conectado e ter JavaScript habilitado.
Há dois tipos diferentes de erros de paridade:
Erros de paridade suave — ocorrem quando um nível de energia dentro do chip (por exemplo, um ou zero) muda. No caso de um erro de paridade suave, não há necessidade de trocar a placa ou qualquer um dos componentes.
Erros de paridade de hardware — ocorrem quando há uma falha de chip ou placa que faz com que os dados sejam corrompidos. Nesse caso, você deve recolocar ou substituir o componente afetado, geralmente uma troca de chip de memória ou uma troca de placa. Há um erro de paridade difícil quando vários erros de paridade são vistos no mesmo endereço. Há casos mais complicados que são mais difíceis de identificar, mas, em geral, se mais de um erro de paridade for observado em uma região de memória específica em um período relativamente curto (várias semanas a meses), isso pode ser considerado um erro de paridade difícil.
Estudos mostram que os erros de paridade suave são de 10 a 100 vezes mais freqüentes que os erros de paridade difícil.
Para solucionar esses erros, encontre uma janela de manutenção para executar o comando diag para esse slot.
Se o diagnóstico resultar em uma falha, substitua a placa de linha.
Se não houver falha, é provável que haja um erro de paridade suave e a placa de linha não precisa ser substituída (a menos que trave uma segunda vez com erro de paridade após um curto período de tempo).
Você pode identificar exceções de erro de barramento pelo SIG=10 na saída show context [slot #].
Se você tiver a saída de um comando show tech-support (do modo enable) de seu dispositivo Cisco, poderá usar para exibir possíveis problemas e correções. Para usar , você deve ser um cliente registrado, estar conectado e ter JavaScript habilitado.
Esse tipo de travamento é normalmente relacionado ao software, mas se, por algum motivo (por exemplo, é uma placa nova ou os travamentos começam após uma queda de energia) você achar que o problema pode estar relacionado ao hardware, execute o comando diag para esse slot.
Nota: Sabe-se que alguns bugs de software fazem com que o comando diag reporte erros, mesmo que não haja nenhum problema com o hardware. Se uma placa já tiver sido substituída, mas ainda falhar no mesmo teste no diagnóstico, você poderá ser afetado por esse problema. Nesse caso, trate o travamento como um problema de software.
A atualização para a versão mais recente da versão do software Cisco IOS elimina todos os bugs corrigidos que causam erros de barramento da placa de linha. Se o travamento ainda estiver presente após a atualização, reúna as informações relevantes (consulte Colete informações sobre o travamento), juntamente com um show tech-support, e qualquer informação que você considere útil (como alteração recente de topologia ou um novo recurso implementado recentemente) e entre em contato com o representante de suporte da Cisco.
Você pode identificar travamentos forçados por software pelo SIG=23 na saída show context [slot #]. Apesar do nome, esses acidentes nem sempre são relacionados ao software.
Se você tiver a saída de um comando show tech-support (do modo enable) de seu dispositivo Cisco, poderá usar para exibir possíveis problemas e correções. Para usar , você deve ser um cliente registrado, estar conectado e ter JavaScript habilitado.
O motivo mais comum para travamentos forçados por software é o "Tempo limite do ping de estrutura". Durante a operação normal do roteador, o RP (Route Processor, Processador de Rota) efetua ping continuamente nas placas de linha. Se uma placa de linha não atender, o processador de rota decide redefini-la. Isso resulta em um travamento forçado por software (SIG=23) da placa de linha afetada, e você deve ver estes erros nos registros do roteador:
Mar 12 00:42:48: %GRP-3-FABRIC_UNI: Unicast send timed out (4) Mar 12 00:42:50: %GRP-3-COREDUMP: Core dump incident on slot 4, error: Fabric ping failure
Para solucionar problemas de timeouts de ping de estrutura, você precisa descobrir por que a placa de linha não respondeu ao ping. Pode haver várias causas:
A placa de linha está passando por uma alta utilização da CPU—Isso pode ser verificado usando o comando execute-on slot [slot #] show proc cpu. Se a CPU for realmente alta (acima de 95%), consulte Troubleshooting High CPU Utilization on Cisco Routers (Troubleshooting de Alta Utilização da CPU em Cisco Routers).
Há bugs de software na comunicação entre processos (IPC) ou a placa de linha está ficando sem buffers IPC. Na maioria das vezes, essas recargas forçadas por software são causadas por bugs de software.
A atualização para a versão mais recente da versão do software Cisco IOS elimina todos os bugs corrigidos que causam timeouts de ping de estrutura. Se o travamento ainda estiver presente após a atualização, reúna as informações relevantes (consulte Obtendo informações sobre o travamento), juntamente com um show tech-support, um show ipc status e qualquer informação que você considere útil (como alteração recente de topologia ou um novo recurso implementado recentemente) e entre em contato com o representante de suporte da Cisco.
Falha de hardware—Se a placa estiver funcionando bem há muito tempo e nenhuma topologia, software ou alteração de recurso recente tiver ocorrido, ou se os problemas tiverem começado após uma mudança ou uma queda de energia, o hardware defeituoso pode ser a causa. Execute o comando diag na placa de linha afetada. Substitua a placa de linha, se estiver com defeito. Se várias placas de linha forem afetadas ou o diagnóstico estiver bom, substitua a estrutura.
O erro TXECCERR/RXECCERR ocorre quando a interrupção de erro RxFIFO ou TxFIFO irrecuperável de ECC ocorre no MAC mais do que o valor limite dentro do intervalo de tempo. Erros ECC irrecuperáveis não podem ser corrigidos pela lógica ECC. Quando ocorre um erro irrecuperável durante a leitura RxFIFO, o pacote ao qual os dados pertencem é marcado com EOP/Abort na interface de recebimento SPI4 e é descartado pelas camadas superiores.
Isso é devido ao hardware e é corrigido assim que reinicializamos o SIP/SPA. A solução permanente é substituir o SIP/SPA para evitar os erros.
Outros tipos de acidentes são, de longe, menos comuns do que os dois acima mencionados. Na maioria dos casos, o comando diag deve indicar se a placa precisa ser substituída ou não. Se a placa passar no teste de diagnóstico corretamente, considere atualizar o software.
Se você ainda precisar de assistência após seguir as etapas de solução de problemas acima e quiser abrir uma solicitação de serviço (somente clientes registrados) com o Cisco TAC, inclua as seguintes informações: |
---|
Observação: não recarregue manualmente ou desligue e ligue o roteador antes de coletar as informações acima, a menos que seja necessário solucionar problemas de travamento de uma placa de linha no Cisco 12000 Series Internet Router, pois isso pode causar a perda de informações importantes necessárias para determinar a causa raiz do problema. |
Revisão | Data de publicação | Comentários |
---|---|---|
1.0 |
23-Apr-2007 |
Versão inicial |