Guia de Troubleshooting de Erros de Paridade

Opções de download

PDF (120.7 KB)
Ver no Adobe Reader em vários dispositivos
ePub (89.8 KB)
Ver em vários aplicativos no iPhone, iPad, Android, Sony Reader ou Windows Phone
Mobi (Kindle) (85.3 KB)
Ver no dispositivo Kindle ou no aplicativo Kindle em vários dispositivos

Atualizado:21 de março de 2019

ID do documento:116135

Linguagem imparcial

O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.

Sobre esta tradução

A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.

Introduction

Background

Erros de software

Erros de hardware

Mensagens de erro comuns

Processador

RAM

ASIC

Últimos avanços

Processador

RAM

ASIC

Software

MSFC IBC Reset

Redefinição de "Erro de paridade de bit único" do 6700 Series

Recomendações

Erros de software (SEU)

Auditoria ambiental

Firmware mais recente (Rommon)

Parafusos do polegar

Erros de hardware (mau funcionamento)

Auditoria de hardware (MTBF e EOL)

Diagnóstico de hardware

Informações Relacionadas

Introduction

Este documento descreve erros de soft e hard parity, explica mensagens de erro comuns e recomenda métodos que ajudam a evitar ou minimizar erros de paridade. Melhorias recentes no design de hardware e software também reduzem os problemas de paridade.

Background

O que é um erro de paridade de processador ou de memória?

A verificação de paridade é o armazenamento de um dígito binário extra (bit) para representar a paridade (ímpar ou par) de uma pequena quantidade de dados do computador (normalmente um byte) enquanto esses dados são armazenados na memória. O valor de paridade calculado a partir dos dados armazenados é então comparado ao valor de paridade final. Se esses dois valores forem diferentes, isso indica um erro de dados e pelo menos um bit deve ter sido alterado devido a dados corrompidos.

Dentro de um sistema de computador, a interferência elétrica ou magnética de causas internas ou externas pode fazer com que um único bit de memória se vire espontaneamente para o estado oposto. Esse evento torna os bits de dados originais inválidos e é conhecido como erro de paridade.

Tais erros de memória, se não detectados, podem ter resultados indetectáveis e inconsequentes ou podem causar corrupção permanente de dados armazenados ou um travamento de máquina.

Há muitas causas de erros de paridade de memória, que são classificados como erros de paridade de software ou erros de paridade de hardware.

Erros de software

A maioria dos erros de paridade é causada por condições ambientais eletrostáticas ou magnéticas.

A maioria dos erros de evento único em chips de memória é causada pela radiação de fundo (como nêutrons de raios cósmicos), interferência eletromagnética (EMI) ou descarga eletrostática (ESD). Esses eventos podem alterar aleatoriamente o estado elétrico de uma ou mais células de memória ou podem interferir com os circuitos usados para ler e gravar células de memória.

Conhecidos como erros de paridade suave, esses eventos são geralmente transitórios ou aleatórios e geralmente ocorrem uma vez. Erros suaves podem ser menores ou graves:

Pequenos erros de software que podem ser corrigidos sem a redefinição de componentes são os SEUs (single event upsets).
Erros graves de software que exigem uma redefinição de componente ou sistema são travamentos de eventos únicos (SELs).

Os erros de software não são causados por mau funcionamento do hardware; são transitórios e pouco frequentes, são geralmente um SEU e são causados por uma interrupção ambiental dos dados de memória.

Se você encontrar erros de paridade suave, analise as alterações ambientais recentes que ocorreram no local do sistema afetado. As fontes comuns de ESD e EMI que podem causar erros de paridade suaves incluem:

Fontes e cabos de alimentação
Unidades de distribuição de energia
Fontes de alimentação universais
Sistemas de iluminação
Geradores de energia
Instalações nucleares (radiação)
Ataques solares (radiação)

Erros de hardware

Outros erros de paridade são causados por um mau funcionamento físico do hardware de memória ou pelo circuito usado para ler e gravar células de memória.

Os fabricantes de hardware tomam medidas abrangentes para impedir e testar defeitos de hardware. No entanto, ainda são possíveis defeitos; por exemplo, se alguma das células de memória usadas para armazenar bits de dados estiver mal formada, elas poderão não ser capazes de manter uma carga ou podem ser mais vulneráveis às condições ambientais.

Da mesma forma, embora a memória em si possa estar operando normalmente, qualquer dano físico ou elétrico ao circuito usado para ler e gravar células de memória também pode fazer com que os bits de dados sejam alterados durante a transferência, o que resulta em um erro de paridade.

Conhecidos como erros de paridade física, esses eventos são normalmente muito frequentes e repetidos e ocorrem sempre que a memória ou circuito afetados é usado. A frequência exata depende da extensão da anomalia e da frequência com que o equipamento danificado é usado.

Lembre-se de que erros de paridade rígida são o resultado de um mau funcionamento do hardware e ocorrem novamente sempre que o componente afetado é usado.

Se você encontrar erros de paridade física, analise as alterações físicas que ocorreram no local do sistema afetado. As fontes comuns de mau funcionamento do hardware que podem levar a erros de paridade rígida incluem:

Surtos de energia (sem aterramento)
ESD
Sobreaquecimento ou resfriamento
Instalação incorreta ou parcial
Incompatibilidade de componente
Defeito de fabricação

Mensagens de erro comuns

O ^software Cisco IOS^® fornece uma variedade de mensagens de erro de paridade, que variam com o componente afetado e seu impacto relativo no sistema.

Processador

Erro de cache detectado! CP0_CAUSE (reg 13/0): 0x00000400 CPO_ECC (reg 26/0): 0x000000B3 CPO_BUSERRDPA (reg 26/1): 0x000000B3 CPO_CACHERI (reg 27/0): 0x20000000 Erro de cache real detectado. O sistema será interrompido. Erro: Cache de entrada principal, campos: dados, End físico real 0x00000000, o endereço virtual é impreciso. Erro de paridade de dados impreciso
Explicação	Esse é o resultado de um erro de paridade no cache de Nível 2 (L2) (memória estática de acesso aleatório, ou SRAM) usado pela CPU do processador de rota (RP) ou do processador de switch (SP) da Placa de recurso de switch multicamada 3 (MSFC3).
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, solicite uma RMA (Return Material Authorization, Autorização de devolução de material) para substituir o Supervisor Engine e marque o módulo para a AFE (Equipment Failure Analysis, análise de falha do equipamento).
%SYSTEM_CONTROLLER-3-ERRO: Error condition detected: SYSAD_PARITY_ERROR
Explicação	Esse é o resultado de um erro de paridade no endereço do sistema (barramento de dados) usado pelo controlador de banda interna (IBC) do MSFC3.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, solicite uma RMA para substituir o Supervisor Engine e marque o módulo para o EFA.
%SYSTEM_CONTROLLER-3-ERRO: Error condition detected: TM_DATA_PARITY_ERROR
Explicação	Esse é o resultado de um erro de paridade nos dados do gerenciador de tabelas usados pelo IBC do MSFC3.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, solicite uma RMA para substituir o Supervisor Engine e marque o módulo para o EFA.
%SYSTEM_CONTROLLER-3-ERRO: Error condition detected: TM_NPP_PARITY_ERROR
Explicação	Este é o resultado de um erro de paridade no gerenciador de tabelas "próximo ponteiro de página" usado pelo IBC do MSFC3.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, solicite uma RMA para substituir o Supervisor Engine e marque o módulo para o EFA. Nas versões do software Cisco IOS entre 12.1(8)E e 12.2(33)SXI3, o comportamento padrão em resposta aos eventos SYSTEM_CONTROLLER-3-ERROR era redefinir o IBC e registrar uma mensagem de erro. No entanto, essa ação corretiva resultou em alguns casos documentados do IBC (e, portanto, da CPU) não sendo mais capaz de transmitir ou receber dados. Assim, o comportamento foi alterado nas versões do software Cisco IOS posteriores à 12.2(33)SXI4 para registrar uma mensagem de erro e reiniciar o sistema; consulte o bug da Cisco ID CSCtf51541.
Exceção de interrupção, sinal de CPU 20, PC = 0x[dec]
Explicação	Esse é o resultado de um erro de paridade de um único bit no cache L2 da CPU (SRAM) usado pelos módulos Cisco Catalyst 6700 Series.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, solicite uma RMA para substituir o módulo 6700 e marque o módulo para o EFA. Nas versões do software Cisco IOS anteriores à 12.2(33)SXI5, um bug de software (ID de bug da Cisco CSCtj06411) causaria até mesmo erros de paridade de bit único para redefinir o módulo 6700. Isso foi resolvido nas versões 12.2(33)SXI6 e 12.2(33)SXJ para Supervisor Engine 720 e na versão 15.0SY para Supervisor Engine 2T.

RAM

%SYSTEM_CONTROLLER-3-ERRO: Error condition detected: SYSDRAM_PARITY_ERROR
Explicação	Esse é o resultado de um erro de paridade incorrigível nos módulos de memória (DIMM) SDRAM (Synchronous DRAM) usados pelo MSFC3.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, limpe e recoloque o DIMM e continue a monitorar. Se o erro continuar, solicite uma RMA para substituir ou atualizar o DIMM.
%SYSTEM_CONTROLLER-3-COR_MEM_ERR: Erro de memória DRAM corrigível. Contagem [dec], log [hex]
Explicação	Esse é o resultado de um erro de paridade corrigível na SDRAM (DIMM) usada pelo MSFC3.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, limpe e recoloque o DIMM e continue a monitorar. Se o erro continuar, solicite uma RMA para substituir ou atualizar o DIMM.
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR: Ocorreu um erro ECC corrigível, A_BUS_L2_ERRORS: 0x10000, A_BUS_MEMIO_ERRORS: 0x0, A_SCD_BUS_ERR_STATUS: 0x80983000
Explicação	Esse é o resultado de um erro de paridade de bit único na DRAM usada pelos módulos da série 6700.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, limpe e recoloque o DIMM e continue a monitorar. Se o erro continuar, solicite uma RMA para substituir ou atualizar o DIMM.
%PM_SCP-SP-2-LCP_FW_ERR_INFORM: O módulo [dec] está apresentando o seguinte erro: Erro de paridade LTL detectado no Coil #[dec].
Explicação	Esse é o resultado de um erro de paridade na SRAM usada pelos módulos Cisco Catalyst 6100 e Cisco Catalyst 6300 Series.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, solicite uma RMA para substituir o módulo 6100 ou 6300 e marque o módulo para o EFA.
%SYS-4-SYS_LCPERR4: Module [dec]: Erro de paridade LTL detectado no Coil #[dec]
Explicação	Esse é o resultado de um erro de paridade na SRAM usada pelos módulos 6100 e 6300 Series.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, solicite uma RMA para substituir o módulo 6100 ou 6300 e marque o módulo para o EFA.

ASIC

%PM_SCP-SP-2-LCP_FW_ERR_INFORM: O módulo [dec] está apresentando o seguinte erro: Falha de buffer de pacote ASIC de porta ([name]) detectada em portas [dec]
Explicação	Esse é o resultado de um erro de paridade no buffer de pacote ASIC de porta (SRAM) usado pelos módulos Ethernet Cisco Catalyst 6148A Series.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, solicite uma RMA para substituir o módulo 6148A e marque o módulo para o EFA.
%LTL-SP-2-LTL_PARITY_CHECK: Solicitação de verificação de paridade LTL para 0x[hex]
Explicação	Este é o resultado de um erro de paridade na tabela de índice de portas ASIC (SRAM - Port Index Table) usada pelos módulos das séries Catalyst 6100-6500 e 6700.
Recomendação	Monitore o sistema regularmente para verificar a repetição. Se nenhum outro evento for observado, é um erro suave. Se o erro ocorrer com frequência, solicite uma RMA para substituir o módulo e marque o módulo para o EFA.

Consulte estes documentos do software Cisco IOS para obter uma lista abrangente de mensagens de erro:

A ferramenta Output Interpreter (exclusiva para clientes registrados) é compatível com alguns comandos de exibição.. Use a ferramenta Output Interpreter para visualizar uma análise do resultado gerado pelo comando show..

Últimos avanços

A pesquisa no campo dos erros de paridade está em andamento, e nem todos os cenários podem ser abordados, mas as organizações de desenvolvimento de hardware e software do Cisco Catalyst 6500 continuam a introduzir novas formas, como a proteção de ECC (Error-Correction Code), para minimizar e atenuar a ocorrência de erros de paridade.

Embora este documento tenha começado com a discussão sobre a terceira geração (WS-XSUP720 e início da série 6700) dos produtos Catalyst 6500, esta seção resume as melhorias introduzidas com a quarta geração (VS-S720-10G e posteriores da série 6700) e a quinta geração (VS-SUP2T-1 0G e 6900 Series).

Processador

O módulo VS-S720-10G apresenta uma placa auxiliar MSFC3 mais recente, com um novo IBC e CPUs de RP (RISC) de conjunto de instruções reduzido (RISC) SR7010A que operam a 600 MHz cada. Os caches Nível 1 (L1), L2 e Nível 3 (L3) são capazes de detecção de paridade. O IBC mais recente tem toda a funcionalidade da geração anterior e adiciona proteção ECC (correção de bit único, detecção de vários bits) às SRAMs conectadas.

Os módulos 6700 Series suportam uma CPU com cache L2 protegido por ECC (o cache L1 é compatível com a detecção de paridade), que pode corrigir erros de paridade de bit único sem a necessidade de redefinir. No entanto, devido à ID de bug da Cisco CSCsz39222, a versão 12.2SXI do software Cisco IOS (Supervisor Engine 720) redefine o módulo de qualquer maneira se ocorrer um erro de paridade de cache de CPU de bit único. Isso é resolvido nas versões 12.2SXJ (Supervisor Engine 720) e 15.0SY (Supervisor Engine 2T) do software Cisco IOS.

O VS-SUP2T-10G apresenta uma nova placa-filha MSFC5 com um IBC integrado e uma nova CPU RP MPC8572 de núcleo duplo (com cache L2 e L3 protegido por ECC, o cache L1 tem capacidade de detecção de paridade) que opera a 1,5 GHz por núcleo. Ele também apresenta uma nova CPU do processador de gerenciamento de conectividade (CMP - Connectivity Management Processor) separada e fora da banda e DRAM protegida por ECC, que está disponível mesmo se a CPU RP não estiver disponível no momento.

O novo IBC tem toda a funcionalidade das gerações anteriores e oferece suporte à proteção ECC para as SRAMs anexadas e melhorias no tratamento de erros de paridade. O novo MSFC5 também apresenta uma ROM de Onboard Failure Logging (OBFL), que armazena todos os eventos de inicialização e diagnóstico do módulo. O novo design de CPU única também reduz a probabilidade estatística de eventos de erro de paridade.

Os módulos 6900 Series suportam uma CPU mais nova com cache L1 e L2 protegido por ECC, que pode corrigir erros de paridade de bit único sem a necessidade de redefinir. A nova geração suporta o mesmo IBC, e o processamento de software para correção de erro de paridade de bit único foi incorporado.

RAM

O VS-S720-10G com MSFC3 apresenta SDRAM DDR (double-data-rate) com proteção ECC, operando a 266 MHz.

Os módulos 6700 Series suportam SDRAM DDR com proteção ECC, operando a 266 MHz.

Comparada à SDRAM SDR (Single-Data-Rate, taxa única de dados), a interface SDRAM DDR possibilita taxas de transferência mais altas através de um controle mais rigoroso da temporização dos dados elétricos e dos sinais do relógio. A interface DDR usa bombeamento duplo (transferência de dados nas bordas ascendente e descendente do sinal do clock) para reduzir a frequência do clock. Frequência de clock mais baixa reduz os requisitos de integridade do sinal na placa de circuito que conecta a memória ao controlador.

O VS-SUP2T-10G com MSFC5 possui SDRAM DDR3 com proteção ECC, operando a 667 MHz.

Os módulos 6900 Series suportam SDRAM DDR3 com proteção ECC, operando a 667 MHz.

O principal benefício da SDRAM DDR3 sobre seus antecessores imediatos (DDR2 e DDR) é a sua capacidade de transferir dados a uma taxa duas vezes maior (oito vezes a velocidade de seus arrays de memória interna), o que possibilita maiores taxas de largura de banda ou de pico de dados. A memória DDR3 também reduz o consumo de energia em 30%, mesmo que use o mesmo padrão de sinalização elétrica que a DDR e a DDR2.

ASIC

O VS-S720-10G com PFC3C apresenta buffers de pacote SRAM com proteção ECC. Isso fornece correção de erro de paridade de bit único sem reinicialização do módulo, bem como detecção de erro de paridade de vários bits.

O 6700 Series com DFC3C apresenta buffers de pacote SRAM com proteção ECC. Isso fornece correção de erro de paridade de bit único sem reinicialização do módulo, bem como detecção de erro de paridade de vários bits.

O VS-SUP2T-10G com PFC4 apresenta buffers de pacotes SRAM com proteção ECC. Isso fornece correção de erro de paridade de bit único sem reinicialização do módulo, bem como detecção de erro de paridade de vários bits.

O 6900 Series com DFC4 apresenta buffers de pacote SRAM com proteção ECC. Isso fornece correção de erro de paridade de bit único sem reinicialização do módulo, bem como detecção de erro de paridade de vários bits.

Software

O software Cisco IOS foi projetado para oferecer suporte à proteção ECC. Se um componente de hardware que suporta proteção ECC experimentar um SEU, o código deve corrigir os dados corrompidos ou redefinir o componente afetado e não exigir uma redefinição completa de hardware do módulo afetado.

No entanto, em versões anteriores do software Cisco IOS, há algumas exceções em que o comportamento foi intencionalmente alterado ou com mau funcionamento devido a um bug de software. Aqui estão duas exceções notáveis.

MSFC IBC Reset

Nas versões do software Cisco IOS entre 12.1(8)E e 12.2(33)SXI3, o comportamento padrão em resposta aos eventos SEU SYSTEM_CONTROLLER-3-ERROR era redefinir o IBC e registrar uma mensagem de erro. No entanto, essa ação corretiva resultou em alguns casos documentados do IBC (e, portanto, da CPU) não sendo mais capaz de transmitir ou receber dados.

Assim, o comportamento foi alterado após a versão 12.2(33)SXI4 (ID de bug da Cisco CSCtf51541) para registrar uma mensagem de erro e reiniciar o sistema. Embora essa reação possa parecer mais grave, é preferível reiniciar o sistema e corrigir a estrutura da memória do que ter um sistema que não responda.

Um recurso em desenvolvimento (ID de bug da Cisco CSCtr89859) adicionará um novo comando de interface de linha de comando (CLI) que permite que você comute o comportamento padrão. Essa melhoria é mais aplicável a sistemas que usam um único supervisor e, portanto, não têm redundância de supervisor.

Redefinição de "Erro de paridade de bit único" do 6700 Series

Nas versões do software Cisco IOS anteriores à 12.2(33)SXI5, um bug de software (ID de bug da Cisco CSCtj06411) causaria até mesmo erros de paridade de bit único para redefinir o módulo 6700. Isso normalmente seria um erro de paridade corrigível e não exigiria que o módulo fosse redefinido.

Esse erro foi resolvido nas versões 12.2(33)SXI6+ e 12.2SXJ para o Supervisor Engine 720 e na versão 15.0SY para o Supervisor Engine 2T. Após uma atualização para a versão apropriada, o módulo 6700 simplesmente registra uma mensagem de erro e continua a operar.

Recomendações

Nesse ponto, você provavelmente determinou se encontrou um erro de paridade suave ou difícil. Embora isso possa resolver um único incidente, outras vulnerabilidades de erro de paridade ainda podem existir, portanto, você deve adotar uma abordagem mais abrangente para toda a rede.

Assim, a Cisco e a unidade de negócios do Catalyst 6500 recomendam que você reveja esses procedimentos de mitigação e tome as medidas corretivas adequadas para eliminar ou reduzir futuros erros de paridade.

Erros de software (SEU)

Erros de paridade de um único evento (soft) são causados por condições ambientais e podem ocorrer apenas uma vez (SEU) ou muito raramente, como mensal ou anual. Embora você não precise substituir o hardware, você deseja atenuar ocorrências futuras.

Essas práticas recomendadas reduzem significativamente a probabilidade de erros de paridade suave.

Auditoria ambiental

A Cisco recomenda que você faça uma auditoria ambiental dos locais de rede afetados. Você pode fazer essa auditoria sozinho ou em coordenação com um representante da Cisco, com uma equipe da Cisco (como Cisco Advanced Services) ou por meio de um consultor terceirizado.

A cobertura e a complexidade exatas de uma auditoria ambiental dependem de muitas variáveis diferentes, como localização geográfica, construção e tamanho e projeto da sala, design e layout elétricos e outros fatores relacionados.

Considere quais fontes ambientais de ESD e EMI podem existir na sua rede ou ao seu redor. Estas são fontes comuns de interferência que podem levar a um erro de paridade suave:

Fontes e cabos de alimentação
Unidades de distribuição de energia
Fontes de alimentação universais
Sistemas de iluminação
Geradores de energia
Instalações nucleares (radiação)
Ataques solares (radiação)

Posicionamento do chassi

Os SEUs podem ocorrer se as unidades de distribuição de energia, geradores de energia ou sistemas de iluminação estiverem muito próximos do chassi ou se vários cabos de alimentação estiverem ligados ou ao lado do chassi.

É importante fornecer uma distância adequada entre o chassi do Catalyst 6500 e essas fontes elétricas e magnéticas. As distâncias recomendadas variam por componente e estão disponíveis nas fichas técnicas do componente.

Em geral, a Cisco recomenda que você localize sistemas a pelo menos 3 a 6 polegadas de fontes comuns de interferência elétrica e magnética. Os cabos de alimentação devem ser roteados para baixo e para fora do chassi, sempre que possível, e não devem ser colocados em pacotes compactos ou em grandes números ao longo ou ao lado do chassi.

Aterramento

As oscilações de energia e os surtos de energia são relativamente comuns, e as fontes de alimentação do Catalyst 6500 são projetadas para acomodar pequenas variações na corrente de voltagem.

No entanto, é essencial fornecer aterramento elétrico adequado para o chassi e o rack para que qualquer excesso de tensão elétrica seja retirado do sistema. Sem o aterramento adequado, as sobretensões podem resultar em danos ou mau funcionamento em vários ASICs e componentes de memória. Consulte o Guia de Instalação do Switch Catalyst 6500 Series, Instalando o Switch, Estabelecendo o Chão do Sistema, para obter mais informações.

ESD

A ESD pode facilmente danificar componentes críticos sem qualquer comprometimento visível. Medidas preventivas apropriadas devem ser incorporadas às políticas de operação do laboratório, mas essas medidas são muitas vezes e infelizmente ignoradas devido à conveniência e à supervisão limitada.

A Cisco recomenda que o gerenciamento das operações de laboratório, juntamente com a Cisco Systems, faça uma auditoria ambiental de todas as áreas da rede ou, no mínimo, de todas as áreas que tenham apresentado falhas de hardware ou tenham sido designadas como de missão crítica. Quando a auditoria for concluída, a Cisco recomenda que você implemente uma lista de verificação ambiental padronizada para todos os sistemas recém-instalados para evitar futuros eventos de paridade SEU.

Firmware mais recente (Rommon)

Os componentes de hardware do Catalyst usam o código de firmware (também conhecido como Rommon) para inicializar, comunicar e executar diagnósticos. Quando essas funções são concluídas, a operação do sistema é transferida para o software Cisco IOS. Não é comum enfrentar problemas com o firmware, mas pode haver problemas se você usar versões diferentes do código de firmware para os supervisores e os módulos.

Assim, é recomendável garantir que todos os componentes usem o código de firmware mais recente para garantir a inicialização e comunicação adequadas do módulo. A Cisco recomenda que o gerenciamento de operações faça uma auditoria de rede e atualize todos os componentes de hardware com a versão de firmware mais recente.

Problemas conhecidos de firmware e procedimentos de atualização estão documentados em:

Faça o download das versões mais recentes do firmware no site da Cisco:

Parafusos do polegar

Todos os sistemas de rede modulares são projetados para serem inseridos em um painel traseiro do chassi com um conjunto de pinos de interface física. O próprio backplane do chassi é essencialmente uma série de fios interconectados. Os pinos em cada slot do chassi formam a conexão física de dados entre os módulos Supervisor e Ethernet. Assim, a inserção e o alinhamento adequados desses pinos são críticos.

O Catalyst 6500 fornece trilhos guia e pinos de alinhamento que auxiliam na instalação no chassi. Os pinos do slot (soquetes) e os conectores do módulo são projetados para se encaixarem e fornecerem conectividade elétrica com alta largura de banda. Depois de inseridos no chassi, há parafusos de aperto manual em ambos os lados do módulo que prendem totalmente os pinos do backplane. Consulte a Nota de Instalação do Módulo de Switch Catalyst 6500 Series.

Se um módulo tiver sido inserido corretamente no slot e os parafusos de aperto manual tiverem sido apertados corretamente, não são esperados problemas de comunicação. No entanto, várias condições podem ocorrer na inserção diária de módulos que podem levar à inserção inadequada ou até incompleta de pinos:

Força de inserção insuficiente - Se o módulo for inserido parcialmente sem o uso dos parafusos de aperto manual, isso pode causar paradas de barramento e o módulo pode não conseguir se comunicar com outros módulos. Dependendo do nível de inserção (por exemplo, se houver contato físico limitado), o módulo pode ser capaz de transmitir e receber dados, mas pode apresentar erros de bit que resultam em pacotes corrompidos.
Alinhamento vertical incorreto - Isso ocorre quando apenas um lado do módulo está nos trilhos guia. Isso é facilmente identificado porque o módulo aparece na diagonal e geralmente não se conecta aos pinos do backplane.
Alinhamento errado horizontal - Se os parafusos de polegar forem usados em apenas um lado, alguns dos pinos não se encaixam corretamente. Esse é um problema comum, pois o módulo pode parecer ter sido inserido corretamente. O desalinhamento horizontal é na verdade uma forma de força de inserção insuficiente.

A Cisco recomenda que você implemente um processo de gerenciamento de operação que exija o uso dos parafusos manuais em todos os módulos Catalyst 6500 em ambientes de produção. Isso garante a inserção e o alinhamento adequados e completos dos pinos do painel traseiro e evita falhas futuras devido a erros de bit e falhas de comunicação relacionadas.

Erros de hardware (mau funcionamento)

Erros de paridade frequentes (rígidos) ou repetíveis são causados por mau funcionamento físico da memória ou do circuito usado para ler e gravar. Nesses casos, substitua o hardware e peça ao Cisco Technical Assistance Center (TAC) ou ao engenheiro de sistemas da Cisco para conduzir um EFA no hardware devolvido.

Essas práticas recomendadas reduzem significativamente a probabilidade de erros de paridade forçada.

Auditoria de hardware (MTBF e EOL)

A Cisco recomenda que você faça uma auditoria de rede dos locais de rede afetados. Você pode fazer essa auditoria sozinho ou em coordenação com um representante da Cisco, com uma equipe da Cisco (como Cisco Advanced Services) ou por meio de um consultor terceirizado.

Todo o hardware (de todos os fornecedores) está sujeito a uma eventual degradação da integridade física, e é importante rastrear o ciclo de vida de todos os componentes de hardware em sua rede para entender totalmente a probabilidade de falha de componentes ao longo do tempo.

A confiabilidade do hardware pode ser medida com a estrutura de tempo médio entre falhas (MTBF). Como MTBF é apenas uma média estatística, isso não significa que uma falha ocorrerá definitivamente no final do período de tempo MTBF. No entanto, a probabilidade e a vulnerabilidade de falha de componente aumentam, portanto, esse hardware deve ser sinalizado para atualização. Consulte os dados técnicos dos switches Cisco Catalyst 6500 Series para obter valores MTBF específicos para cada produto Catalyst 6500.

O valor MTBF de "nível de sistema" do Catalyst 6500 calculado agregado é > 7 anos.

Além da estrutura MTBF, a Cisco também oferece uma estrutura de fim da vida útil (EOL), que define o ciclo de vida esperado de um determinado produto e fornece anúncios aplicáveis para ajudá-lo a atualizar seu equipamento herdado. Consulte os avisos de fim da vida útil e fim das vendas para vários produtos Catalyst 6500 legados.

Como resultado dessa auditoria de hardware, a Cisco recomenda que você implemente seu próprio processo de MTBF e EOL que identifica e rastreia o hardware para atualização potencial. Isso garante que o hardware mais recente esteja em execução e minimiza a probabilidade de mau funcionamento do hardware.

Diagnóstico de hardware

O software Catalyst 6500 Series e Cisco IOS fornece diagnósticos Genéricos de Diagnóstico Online (GOLD) e Monitoramento de Integridade (HM) para todos os componentes de hardware usados no sistema. Os dois tipos básicos de diagnóstico que podem ser ativados são on-demand e boot. Consulte Generic Online Diagnostics no Cisco Catalyst 6500 Series Switch para obter informações adicionais.

A Cisco recomenda que o diagnóstico de inicialização "concluído" seja ativado para todos os componentes de hardware, para garantir que todos os testes de diagnóstico sejam executados e para confirmar se todos os componentes de hardware estão funcionando conforme esperado na inicialização.

A Cisco também recomenda que você programe diagnósticos regulares e sob demanda de componentes críticos da infraestrutura, diariamente ou semanalmente. Além dos diagnósticos de inicialização que ocorrem somente durante a inicialização, o diagnóstico sob demanda garante que o hardware continue a operar conforme esperado. Consulte o Guia de Configuração do Software Catalyst 6500 Release 12.2SX, Componentes de Interface e Hardware, Diagnóstico Online para obter mais informações.

Além dos testes padrão de diagnóstico sob demanda, a Cisco recomenda que você habilite esses testes de diagnóstico sob demanda para identificar proativamente os componentes de memória que podem falhar:

TestLinecardMemory
TestAsicMemory

Informações Relacionadas

Colaborado por engenheiros da Cisco

Guia de Troubleshooting de Erros de Paridade

Opções de download

Linguagem imparcial

Sobre esta tradução

Contents

Introduction

Background

Erros de software

Erros de hardware

Mensagens de erro comuns

Processador

RAM

ASIC

Últimos avanços

Processador

RAM

ASIC

Software

MSFC IBC Reset

Redefinição de "Erro de paridade de bit único" do 6700 Series

Recomendações

Erros de software (SEU)

Auditoria ambiental

Posicionamento do chassi

Aterramento

ESD

Firmware mais recente (Rommon)

Parafusos do polegar

Erros de hardware (mau funcionamento)

Auditoria de hardware (MTBF e EOL)

Diagnóstico de hardware

Informações Relacionadas

Colaborado por engenheiros da Cisco

Este documento lhe foi útil?

Contate a Cisco

Este documento se refere a estes produtos