Troubleshoot Card Restart devido a NPUMgr Restart devido a EZprmSER_CheckError

Opções de download

PDF (81.4 KB)
Ver no Adobe Reader em vários dispositivos
ePub (86.1 KB)
Ver em vários aplicativos no iPhone, iPad, Android, Sony Reader ou Windows Phone
Mobi (Kindle) (72.4 KB)
Ver no dispositivo Kindle ou no aplicativo Kindle em vários dispositivos

Atualizado:8 de fevereiro de 2022

ID do documento:217678

Linguagem imparcial

O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.

Sobre esta tradução

A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.

Introduction

Prerequisites

Requirements

Componentes Utilizados

Problema

Solução

Introduction

Este documento descreve como solucionar problemas de reinicialização do nbomgr, que é acionado devido a EZprmSER_CheckError no Aggregation Services Router 5500 (ASR5500).

Prerequisites

Requirements

A Cisco recomenda que você tenha conhecimento destes tópicos:

Conhecimento de hardware do ASR5500
StarOS

Componentes Utilizados

Este documento não se restringe a versões de software e hardware específicas.

The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.

Problema

Depois que um erro de memória da NPU (Network Processing Unit) é detectado, ele pode causar uma falha de segmentação NPUMGR com essa assinatura.

Fatal Signal 11: Segmentation fault
  PC: [0d8e2647/X] EZprmSER_CheckError()
  Faulty address: 0x272e95d4
  Signal from: kernel
  Signal detail: address not mapped to object
  Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
  Crash time: 2017-Oct-03+01:02:32 UTC
  Recent errno: 115 Operation now in progress
  Build_number: 67999
  Stack (22120@0x0xffc3a000):
    [0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
    [0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
    [004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
    [004f688b/X] aresEZevents_Handler() sp=0xffc3f104
    [0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
    [0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
    [0bf451c5/X] main() sp=0xffc3f658

Essa reinicialização pode ser vista nas placas DPC (Data Processing Card) e MIO (Management Input/Output).

Os eventos que levam ao reinício podem ser resumidos da seguinte forma:

Erro de memória (erro de ECC de bit único) detectado na NPU.
A NPU interrompe o driver do nbomgr de que um erro de memória foi detectado.
O Nbomgr tenta verificar a memória em busca do erro e reiniciar a partir do código da controladora de rede.

A NPU será reiniciada sempre que um erro de paridade (ou memória) for observado na NPU de uma placa - isso é semelhante à reação do nó para quando a tarefa do nbomgr for reiniciada também. Como se sabe que o disparador para a reinicialização é uma interrupção de NPU devido a um erro de memória observado, essa reinicialização é considerada um erro de hardware transitório.

Observe que um raio cósmico ou descarga eletrostática pode fazer com que um bit se vire na memória - é isso que o ECC está lá para corrigir.

Se ocorrer um erro de ECC em uma das placas, é realmente um evento esperado.
Se uma placa tiver mais de um erro ECC em um mês, suspeita-se que tenha um problema de hardware.

Solução

A Cisco recomenda monitorar a placa e substituí-la se um problema semelhante for observado na placa em um mês.

O evento está sendo acionado durante o reinício rápido da npu para recuperação de erros de memória na NPU enquanto executa uma coleta de dados para depurar essa falha de segmentação.

O bug da Cisco ID CSCvu44031 está corrigindo a falha de segmentação.

Histórico de revisões

Revisão	Data de publicação	Comentários
1.0	08-Feb-2022	Versão inicial

Colaborado por engenheiros da Cisco

Ayodele Adebawojo
Cisco TAC Engineer

Troubleshoot Card Restart devido a NPUMgr Restart devido a EZprmSER_CheckError

Opções de download

Linguagem imparcial

Sobre esta tradução

Contents

Introduction

Prerequisites

Requirements

Componentes Utilizados

Problema

Solução

Histórico de revisões

Colaborado por engenheiros da Cisco

Este documento lhe foi útil?

Contate a Cisco

Este documento se refere a estes produtos