Introduction
Este documento descreve como solucionar problemas de reinicialização do nbomgr, que é acionado devido a EZprmSER_CheckError no Aggregation Services Router 5500 (ASR5500).
Prerequisites
Requirements
A Cisco recomenda que você tenha conhecimento destes tópicos:
- Conhecimento de hardware do ASR5500
- StarOS
Componentes Utilizados
Este documento não se restringe a versões de software e hardware específicas.
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Problema
Depois que um erro de memória da NPU (Network Processing Unit) é detectado, ele pode causar uma falha de segmentação NPUMGR com essa assinatura.
Fatal Signal 11: Segmentation fault
PC: [0d8e2647/X] EZprmSER_CheckError()
Faulty address: 0x272e95d4
Signal from: kernel
Signal detail: address not mapped to object
Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
Crash time: 2017-Oct-03+01:02:32 UTC
Recent errno: 115 Operation now in progress
Build_number: 67999
Stack (22120@0x0xffc3a000):
[0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
[0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
[004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
[004f688b/X] aresEZevents_Handler() sp=0xffc3f104
[0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
[0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
[0bf451c5/X] main() sp=0xffc3f658
Essa reinicialização pode ser vista nas placas DPC (Data Processing Card) e MIO (Management Input/Output).
Os eventos que levam ao reinício podem ser resumidos da seguinte forma:
- Erro de memória (erro de ECC de bit único) detectado na NPU.
- A NPU interrompe o driver do nbomgr de que um erro de memória foi detectado.
- O Nbomgr tenta verificar a memória em busca do erro e reiniciar a partir do código da controladora de rede.
A NPU será reiniciada sempre que um erro de paridade (ou memória) for observado na NPU de uma placa - isso é semelhante à reação do nó para quando a tarefa do nbomgr for reiniciada também. Como se sabe que o disparador para a reinicialização é uma interrupção de NPU devido a um erro de memória observado, essa reinicialização é considerada um erro de hardware transitório.
Observe que um raio cósmico ou descarga eletrostática pode fazer com que um bit se vire na memória - é isso que o ECC está lá para corrigir.
Se ocorrer um erro de ECC em uma das placas, é realmente um evento esperado.
Se uma placa tiver mais de um erro ECC em um mês, suspeita-se que tenha um problema de hardware.
Solução
A Cisco recomenda monitorar a placa e substituí-la se um problema semelhante for observado na placa em um mês.
O evento está sendo acionado durante o reinício rápido da npu para recuperação de erros de memória na NPU enquanto executa uma coleta de dados para depurar essa falha de segmentação.
O bug da Cisco ID CSCvu44031 está corrigindo a falha de segmentação.