Solución de problemas de servidor en la solución CNDP

Opciones de descarga

PDF (167.3 KB)
Visualice con Adobe Reader en una variedad de dispositivos
ePub (83.1 KB)
Visualice en diferentes aplicaciones en iPhone, iPad, Android, Sony Reader o Windows Phone
Mobi (Kindle) (69.2 KB)
Visualice en dispositivo Kindle o aplicación Kindle en múltiples dispositivos

Actualizado:26 de mayo de 2022

ID del documento:217899

Lenguaje no discriminatorio

El conjunto de documentos para este producto aspira al uso de un lenguaje no discriminatorio. A los fines de esta documentación, "no discriminatorio" se refiere al lenguaje que no implica discriminación por motivos de edad, discapacidad, género, identidad de raza, identidad étnica, orientación sexual, nivel socioeconómico e interseccionalidad. Puede haber excepciones en la documentación debido al lenguaje que se encuentra ya en las interfaces de usuario del software del producto, el lenguaje utilizado en función de la documentación de la RFP o el lenguaje utilizado por un producto de terceros al que se hace referencia. Obtenga más información sobre cómo Cisco utiliza el lenguaje inclusivo.

Acerca de esta traducción

Cisco ha traducido este documento combinando la traducción automática y los recursos humanos a fin de ofrecer a nuestros usuarios en todo el mundo contenido en su propio idioma. Tenga en cuenta que incluso la mejor traducción automática podría no ser tan precisa como la proporcionada por un traductor profesional. Cisco Systems, Inc. no asume ninguna responsabilidad por la precisión de estas traducciones y recomienda remitirse siempre al documento original escrito en inglés (insertar vínculo URL).

Contenido

Introducción

Antecedentes

Problema

Solución

Ejemplo de salida para contenedores

Ejemplo de resultado para VM

SSH en el host UCS

Introducción

Este documento describe cómo identificar un Unified Computing System (UCS) y comprobar las entradas con errores en él en la plataforma de implementación nativa en la nube (CNDP).

Antecedentes

Las alertas relacionadas con el hardware se notifican en el entorno de ejecución común (CEE) del administrador de clúster (CM) de la infraestructura de microservicios de núcleo de ultra nube (SMI). La información de Kubernetes (K8s), docker, etc. se informa en la IP virtual (VIP) de CM.

Precaución: Consulte el cuestionario de diseño de red e información del cliente (CIQ) para verificar las IP.

Problema

El error "Alarma del equipo" se informa en show alert.

Inicie sesión en CM-CEE, ejecute el comando show alertas active detail y show alertas history summary para mostrar todas las alertas activas y del historial.
Observe la IP del servidor informada en la alerta.

[lab-deployer/labceec01] cee# show alerts active detail 
alerts active detail server-alert 9c367ce5ee48
 severity    major
 type        "Equipment Alarm"
 startsAt    2021-10-27T17:10:37.025Z
 source      10.10.10.10
 summary     "DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM"
 labels      [ "alertname: server-alert" "cluster: cr-chr-deployer" "description: DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM" "fault_id: sys/rack-unit-1/board/memarray-1/mem-5/fault-F0185" "id: 134219020" "monitor: prometheus" "replica: cr-chr-deployer" "server: 10.10.10.10" "severity: major" ]
 annotations [ "dn: cr-chr-deployer/10.10.10.10/sys/rack-unit-1/board/memarray-1/mem-5/fault-F0185/134219020" "summary: DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM" "type: Equipment Alarm" ]

[lab-deployer/labceec01] cee# show alerts history summary
NAME      UID           SEVERITY  STARTS AT       DURATION  SOURCE       SUMMARY            
---------------------------------------------------------------------------------------------
vm-alive  f6a65030b593  minor     09-02T10:28:28  1m40s     10-192-0-13  labd0123 is alive. 
vm-error  3a6d840e3eda  major     09-02T10:27:18  1m        10-192-0-13  labd0123 is down.  
vm-alive  49b2c1941dc6  minor     09-02T10:25:38  1m40s     10-192-0-14  labd0123 is alive.

Solución

Identifique los servicios (contenedores) y/o la máquina virtual (VM) o la máquina virtual basada en el núcleo (KVM) alojada en el servidor en SMI CM, ejecute el comando show running-config y busque la configuración para la IP del servidor.

Inicie sesión en CM VIP (nombre de usuario: usuario de nube)
Obtenga la IP del OPS Center para el espacio de nombres smi-cm
Inicie sesión en el OPS Center y verifique la configuración del clúster
Identificar nodos y VM que se ejecutan en el servidor

cloud-user@lab-deployer-cm-primary:~$ kubectl get svc -n smi-cm
NAME                                          TYPE        CLUSTER-IP       EXTERNAL-IP      PORT(S)                                                 AGE
cluster-files-offline-smi-cluster-deployer    ClusterIP   10.102.200.178   <none>           8080/TCP                                                98d
iso-host-cluster-files-smi-cluster-deployer   ClusterIP   10.102.100.208     192.168.1.102    80/TCP                                                  98d
iso-host-ops-center-smi-cluster-deployer      ClusterIP   10.102.200.73    192.168.1.102    3001/TCP                                                98d
netconf-ops-center-smi-cluster-deployer       ClusterIP   10.102.100.207   192.168.184.193   3022/TCP,22/TCP                                         98d
ops-center-smi-cluster-deployer               ClusterIP   10.10.20.20     <none>           8008/TCP,2024/TCP,2022/TCP,7681/TCP,3000/TCP,3001/TCP   98d
squid-proxy-node-port                         NodePort    10.102.60.114    <none>           3128:32261/TCP                                          98d

cloud-user@lab-deployer-cm-primary:~$ ssh -p 2024 admin@10.10.20.20
admin@10.10.20.20's password:
      Welcome to the Cisco SMI Cluster Deployer on lab-deployer-cm-primary
      Copyright © 2016-2020, Cisco Systems, Inc.
      All rights reserved.
admin connected from 192.168.1.100 using ssh on ops-center-smi-cluster-deployer-7848c69844-xzdw6
[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters

Ejemplo de salida para contenedores

En este ejemplo, el nodo primario-1 utiliza el servidor.

[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters lab01-smf nodes primary-1
clusters lab01-smf
nodes primary-1
  maintenance false
  k8s node-type       primary
  k8s ssh-ip          10.192.10.22
  k8s sshd-bind-to-ssh-ip true
  k8s node-ip         10.192.10.22
  k8s node-labels smi.cisco.com/node-type oam
  exit
  k8s node-labels smi.cisco.com/node-type-1 proto
  exit
  ucs-server cimc user admin
  ucs-server cimc ip-address 10.10.10.10

Ejemplo de resultado para VM

El servidor se puede utilizar para la VM basada en KVM.

En este ejemplo, el servidor tiene User Plane Functions (UPF) - upf1 y upf2.

[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters lab01-upf nodes labupf
clusters lab01-upf
nodes labupf
  maintenance false
  ssh-ip      10.192.30.7
  type        kvm
  vms upf1
   upf software lab...
...
   type upf
  exit
  vms upf2
   upf software lab...
...
   type upf
  exit
  ucs-server cimc user admin
...
  ucs-server cimc ip-address 10.10.10.10
...
  exit

SSH en el host UCS

Conéctese al host UCS y verifique las entradas de error con error de alcance, mostrar entradas de error y mostrar historial de fallas.

labucs111-cmp1-11 /fault # show fault-entries 
Time Severity Description ------------------------- ------------- --------------------------------------- 
2021-03-26T10:10:10 major "DDR4_P1_C1_ECC: DIMM 19 is inoperable : Check or replace DIMM"

LABCP0222-Server22-02 /fault # show fault-history
Time                Severity      Source          Cause                     Description                             
------------------- ------------- --------------- ------------------------- ----------------------------------------
2021 Dec 10 02:02:02 UTC info          %CIMC           EQUIPMENT_INOPERABLE      "[F0174][cleared][equipment-inoperable][sys/rack-unit-1/board] IERR: A catastrophic fault has occurred on one of the processors: Cleared "
2021 Dec 1 01:01:01 UTC critical      %CIMC           EQUIPMENT_INOPERABLE      "[F0174][critical][equipment-inoperable][sys/rack-unit-1/board] IERR: A catastrophic fault has occurred on one of the processors: Please check the processor's status. "

Historial de revisiones

Revisión	Fecha de publicación	Comentarios
1.0	26-May-2022	Versión inicial

Con la colaboración de ingenieros de Cisco

Cinthia Janneth Martinez
Ingeniero del TAC de Cisco
Nebojsa Kosanovic
Ingeniero del TAC de Cisco

¿Resultó útil este documento?

Comentarios

Contacte a Cisco

Abrir un caso de soporte
(Requiere un Cisco Service Contract)

Solución de problemas de servidor en la solución CNDP

Opciones de descarga

Lenguaje no discriminatorio

Acerca de esta traducción

Contenido

Introducción

Antecedentes

Problema

Solución

Ejemplo de salida para contenedores

Ejemplo de resultado para VM

SSH en el host UCS

Historial de revisiones

Con la colaboración de ingenieros de Cisco

¿Resultó útil este documento?

Contacte a Cisco

Este documento se aplica a estos productos