Risoluzione dei problemi del server nella soluzione CNDP

Opzioni per il download

PDF (135.1 KB)
Visualizza con Adobe Reader su diversi dispositivi
ePub (83.5 KB)
Visualizza in diverse app su iPhone, iPad, Android, Sony Reader o Windows Phone
Mobi (Kindle) (69.6 KB)
Visualizza su dispositivo Kindle o tramite app Kindle su più dispositivi

Aggiornato:26 maggio 2022

ID documento:217899

Linguaggio senza pregiudizi

La documentazione per questo prodotto è stata redatta cercando di utilizzare un linguaggio senza pregiudizi. Ai fini di questa documentazione, per linguaggio senza di pregiudizi si intende un linguaggio che non implica discriminazioni basate su età, disabilità, genere, identità razziale, identità etnica, orientamento sessuale, status socioeconomico e intersezionalità. Le eventuali eccezioni possono dipendere dal linguaggio codificato nelle interfacce utente del software del prodotto, dal linguaggio utilizzato nella documentazione RFP o dal linguaggio utilizzato in prodotti di terze parti a cui si fa riferimento. Scopri di più sul modo in cui Cisco utilizza il linguaggio inclusivo.

Informazioni su questa traduzione

Cisco ha tradotto questo documento utilizzando una combinazione di tecnologie automatiche e umane per offrire ai nostri utenti in tutto il mondo contenuti di supporto nella propria lingua. Si noti che anche la migliore traduzione automatica non sarà mai accurata come quella fornita da un traduttore professionista. Cisco Systems, Inc. non si assume alcuna responsabilità per l’accuratezza di queste traduzioni e consiglia di consultare sempre il documento originale in inglese (disponibile al link fornito).

Sommario

Introduzione

Premesse

Problema

Soluzione

Output di esempio per i contenitori

Output di esempio per le VM

SSH nell'host UCS

Introduzione

Questo documento descrive come identificare un UCS (Unified Computing System) e controllare le voci di errore su di esso nella Cloud Native Deployment Platform (CNDP).

Premesse

Gli avvisi relativi all'hardware sono riportati in Common Execution Environment (CEE) di Ultra Cloud Core Subscriber Microservices Infrastructure (SMI) Cluster Manager (CM). Le informazioni relative a Kubernetes (K8s), docker e così via sono riportate nell'IP virtuale CM (VIP).

Attenzione: Per verificare gli IP, consultare il questionario di progettazione della rete e informazioni sul cliente (CIQ).

Problema

L'errore "Allarme apparecchiature" viene segnalato in show alert.

Accedere a CM-CEE, eseguire il comando show alert active detail e show alert history summary per visualizzare tutti gli alert attivi e della cronologia.
Prendere nota dell'indirizzo IP del server indicato nell'avviso.

[lab-deployer/labceec01] cee# show alerts active detail 
alerts active detail server-alert 9c367ce5ee48
 severity    major
 type        "Equipment Alarm"
 startsAt    2021-10-27T17:10:37.025Z
 source      10.10.10.10
 summary     "DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM"
 labels      [ "alertname: server-alert" "cluster: cr-chr-deployer" "description: DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM" "fault_id: sys/rack-unit-1/board/memarray-1/mem-5/fault-F0185" "id: 134219020" "monitor: prometheus" "replica: cr-chr-deployer" "server: 10.10.10.10" "severity: major" ]
 annotations [ "dn: cr-chr-deployer/10.10.10.10/sys/rack-unit-1/board/memarray-1/mem-5/fault-F0185/134219020" "summary: DDR4_P1_C1_ECC: DIMM 5 is inoperable : Check or replace DIMM" "type: Equipment Alarm" ]

[lab-deployer/labceec01] cee# show alerts history summary
NAME      UID           SEVERITY  STARTS AT       DURATION  SOURCE       SUMMARY            
---------------------------------------------------------------------------------------------
vm-alive  f6a65030b593  minor     09-02T10:28:28  1m40s     10-192-0-13  labd0123 is alive. 
vm-error  3a6d840e3eda  major     09-02T10:27:18  1m        10-192-0-13  labd0123 is down.  
vm-alive  49b2c1941dc6  minor     09-02T10:25:38  1m40s     10-192-0-14  labd0123 is alive.

Soluzione

Identificare i servizi (contenitori) e/o la macchina virtuale (VM) o la macchina virtuale basata su kernel (KVM) ospitati nel server in SMI CM, eseguire il comando show running-config e individuare la configurazione per l'IP del server.

Accedere all'indirizzo VIP CM (nome utente: utente del cloud)
Ottenere l'indirizzo IP dal Centro OPS per lo spazio dei nomi smi-cm
Accedere al Centro operativo e verificare la configurazione del cluster
Identificare i nodi e le VM in esecuzione sul server

cloud-user@lab-deployer-cm-primary:~$ kubectl get svc -n smi-cm
NAME                                          TYPE        CLUSTER-IP       EXTERNAL-IP      PORT(S)                                                 AGE
cluster-files-offline-smi-cluster-deployer    ClusterIP   10.102.200.178   <none>           8080/TCP                                                98d
iso-host-cluster-files-smi-cluster-deployer   ClusterIP   10.102.100.208     192.168.1.102    80/TCP                                                  98d
iso-host-ops-center-smi-cluster-deployer      ClusterIP   10.102.200.73    192.168.1.102    3001/TCP                                                98d
netconf-ops-center-smi-cluster-deployer       ClusterIP   10.102.100.207   192.168.184.193   3022/TCP,22/TCP                                         98d
ops-center-smi-cluster-deployer               ClusterIP   10.10.20.20     <none>           8008/TCP,2024/TCP,2022/TCP,7681/TCP,3000/TCP,3001/TCP   98d
squid-proxy-node-port                         NodePort    10.102.60.114    <none>           3128:32261/TCP                                          98d

cloud-user@lab-deployer-cm-primary:~$ ssh -p 2024 admin@10.10.20.20
admin@10.10.20.20's password:
      Welcome to the Cisco SMI Cluster Deployer on lab-deployer-cm-primary
      Copyright © 2016-2020, Cisco Systems, Inc.
      All rights reserved.
admin connected from 192.168.1.100 using ssh on ops-center-smi-cluster-deployer-7848c69844-xzdw6
[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters

Output di esempio per i contenitori

In questo esempio, il server viene utilizzato dal nodo primary-1.

[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters lab01-smf nodes primary-1
clusters lab01-smf
nodes primary-1
  maintenance false
  k8s node-type       primary
  k8s ssh-ip          10.192.10.22
  k8s sshd-bind-to-ssh-ip true
  k8s node-ip         10.192.10.22
  k8s node-labels smi.cisco.com/node-type oam
  exit
  k8s node-labels smi.cisco.com/node-type-1 proto
  exit
  ucs-server cimc user admin
  ucs-server cimc ip-address 10.10.10.10

Output di esempio per le VM

Il server può essere utilizzato per la VM basata su KVM.

In questo esempio, il server dispone di UPF (User Plane Functions) - upf1 e upf2.

[lab-deployer-cm-primary] SMI Cluster Deployer# show running-config clusters lab01-upf nodes labupf
clusters lab01-upf
nodes labupf
  maintenance false
  ssh-ip      10.192.30.7
  type        kvm
  vms upf1
   upf software lab...
...
   type upf
  exit
  vms upf2
   upf software lab...
...
   type upf
  exit
  ucs-server cimc user admin
...
  ucs-server cimc ip-address 10.10.10.10
...
  exit

SSH nell'host UCS

Connettersi all'host UCS e verificare le voci di errore con scope fault, show fault entry e show fault history.

labucs111-cmp1-11 /fault # show fault-entries 
Time Severity Description ------------------------- ------------- --------------------------------------- 
2021-03-26T10:10:10 major "DDR4_P1_C1_ECC: DIMM 19 is inoperable : Check or replace DIMM"

LABCP0222-Server22-02 /fault # show fault-history
Time                Severity      Source          Cause                     Description                             
------------------- ------------- --------------- ------------------------- ----------------------------------------
2021 Dec 10 02:02:02 UTC info          %CIMC           EQUIPMENT_INOPERABLE      "[F0174][cleared][equipment-inoperable][sys/rack-unit-1/board] IERR: A catastrophic fault has occurred on one of the processors: Cleared "
2021 Dec 1 01:01:01 UTC critical      %CIMC           EQUIPMENT_INOPERABLE      "[F0174][critical][equipment-inoperable][sys/rack-unit-1/board] IERR: A catastrophic fault has occurred on one of the processors: Please check the processor's status. "

Cronologia delle revisioni

Revisione	Data di pubblicazione	Commenti
1.0	26-May-2022	Versione iniziale

Contributo dei tecnici Cisco

Cinthia Janneth Martinez
Cisco TAC Engineer
Nebojsa Kosanovic
Cisco TAC Engineer

Questo documento ti è stato utile?

Feedback

Contattaci

Apri una richiesta di assistenza
(Occorre un contratto di servizio Cisco)

Risoluzione dei problemi del server nella soluzione CNDP

Opzioni per il download

Linguaggio senza pregiudizi

Informazioni su questa traduzione

Sommario

Introduzione

Premesse

Problema

Soluzione

Output di esempio per i contenitori

Output di esempio per le VM

SSH nell'host UCS

Cronologia delle revisioni

Contributo dei tecnici Cisco

Questo documento ti è stato utile?

Contattaci

Questo documento si applica a questi prodotti