Risolvi Kubernetes Pods Show in stato non pronto dopo l'isolamento del sito

Opzioni per il download

PDF (82.4 KB)
Visualizza con Adobe Reader su diversi dispositivi
ePub (84.9 KB)
Visualizza in diverse app su iPhone, iPad, Android, Sony Reader o Windows Phone
Mobi (Kindle) (71.5 KB)
Visualizza su dispositivo Kindle o tramite app Kindle su più dispositivi

Aggiornato:20 settembre 2021

ID documento:217376

Linguaggio senza pregiudizi

La documentazione per questo prodotto è stata redatta cercando di utilizzare un linguaggio senza pregiudizi. Ai fini di questa documentazione, per linguaggio senza di pregiudizi si intende un linguaggio che non implica discriminazioni basate su età, disabilità, genere, identità razziale, identità etnica, orientamento sessuale, status socioeconomico e intersezionalità. Le eventuali eccezioni possono dipendere dal linguaggio codificato nelle interfacce utente del software del prodotto, dal linguaggio utilizzato nella documentazione RFP o dal linguaggio utilizzato in prodotti di terze parti a cui si fa riferimento. Scopri di più sul modo in cui Cisco utilizza il linguaggio inclusivo.

Informazioni su questa traduzione

Cisco ha tradotto questo documento utilizzando una combinazione di tecnologie automatiche e umane per offrire ai nostri utenti in tutto il mondo contenuti di supporto nella propria lingua. Si noti che anche la migliore traduzione automatica non sarà mai accurata come quella fornita da un traduttore professionista. Cisco Systems, Inc. non si assume alcuna responsabilità per l’accuratezza di queste traduzioni e consiglia di consultare sempre il documento originale in inglese (disponibile al link fornito).

Sommario

Introduzione

Problema

Soluzione

Verifica iniziale di sistemi e unità

Riavvio dei pod interessati

Verifica delle unità disco ottiche e dello stato del sistema dopo il riavvio

Introduzione

In questo documento vengono descritti i passaggi di ripristino da eseguire quando il pod Cisco Smart Install (SMI) diventa non pronto a causa di un bug di Kubernetes https://github.com/kubernetes/kubernetes/issues/82346.

Problema

Dopo l'isolamento del sito, Converged Ethernet (CEE) ha segnalato l'allarme di errore di elaborazione nella CEE. Lo stato di sistema pronto è inferiore al 100%.

[site1app/pod1] cee# show alerts active 
alerts active k8s-deployment-replica-mismatch f89d8d09389c
state active
severity critical
type "Processing Error Alarm"
startsAt 2021-05-27T08:38:58.703Z
source site1app-smi-cluster-policy-oam2
labels [ "component: kube-state-metrics" "deployment: prometheus-scrapeconfigs-synch" "exported_namespace: cee-pod1" "instance: 192.0.2.37:8080" "job: kubernetes-pods" "namespace: cee-pod1" "pod: kube-state-metrics-6c476f7494-tqkrc" "pod_template_hash: 6c476f7494" "release: cee-pod1-cnat-monitoring" ]
annotations [ "summary: Deployment cee-pod1/prometheus-scrapeconfigs-synch has not matched the expected number of replicas for longer than 2 minutes." ]

[site1app/pod1] cee# show system status 
system status deployed true
system status percent-ready 92.68

ubuntu@site1app-smi-cluster-policy-mas01:~$ kubectl get rs -n cee-pod1 | grep scrape
NAME DESIRED CURRENT READY AGE 
prometheus-scrapeconfigs-synch-ccd454f76 1 1 0 395d
prometheus-scrapeconfigs-synch-f5544b4f8 0 0 0 408d

Soluzione

L'isolamento del sito è un'attivazione del bug https://github.com/kubernetes/kubernetes/issues/82346. Per risolvere il problema, portare questi pod nello stato Pronto è necessario riavviare i pod interessati. La correzione è inclusa nelle prossime versioni CEE.

Verifica iniziale di sistemi e unità

Accedere alla CLI CEE e verificare lo stato del sistema.

ssh -p 2024 admin@`kubectl get svc -A| grep " ops-center-cee" | awk '{print $4}'`

show alerts active
show system status

Riavvio dei pod interessati

Accedere al nodo primario ed eseguire questi comandi sul nodo primario. Identificare i daemonset e i set di repliche che non hanno tutti i membri nello stato Ready.

kubectl get daemonsets -A
kubectl get rs -A | grep -v '0 0 0'

Copiare e incollare questi comandi nel blocco note e sostituire tutti i cee-xyz con lo spazio dei nomi cee nel sito.

kubectl describe pods core-retriever -n cee-xyz | egrep "^Name:|False" | grep -B1 False
kubectl describe pods calico-node -n kube-system | egrep "^Name:|False" | grep -B1 False
kubectl describe pods csi-cinder-nodeplugin -n kube-system | egrep "^Name:|False" | grep -B1 False
kubectl describe pods maintainer -n kube-system | egrep "^Name:|False" | grep -B1 False
kubectl describe pods kube-proxy -n kube-system | egrep "^Name:|False" | grep -B1 False
kubectl describe pods path-provisioner -n cee-xyz | egrep "^Name:|False" | grep -B1 False
kubectl describe pods logs-retriever -n cee-xyz | egrep "^Name:|False" | grep -B1 False
kubectl describe pods node-exporter -n cee-xyz | egrep "^Name:|False" | grep -B1 False
kubectl describe pods keepalived -n smi-vips| egrep "^Name:|False" | grep -B1 False
kubectl describe pods prometheus-scrapeconfigs-synch -n cee-xyz | egrep "^Name:|False" | grep -B1 False

Eseguire i comandi e raccogliere l'output del risultato. Nel risultato, l'output identifica i nomi dei pod con lo spazio dei nomi corrispondente che richiedono un riavvio.

Riavviare tutti i pod interessati dall'elenco ottenuto in precedenza quando si eseguono questi comandi (sostituire il nome del pod e lo spazio dei nomi di conseguenza).

kubectl delete pods core-retriever-abcde -n cee-xyz
kubectl delete pods core-retriever-abcde -n cee-xyz
…

Verificare che i pod siano attivi e funzionanti senza problemi.

kubeclt get pods -A

Verifica delle unità disco ottiche e dello stato del sistema dopo il riavvio

Esegui comandi:

kubectl get daemonsets -A
kubectl get rs -A | grep -v '0 0 0'

Confermare che i daemonset e i set di repliche visualizzino tutti i membri nello stato Pronto.

Accedere alla CLI CEE e verificare che nessun avviso attivo e stato del sistema sia impostato su 100%.

ssh -p 2024 admin@`kubectl get svc -A| grep " ops-center-cee" | awk '{print $4}'`

show alerts active
show system status

Cronologia delle revisioni

Revisione	Data di pubblicazione	Commenti
1.0	20-Sep-2021	Versione iniziale

Contributo dei tecnici Cisco

Carlos Franco Garcia
Cisco TAC Engineer
Dennis Lanov
Cisco TAC Engineer

Questo documento ti è stato utile?

Feedback

Contattaci

Apri una richiesta di assistenza
(Occorre un contratto di servizio Cisco)

Risolvi Kubernetes Pods Show in stato non pronto dopo l'isolamento del sito

Opzioni per il download

Linguaggio senza pregiudizi

Informazioni su questa traduzione

Sommario

Introduzione

Problema

Soluzione

Verifica iniziale di sistemi e unità

Riavvio dei pod interessati

Verifica delle unità disco ottiche e dello stato del sistema dopo il riavvio

Cronologia delle revisioni

Contributo dei tecnici Cisco

Questo documento ti è stato utile?

Contattaci

Questo documento si applica a questi prodotti