Introduction
Ce document décrit les étapes de dépannage lorsque la lame ne parvient pas à effectuer une détection en raison d’une erreur de l’état d’alimentation du serveur-MC.
Conditions préalables
Exigences
Cisco vous recommande d'avoir une connaissance pratique de ces sujets :
- Cisco Unified Computing System (UCS)
- Interconnexion de fabric Cisco (FI)
Composants utilisés
Les informations contenues dans ce document sont basées sur les versions de matériel et de logiciel suivantes :
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Si votre réseau est en ligne, assurez-vous de bien comprendre l’incidence possible des commandes.
Informations générales
- Mise à niveau du micrologiciel de la lame, le serveur est tombé en panne après le redémarrage de la stratégie de temps de fonctionnement.
- Événement d'alimentation dans le data center.
Ce qui précède pourrait être le déclencheur possible de la question.
Problème
Ce message d'erreur apparaît lors d'un redémarrage ou lors de la détection.
"Impossible de modifier l'état d'alimentation de la lame"
UCSM signale cette alerte pour une lame qui ne parvient pas à être mise sous tension
La lame redémarrée dans le cadre de la mise à niveau du micrologiciel ou de toute autre maintenance ne parvient pas à détecter/activer le message ci-dessous dans FSM :
«Impossible de modifier l'état d'alimentation du serveur-Erreur MC(-20) : le contrôleur de gestion ne peut pas ou n'a pas pu traiter la demande (sam:dme:ComputePhysicalTurnup:Execute)»
Les journaux SEL affichent les entrées d'erreur comme suit :
CIMC | Alerte de plate-forme POWER_ON_FAIL #0xde | Défaillance prédictive désaffirmée | Désassermenté
CIMC | Alerte de plate-forme POWER_ON_FAIL #0xde | Défaillance prédictive revendiquée | Affirmé
Dépannage
À partir de l'interpréteur de ligne de commande UCSM, connectez-vous à cimc de la lame et vérifiez l'état de l'alimentation de la lame à l'aide de la commande power
- ssh FI-IP-ADDR
- connect cimc X
- alimentation
Failure Scenario # 1
OP:[ status ]
Power-State: [ on ]
VDD-Power-Good: [ inactive ]
Power-On-Fail: [ active ]
Power-Ctrl-Lock: [ unlocked ]
Power-System-Status: [ Good ]
Front-Panel Power Button: [ Enabled ]
Front-Panel Reset Button: [ Enabled ]
OP-CCODE:[ Success ]
Failure Scenario #2
OP:[ status ]
Power-State: [ off ]
VDD-Power-Good: [ inactive ]
Power-On-Fail: [ inactive ]
Power-Ctrl-Lock: [ permanent lock ] <<<----------------
Power-System-Status: [ Bad ] <<<---------------
Front-Panel Power Button: [ Disabled ]
Front-Panel Reset Button: [ Disabled ]
OP-CCODE:[ Success ]
Résultat du scénario de travail #
[ help ]# power
OP:[ status ]
Power-State: [ on ]
VDD-Power-Good: [ active ]
Power-On-Fail: [ inactive ]
Power-Ctrl-Lock: [ unlocked ]
Power-System-Status: [ Good ]
Front-Panel Power Button: [ Enabled ]
Front-Panel Reset Button: [ Enabled ]
OP-CCODE:[ Success ]
[ power ]#
Vérifiez la valeur # du capteur
ÉCHEC_MISE_SOUS TENSION | disque -> | discret | 0 x 200 | s. o. | s. o. | s. o. | s. o. | s. o. | s. o. | >>> Non-ouvré
Valeur du capteur#
ÉCHEC_MISE_SOUS TENSION | disque -> | discret | 0 x 100 | s. o. | s. o. | s. o. | s. o. | s. o. | s. o. | >>>> En cours
Exécutez la commande sensor et vérifiez les valeurs des capteurs d'alimentation et de tension. Comparez les résultats obtenus avec le même modèle de serveur lame mis sous tension.
Si les colonnes de lecture ou d'état sont NA pour certains capteurs, il se peut que cela ne soit pas toujours une panne matérielle.
Extrait de journal#
Sel.log#
CIMC | Alerte de plate-forme POWER_ON_FAIL #0xde | Défaillance prédictive revendiquée | Affirmé
power-on-fail.hist dans le répertoire tmp/techsupport_pidXXXX/CIMCX_TechSupport-nvram.tar.gz)
Si ce qui précède n'est pas utile, et comme étape suivante, collectez le bundle journal UCSM et Chassis techsupport.
Il permet d'approfondir l'étude du problème.
Avec les symptômes mentionnés précédemment, essayez ces étapes pour récupérer le problème.
Étape 1 : vérifiez que l'état FSM de la lame est « Failed » avec la description « state-MC Error(-20) ».
Accédez à Equipment > Chassis X > Server Y > FSM
Étape 2 : notez le numéro de série de la lame concernée et mettez-la hors service.
<< IMP : notez le numéro de série de la lame problématique dans l’onglet Général avant de la mettre hors service. Elle sera requise à une étape ultérieure de l’étape 4 >>>
Accédez à Equipment > Chassis X > Server Y > General > Server Maintenance > Decommission > Ok.
Étape 3. FI-A/B# reset slot x/y
Par exemple, #Chassis2-Server 1 est affecté.
FI-A# réinitialisation logement 2/1
Patientez 30 à 40 secondes après avoir exécuté la commande ci-dessus
Étape 4 : remettez en service la lame qui a été mise hors service.
Accédez à Equipment > Decommissioned > Servers > Look for the server we disabled (Find correct blade with Serial number Noted in Step-2 before demmissioning) > Cochez la case Recommission pour le serveur lame correct (Validate with Serial number) > Save Changes.
Étape 5 : Résolvez le logement, si observé.
Accédez à Equipment > Chassis X > Server Y.
Si la fenêtre contextuelle « Resolve Slot Issue » s'affiche pour la carte que vous avez remise en service, vérifiez son numéro de série et cliquez sur « here » pour accepter le serveur dans le logement.
La découverte des lames doit commencer maintenant.
Patientez jusqu'à la fin de la découverte du serveur. Surveillez la progression dans l'onglet Server FSM.
Étape 6. Si les étapes 1 à 5 n'aident pas et que la FSM échoue à nouveau, démettez la lame et essayez de la REPOSITIONNER physiquement.
Si le serveur ne parvient toujours pas à découvrir, contactez le centre d'assistance technique Cisco en cas de problème matériel.
NOTE: If you have B200 M4 blade and notice failure scenario #2 , please refer following bug and Contact TAC
CSCuv90289
B200 M4 fails to power on due to POWER_SYS_FLT
Informations connexes
Procédure de découverte du châssis
Guide de gestion des serveurs UCSM