Arrêter et redémarrer manuellement le cluster vSAN

Vous pouvez arrêter manuellement l'intégralité du cluster vSAN pour effectuer des opérations de maintenance ou de dépannage.

Utilisez l'assistant Arrêter le cluster, sauf si un arrêt manuel est requis dans votre workflow. Lorsque vous arrêtez manuellement le cluster vSAN, ne désactivez pas vSAN dans le cluster.

Note : Si vous disposez d'un environnement vSphere with Tanzu, vous devez suivre l'ordre spécifié lors de l'arrêt ou du démarrage des composants. Pour plus d'informations, reportez-vous à la section « Arrêt et démarrage de VMware Cloud Foundation » du Guide des opérations de VMware Cloud Foundation.

Procédure

Arrêtez le cluster vSAN.
1. Vérifiez le service de santé de vSAN pour confirmer que le cluster est sain.
2. Mettez hors tension toutes les machines virtuelles en cours d'exécution dans le cluster vSAN si le système vCenter Server n'est pas hébergé sur le cluster. Si vCenter Server est hébergé dans le cluster vSAN, ne mettez pas hors tension la VM vCenter Server ou les VM de service (telles que DNS, Active Directory) utilisées par vCenter Server. Si le service de fichiers est activé dans le cluster vSAN, ne mettez pas hors tension la VM « Nœud du service de fichiers vSAN (x) ».
3. Cliquez sur l'onglet Configurer et désactivez HA. Ainsi, le cluster n'enregistre pas les arrêts de l'hôte en tant qu'échecs.
  
  Pour vSphere 7.0 U1 et versions ultérieures, activez le mode de retraitement vCLS. Pour plus d'informations, reportez-vous à l'article de la base de connaissances VMware à l'adresse https://kb.vmware.com/s/article/80472.
4. Vérifiez que toutes les tâches de resynchronisation sont terminées.
  Cliquez sur l'onglet Surveiller, puis sélectionnez vSAN > Resynchronisation des objets.
5. Si vCenter Server est hébergé dans le cluster vSAN, mettez la machine virtuelle vCenter Server hors tension.
  Notez l'hôte qui exécute la machine virtuelle vCenter Server. Il s'agit de l'hôte sur lequel vous devez redémarrer la machine virtuelle vCenter Server.
6. Désactivez les mises à jour des membres du cluster à partir de vCenter Server en exécutant la commande suivante sur les hôtes ESXi dans le cluster. Assurez-vous d'exécuter la commande suivante sur tous les hôtes.
```
esxcfg-advcfg -s 1 /VSAN/IgnoreClusterMemberListUpdates
```
7. Connectez-vous à n'importe quel hôte du cluster autre que l'hôte témoin.
8. Exécutez la commande suivante uniquement sur cet hôte. Si vous exécutez la commande sur plusieurs hôtes simultanément, cela peut entraîner une condition de concurrence entraînant des résultats inattendus.
```
python /usr/lib/vmware/vsan/bin/reboot_helper.py prepare
```
  Cette commande renvoie et imprime les éléments suivants :
  La préparation du cluster est terminée.
  Note :
  - Le cluster est entièrement partitionné après l'exécution réussie de la commande.
  - Si vous rencontrez une erreur, résolvez le problème en fonction du message d'erreur et réessayez d'activer le mode de retraitement vCLS.
  - S'il existe des hôtes défectueux ou déconnectés dans le cluster, supprimez ces hôtes et réessayez d'exécuter la commande.
9. Placez tous les hôtes en mode de maintenance avec le mode Aucune action. Si l'instance de vCenter Server est hors tension, utilisez la commande suivante pour placer les hôtes ESXi en mode de maintenance avec le mode Aucune action.
```
esxcli system maintenanceMode set -e true -m noAction
```
  Effectuez cette opération sur tous les hôtes.
  
  Pour éviter le risque d'indisponibilité des données lors de l'utilisation du mode Aucune action en même temps sur plusieurs hôtes, suivie d'un redémarrage de plusieurs hôtes, reportez-vous à l'article de la base de connaissances VMware à l'adresse https://kb.vmware.com/s/article/60424. Pour effectuer un redémarrage simultané de tous les hôtes du cluster à l'aide d'un outil intégré, reportez-vous à l'article de la base de connaissances VMware à l'adresse https://kb.vmware.com/s/article/70650.
10. Une fois que tous les hôtes sont passés en mode de maintenance, effectuez les tâches de maintenance nécessaires et mettez les hôtes hors tension.
Redémarrez le cluster vSAN.
1. Mettez les hôtes ESXi sous tension.
  Mettez sous tension la boîte physique dans laquelle ESXi est installé. L'hôte ESXi démarre, localise ses machines virtuelles et fonctionne normalement.
  
  Si un ou plusieurs hôtes ne parviennent pas à redémarrer, vous devez récupérer manuellement ces hôtes défectueux ou les retirer du cluster vSAN.
2. Lorsque tous les hôtes sont de nouveau actifs après la mise sous tension, sortez tous les hôtes du mode de maintenance. Si l'instance de vCenter Server est hors tension, utilisez la commande suivante sur les hôtes ESXi pour quitter le mode de maintenance.
```
esxcli system maintenanceMode set -e false
```
  Effectuez cette opération sur tous les hôtes.
3. Connectez-vous à l'un des hôtes du cluster autre que l'hôte témoin.
4. Exécutez la commande suivante uniquement sur cet hôte. Si vous exécutez la commande sur plusieurs hôtes simultanément, cela peut entraîner une condition de concurrence entraînant des résultats inattendus.
```
python /usr/lib/vmware/vsan/bin/reboot_helper.py recover
```
  Cette commande renvoie et imprime les éléments suivants :
  Le redémarrage/la mise sous tension du cluster s'est terminé correctement.
5. Vérifiez que tous les hôtes sont disponibles dans le cluster en exécutant la commande suivante sur chaque hôte.
```
esxcli vsan cluster get
```
6. Activez les mises à jour des membres du cluster à partir de vCenter Server en exécutant la commande suivante sur les hôtes ESXi dans le cluster. Assurez-vous d'exécuter la commande suivante sur tous les hôtes.
```
esxcfg-advcfg -s 0 /VSAN/IgnoreClusterMemberListUpdates
```
7. Redémarrez la machine virtuelle vCenter Server si elle est hors tension. Attendez que la machine virtuelle vCenter Server soit sous tension et en cours d'exécution. Pour désactiver le mode de retraitement vCLS, reportez-vous à l'article de la base de connaissances VMware à l'adresse https://kb.vmware.com/s/article/80472.
8. Vérifiez à nouveau que tous les hôtes participent dans le cluster vSAN en exécutant la commande suivante sur chaque hôte.
```
esxcli vsan cluster get
```
9. Redémarrez les machines virtuelles restantes via vCenter Server.
10. Vérifiez le service de santé de vSAN et résolvez les problèmes éventuels en attente.
11. (Facultatif) Si Disponibilité vSphere est activé sur le cluster vSAN, vous devez redémarrer manuellement Disponibilité vSphere pour éviter l'erreur suivante : L'agent maître de vSphere HA est introuvable.
  Pour redémarrer manuellement Disponibilité vSphere, sélectionnez le cluster vSAN et accédez à :
  1. Configurer > Services > Disponibilité vSphere > MODIFIER > Désactiver vSphere HA
  2. Configurer > Services > Disponibilité vSphere > MODIFIER > Activer vSphere HA
S'il existe des hôtes défectueux ou déconnectés dans le cluster, récupérez ou supprimez ces hôtes du cluster vSAN. Essayez d'exécuter à nouveau les commandes ci-dessus uniquement après que le service de santé de vSAN affiche tous les hôtes disponibles avec l'état vert.
Si vous disposez d'un cluster vSAN à trois nœuds, la commande reboot_helper.py recover ne peut pas fonctionner en cas de panne d'un hôte. En tant qu'administrateur, procédez comme suit :
1. Supprimez temporairement les informations de l'hôte en échec de la liste des agents de monodiffusion.
2. Ajoutez l'hôte après l'exécution de la commande suivante.
```
reboot_helper.py recover
```
Les commandes suivantes permettent de supprimer et d'ajouter l'hôte à un cluster vSAN :
```
#esxcli vsan cluster unicastagent remove -a <IP Address> -t node -u <NodeUuid>
```
```
#esxcli vsan cluster unicastagent add -t node -u <NodeUuid> -U true -a <IP Address> -p 12321
```