La correction automatique à un niveau élevé surveille les pannes matérielles et logicielles et tente automatiquement d'y remédier en corrigeant un problème ou en remplaçant le matériel. Lorsque tout le reste échoue, le processus de correction automatique demande une intervention manuelle des ingénieurs de fiabilité des sites (SRE).

Ordre de traitement des fonctions gérées par le service Autoscaler lorsqu'un événement se produit :

  1. Surveillance : la plate-forme VMC surveille en permanence la santé du système de chaque SDDC et de chaque hôte de la flotte. Lorsqu'une panne est détectée, un événement est envoyé à la correction automatique.
    • Surveille les pannes matérielles et logicielles
    • Provisionner automatiquement le matériel en cas de détection d'une panne
    • Corrige automatiquement les échecs, lorsque cela est possible
    • Les ingénieurs de fiabilité des sites (SRE) interviennent manuellement lorsqu'une résolution automatique n'est pas disponible
  2. Attendre les événements transitoires : certaines des pannes détectées peuvent être temporaires. Par exemple, le système de surveillance ne peut pas atteindre un hôte en raison d'un problème de connectivité temporaire. La correction automatique attend 5 minutes pour déterminer si le problème est temporaire. Si le problème disparaît, la correction automatique ne renvoie aucune action.
  3. Ajouter un hôte : si l'erreur n'est pas résolue au bout de 5 minutes, la correction automatique commence à ajouter un hôte au SDDC, même si vous ne savez pas encore si un hôte est requis ou non. L'ajout d'un hôte à ce moment-là garantit qu'il sera disponible si cela est nécessaire. Veuillez noter que cet hôte ne vous sera pas facturé tant qu'il n'aura pas remplacé un hôte défectueux dans votre SDDC.
  4. Déterminer un type d'échec et agir : les hôtes peuvent échouer pour différentes raisons et nécessiter différentes actions. Par exemple, une panne de disque vSAN sur un hôte qui est toujours connecté à un vCenter Server peut être corrigée par un redémarrage logiciel, tandis qu'un hôte PSOD nécessite un redémarrage matériel. La logique de correction automatique de ce processus est complexe et en constante évolution, mais vous pouvez passer en revue l'erreur et adopter la mesure la moins intrusive. La correction automatique est un processus interne et les clients n'ont pas accès à la logique. Si vous rencontrez des problèmes, vous pouvez contacter le support technique de VMware.
  5. Vérifier la santé de l'hôte : l'étape suivante consiste à vérifier si l'action corrective a réparé l'hôte. Si l'hôte en panne est maintenant en bonne santé après un redémarrage logiciel ou matériel, la correction automatique évite une interruption supplémentaire du SDDC. Elle collecte et prend toutes les autres mesures nécessaires et supprime le nouvel hôte qui avait été ajouté de manière préventive à l'étape 2.
  6. Remplacer l'hôte : si l'hôte ayant échoué ne peut pas être relancé, la mise à l'échelle automatique supprime l'hôte en panne et le remplace par l'hôte qui a été ajouté à l'étape 2. À ce stade, le service Autoscaler supprime l'hôte ayant échoué et le remplace par l'hôte qui a été ajouté à l'étape 2. vSphere HA et vSAN sont déclenchés et des balises de stratégie de calcul sont attachées au nouvel hôte.