Fonctionnement de l'algorithme Elastic DRS

L'algorithme Elastic DRS surveille l'utilisation des ressources dans un cluster au fil du temps. Après avoir autorisé les pics et le caractère aléatoire dans l'utilisation, l'algorithme recommande que la charge soit montée ou réduite dans un cluster et génère une alerte. Cette alerte est traitée immédiatement en provisionnant un nouvel hôte ou en supprimant un hôte du cluster.

L'algorithme s'exécute toutes les 5 minutes et utilise les paramètres suivants :

Nombre minimal et maximal d'hôtes pour lesquels l'algorithme doit monter ou réduire la charge.
Les seuils d'utilisation de CPU, mémoire et stockage afin que l'allocation d'hôtes soit optimisée en matière de coût ou de performances. Ces seuils, qui sont répertoriés dans la page Gérer l'élasticité dans les clusters SDDC, sont prédéfinis pour chaque type de stratégie DRS et ne peuvent pas être modifiés par l'utilisateur.

Recommandation de montée en charge

Une recommandation de montée en charge est générée lorsque l'utilisation de CPU, de mémoire ou de stockage reste constamment au-dessus des seuils. Par exemple, si l'utilisation du stockage est supérieure au seuil maximal, mais que l'utilisation du CPU et de la mémoire restent sous leurs seuils respectifs, une recommandation de montée en charge est générée. Un événement vCenter Server est affiché pour indiquer le démarrage, l'achèvement ou l'échec de la montée en charge sur le cluster.

Recommandation de réduction de charge

Une recommandation de réduction de charge est générée lorsque l'utilisation du CPU, de la mémoire et du stockage reste constamment en dessous des seuils. La recommandation de réduction de charge n'est pas mise en œuvre si le nombre d'hôtes dans le cluster correspond à la valeur spécifiée minimale. Un événement vCenter Server est affiché pour indiquer le démarrage, l'achèvement ou l'échec de la réduction de charge sur le cluster.

Note :

Chaque fois que vous réduisez la taille de cluster, la latence de stockage augmente en raison d'une surcharge de processus entraînée par la suppression des hôtes. La durée de cette surcharge varie en fonction de la quantité de données impliquée. Elle peut tarder une heure ou prendre plus de 48 heures dans certains cas extrêmes. Lors de la réduction de la taille du cluster (réduction de la charge), les VM de charge de travail prises en charge par les clusters affectés peuvent rencontrer des augmentations significatives de la latence de stockage.

Mise à l'échelle des clusters étendus

Lorsqu'Elastic DRS génère un événement de réduction de charge ou de montée en charge pour un cluster étendu (plusieurs zones de disponibilité), les hôtes sont supprimés ou ajoutés dans les deux zones de disponibilité.

En cas de défaillance d'un hôte dans un cluster étendu, Elastic DRS tente de le remplacer dans sa zone de disponibilité d'origine. S'il ne parvient pas à le faire en raison d'une défaillance complète ou partielle de la zone de disponibilité, Elastic DRS fait monter en charge le cluster dans la zone de disponibilité restante. Il ajoute des hôtes non facturables dans la zone de disponibilité restante jusqu'à ce que le cluster atteigne son nombre d'hôtes d'origine. Ce workflow de montée en charge dépend de la capacité disponible et n'est pas garanti. Lorsque la zone de disponibilité en échec est restaurée, Elastic DRS réduit la charge du cluster pour supprimer les hôtes supplémentaires, en restaurant le nombre d'hôtes d'origine.

Vous trouverez plus d'informations sur la manière dont Elastic DRS gère les scénarios de mise à l'échelle et d'échec de zone dans l'article de la zone technique VMware Cloud VMware Cloud on AWS : clusters étendus.

Délais entre deux recommandations

Une vérification de sécurité est incluse dans l'algorithme pour éviter le traitement d'événements générés fréquemment et pour donner le temps au cluster d'appliquer les modifications en raison du dernier événement traité. Les intervalles de temps suivants entre les événements sont appliqués :

Un délai de 30 minutes entre deux événements de montée en charge successifs.
Un délai de 3 heures pour traiter un événement de réduction de charge après la montée en charge du cluster.

Interactions des recommandations avec d'autres opérations

Les opérations suivantes peuvent interagir avec les recommandations d'Elastic DRS :

Ajout ou suppression d'hôtes initialisé par l'utilisateur.
Normalement, vous n'avez pas à ajouter ou supprimer manuellement des hôtes dans un cluster si Elastic DRS est activé. Vous pouvez toujours effectuer ces opérations, mais une recommandation d'Elastic DRS peut les annuler à un moment donné.

Si une opération d'ajout ou de suppression d'hôtes initialisée par l'utilisateur est en cours, la recommandation actuelle de l'algorithme Elastic DRS est ignorée. Lorsque l'opération initialisée par l'utilisateur est terminée, l'algorithme peut recommander une opération de réduction de charge ou de montée en charge en fonction des modifications apportées à l'utilisation des ressources et de la stratégie sélectionnée actuelle.

Si vous démarrez une opération d'ajout ou de suppression d'hôtes lors de l'application d'une recommandation d'Elastic DRS, l'opération d'ajout ou de suppression d'hôtes échoue avec une erreur indiquant une exception de mise à jour simultanée.
Opération de maintenance planifiée
Une opération de maintenance planifiée signifie qu'un hôte spécifique doit être remplacé par un nouvel hôte. Lorsqu'une opération de maintenance planifiée est en cours, les recommandations actuelles de l'algorithme Elastic DRS sont ignorées. Une fois la maintenance planifiée terminée, l'algorithme s'exécute à nouveau et de nouvelles recommandations sont appliquées. Si un événement de maintenance planifiée est initié sur un cluster alors qu'une recommandation d'Elastic DRS élastique est appliquée à ce cluster, la tâche de maintenance planifiée est mise en attente. Lorsque la tâche de recommandation d'Elastic DRS est terminée, la tâche de maintenance planifiée commence.
Correction automatique
Lors de la correction automatique, un hôte ayant échoué est remplacé par un nouvel hôte et ses balises d'hôte sont appliquées à l'hôte de remplacement. Lorsque la correction automatique est en cours, les recommandations actuelles de l'algorithme Elastic DRS sont ignorées. Une fois la correction automatique terminée, l'algorithme s'exécute à nouveau et de nouvelles recommandations sont appliquées. Si un événement de correction automatique est initié pour un cluster alors qu'une recommandation d'Elastic DRS est appliquée sur ce cluster, la tâche de correction automatique est mise en attente. Lorsque la tâche de recommandation d'Elastic DRS est terminée, la tâche de correction automatique démarre.
Fenêtre de maintenance de SDDC
Si un SDDC est en cours de maintenance ou qu'une maintenance de celui-ci est planifiée dans les 6 prochaines heures, les recommandations d'EDRS sont ignorées.