Vous pouvez vérifier les performances, la stabilité, les ressources système et les versions logicielles d'un serveur vSphere Bitfusion en effectuant un contrôle de santé.

Vous pouvez vérifier l'état de santé d'un serveur vSphere Bitfusion sélectionné et, si nécessaire, effectuer un dépannage. Le contrôle de santé examine les performances, la stabilité, les ressources système et les versions logicielles d'un serveur vSphere Bitfusion sélectionné et de l'environnement vCenter Server immédiat du serveur. Chaque contrôle de santé peut renvoyer un état réussite, marginal ou fatal.

Par exemple, le contrôle de santé vérifie que tous les nœuds sont en cours d'exécution, qu'il y a suffisamment d'espace libre et que la connexion à vCenter Server est opérationnelle. Pour afficher la liste de tous les contrôles de santé disponibles, consultez Liste des contrôles de santé dans vSphere Bitfusion.

En désactivant un contrôle de santé dans la procédure suivante, vous modifiez uniquement les paramètres de contrôle de santé du serveur vSphere Bitfusion spécifique. Un contrôle de santé désactivé est toujours effectué en arrière-plan, mais l'état du contrôle ne modifie pas l'état de santé global du serveur dans l'onglet Serveurs. Vous pouvez modifier les paramètres globaux de contrôle de santé de tous les serveurs vSphere Bitfusion dans l'onglet Paramètres > Valeurs par défaut globales de serveur.

Procédure

  1. Dans vSphere Client, sélectionnez Menu (icône de menu de vSphere Client) > Bitfusion.
  2. Dans l'onglet Serveurs, sélectionnez un serveur dans la liste.
  3. Dans le menu déroulant Actions, sélectionnez Santé.
    La boîte de dialogue Journaux de santé s'affiche et les résultats des contrôles de santé sont affichés. L'état, le type, le nom et les détails de la vérification s'affichent.
  4. (Facultatif) Pour désactiver un contrôle de santé spécifique, cliquez sur le bouton bascule.
  5. Cliquez sur Enregistrer et quitter.

Que faire ensuite

Liste des contrôles de santé dans vSphere Bitfusion

vSphere Bitfusion effectue les contrôles suivants lorsqu'un contrôle de santé d'un serveur est lancé à partir du plug-in vSphere Bitfusion.

Liste de contrôles de santé

Nom Type Description
cass_buckets Stabilité Valide les compartiments utilisés par Cassandra pour stocker les données d'utilisation et d'autres éléments.
cass_node_num Stabilité Confirme que Cassandra et Bitfusion voient le même nombre de serveurs dans le cluster.
cass_nodetool Stabilité Confirme que Cassandra détecte que le cluster est dans un état sain.
cass_replication Stabilité Confirme le facteur de réplication.
compute_mode Stabilité Confirme que le mode de calcul des GPU est défini de manière appropriée.
network Stabilité Vérifie s'il existe des paquets abandonnés sur le réseau.
ecc Stabilité Vérifie s'il existe des erreurs ECC sur les GPU.
gpu_api Stabilité Confirme que les API GPU correspondent.
pci_nvml Stabilité Confirme que tous les GPU peuvent être énumérés.
pci_p2p Stabilité Vérifie que PCIe P2P est pris en charge.
temperature Stabilité Vérifie que la température des GPU est inférieure à 100 degrés Celsius.
vcenter_check Stabilité Vérifie que le serveur peut se connecter à vCenter Server.
xid Stabilité Vérifie s'il existe des échecs de GPU Xid.
bogomips Performances Valide les performances. La mesure est utilisée par le noyau Linux.
hostmem Performances Vérifie qu'il y a suffisamment de mémoire d'hôte sur le système.
iface_compat Performances Vérifie que la configuration réseau est valide.
memops Performances Vérifiez que memops est activé pour les GPU.
mtu Performances Vérifie que les trames jumbo sont activées pour le réseau.
nvidia_stats Performances Valide les statistiques des GPU.
nvidia_topo Performances Valide la topologie d'hôte.
pci_width Performances Vérifie que les GPU utilisent la capacité maximale de la voie PCIe.
ulimit_n Performances Vérifie que la limite maximale des descripteurs de fichiers est appropriée.
diskspace Ressource système Confirme l'espace libre sur le serveur.
install Ressource système Valide l'installation de Bitfusion.
pciinfo Ressource système Valide la configuration PCI.
shadow_mem Ressource système Vérifie qu'il y a au moins la même quantité de mémoire système que la mémoire tampon de trame sur les GPU.
cuda_version Version du logiciel Vérifie la version de CUDA.
libdep Version du logiciel Vérifie que les dépendances logicielles pour Bitfusion sont installées.
driver_version Version du logiciel Vérifie la version du pilote NVIDIA.