Vous pouvez vérifier les performances, la stabilité, les ressources système et les versions logicielles d'un serveur vSphere Bitfusion en effectuant un contrôle de santé.
Vous pouvez vérifier l'état de santé d'un serveur vSphere Bitfusion sélectionné et, si nécessaire, effectuer un dépannage. Le contrôle de santé examine les performances, la stabilité, les ressources système et les versions logicielles d'un serveur vSphere Bitfusion sélectionné et de l'environnement vCenter Server immédiat du serveur. Chaque contrôle de santé peut renvoyer un état réussite, marginal ou fatal.
Par exemple, le contrôle de santé vérifie que tous les nœuds sont en cours d'exécution, qu'il y a suffisamment d'espace libre et que la connexion à vCenter Server est opérationnelle. Pour afficher la liste de tous les contrôles de santé disponibles, consultez Liste des contrôles de santé dans vSphere Bitfusion.
En désactivant un contrôle de santé dans la procédure suivante, vous modifiez uniquement les paramètres de contrôle de santé du serveur vSphere Bitfusion spécifique. Un contrôle de santé désactivé est toujours effectué en arrière-plan, mais l'état du contrôle ne modifie pas l'état de santé global du serveur dans l'onglet Serveurs. Vous pouvez modifier les paramètres globaux de contrôle de santé de tous les serveurs vSphere Bitfusion dans l'onglet .
Procédure
Que faire ensuite
Liste des contrôles de santé dans vSphere Bitfusion
vSphere Bitfusion effectue les contrôles suivants lorsqu'un contrôle de santé d'un serveur est lancé à partir du plug-in vSphere Bitfusion.
Liste de contrôles de santé
Nom | Type | Description |
---|---|---|
cass_buckets |
Stabilité | Valide les compartiments utilisés par Cassandra pour stocker les données d'utilisation et d'autres éléments. |
cass_node_num |
Stabilité | Confirme que Cassandra et Bitfusion voient le même nombre de serveurs dans le cluster. |
cass_nodetool |
Stabilité | Confirme que Cassandra détecte que le cluster est dans un état sain. |
cass_replication |
Stabilité | Confirme le facteur de réplication. |
compute_mode |
Stabilité | Confirme que le mode de calcul des GPU est défini de manière appropriée. |
network |
Stabilité | Vérifie s'il existe des paquets abandonnés sur le réseau. |
ecc |
Stabilité | Vérifie s'il existe des erreurs ECC sur les GPU. |
gpu_api |
Stabilité | Confirme que les API GPU correspondent. |
pci_nvml |
Stabilité | Confirme que tous les GPU peuvent être énumérés. |
pci_p2p |
Stabilité | Vérifie que PCIe P2P est pris en charge. |
temperature |
Stabilité | Vérifie que la température des GPU est inférieure à 100 degrés Celsius. |
vcenter_check |
Stabilité | Vérifie que le serveur peut se connecter à vCenter Server. |
xid |
Stabilité | Vérifie s'il existe des échecs de GPU Xid. |
bogomips |
Performances | Valide les performances. La mesure est utilisée par le noyau Linux. |
hostmem |
Performances | Vérifie qu'il y a suffisamment de mémoire d'hôte sur le système. |
iface_compat |
Performances | Vérifie que la configuration réseau est valide. |
memops |
Performances | Vérifiez que memops est activé pour les GPU. |
mtu |
Performances | Vérifie que les trames jumbo sont activées pour le réseau. |
nvidia_stats |
Performances | Valide les statistiques des GPU. |
nvidia_topo |
Performances | Valide la topologie d'hôte. |
pci_width |
Performances | Vérifie que les GPU utilisent la capacité maximale de la voie PCIe. |
ulimit_n |
Performances | Vérifie que la limite maximale des descripteurs de fichiers est appropriée. |
diskspace |
Ressource système | Confirme l'espace libre sur le serveur. |
install |
Ressource système | Valide l'installation de Bitfusion. |
pciinfo |
Ressource système | Valide la configuration PCI. |
shadow_mem |
Ressource système | Vérifie qu'il y a au moins la même quantité de mémoire système que la mémoire tampon de trame sur les GPU. |
cuda_version |
Version du logiciel | Vérifie la version de CUDA. |
libdep |
Version du logiciel | Vérifie que les dépendances logicielles pour Bitfusion sont installées. |
driver_version |
Version du logiciel | Vérifie la version du pilote NVIDIA. |