Sie können neben Leistung und Stabilität auch die Systemressourcen und Softwareversionen eines vSphere Bitfusion-Servers überprüfen, indem Sie eine Integritätsprüfung durchführen.
Sie können den Integritätsstatus eines ausgewählten vSphere Bitfusion-Servers überprüfen und gegebenenfalls Fehlerbehebung durchführen. Bei der Integritätsprüfung werden Leistung und Stabilität sowie die Systemressourcen und Softwareversionen eines ausgewählten vSphere Bitfusion-Servers und die vCenter Server-Umgebung des Servers analysiert. Bei einer Integritätsprüfung können folgende Status zurückgegeben werden: „Bestanden“, „Grenzwertig“ und „Schwerwiegend“.
Bei einer Integritätsprüfung wird beispielsweise sichergestellt, dass alle Knoten ausgeführt werden, genügend freier Speicher verfügbar und die Verbindung mit vCenter Server hergestellt ist. Weitere Informationen zum Anzeigen der Liste aller verfügbaren Integritätsprüfungen finden Sie unter Liste der Integritätsprüfungen in vSphere Bitfusion.
Indem Sie im folgenden Verfahren eine Integritätsprüfung deaktivieren, können Sie die Integritätsprüfungseinstellungen nur für den spezifischen vSphere Bitfusion-Server ändern. Eine deaktivierte Integritätsprüfung wird weiterhin im Hintergrund durchgeführt. Der Status der Prüfung hat jedoch keinen Einfluss auf den allgemeinen Integritätsstatus des auf der Registerkarte Server angezeigten Servers. Sie können die globalen Integritätsprüfungseinstellungen für alle vSphere Bitfusion-Server auf der Registerkarte ändern.
Prozedur
Nächste Maßnahme
Liste der Integritätsprüfungen in vSphere Bitfusion
vSphere Bitfusion führt die folgenden Prüfungen durch, wenn die Integritätsprüfung eines Servers über das vSphere Bitfusion-Plug-In initiiert wird.
Liste der Integritätsprüfungen
Name | Typ | Beschreibung |
---|---|---|
cass_buckets |
Stabilität | Validiert die von Cassandra verwendete Bucket-Zuordnung, um Nutzungsdaten und andere Elemente zu speichern. |
cass_node_num |
Stabilität | Bestätigt, dass für Cassandra und Bitfusion dieselbe Anzahl an Servern im Cluster angezeigt wird. |
cass_nodetool |
Stabilität | Bestätigt, dass der fehlerfreie Zustand des Clusters für Cassandra angezeigt wird. |
cass_replication |
Stabilität | Bestätigt den Replizierungsfaktor. |
compute_mode |
Stabilität | Bestätigt, dass der Rechenmodus für die GPUs entsprechend festgelegt ist. |
network |
Stabilität | Überprüft, ob verworfene Pakete im Netzwerk vorhanden sind. |
ecc |
Stabilität | Überprüft, ob auf den GPUs ECC-Fehler auftreten. |
gpu_api |
Stabilität | Bestätigt, dass die GPU-APIs übereinstimmen. |
pci_nvml |
Stabilität | Bestätigt, dass alle GPUs aufgezählt werden können. |
pci_p2p |
Stabilität | Stellt sicher, dass PCIe-P2P unterstützt wird. |
temperature |
Stabilität | Stellt sicher, dass die Temperatur der GPUs unter 100 Grad Celsius liegt. |
vcenter_check |
Stabilität | Stellt sicher, dass der Server eine Verbindung mit vCenter Server herstellen kann. |
xid |
Stabilität | Überprüft, ob GPU-Xid-Fehler vorhanden sind. |
bogomips |
Leistung | Validiert die Leistung. Die Metrik wird vom Linux-Kernel verwendet. |
hostmem |
Leistung | Stellt sicher, dass auf dem System ausreichend Hostarbeitsspeicher vorhanden ist. |
iface_compat |
Leistung | Stellt sicher, dass die Netzwerkkonfiguration gültig ist. |
memops |
Leistung | Stellt sicher, dass memops für die GPUs aktiviert ist. |
mtu |
Leistung | Stellt sicher, dass Jumbo-Frames für das Netzwerk aktiviert sind. |
nvidia_stats |
Leistung | Validiert die Statistiken für die GPUs. |
nvidia_topo |
Leistung | Validiert die Hosttopologie. |
pci_width |
Leistung | Überprüft, ob die GPUs die maximale PCIe-Lane-Kapazität verwenden. |
ulimit_n |
Leistung | Stellt sicher, dass die maximale Beschränkung für Dateideskriptoren geeignet ist. |
diskspace |
Systemressource | Bestätigt den freien Speicherplatz auf dem Server. |
install |
Systemressource | Validiert die Bitfusion-Installation. |
pciinfo |
Systemressource | Validiert die PCI-Konfiguration. |
shadow_mem |
Systemressource | Stellt sicher, dass mindestens dieselbe Menge an Systemspeicher vorhanden ist, da sich auf den GPUs Frame-Pufferspeicher befindet. |
cuda_version |
Softwareversion | Überprüft die CUDA-Version. |
libdep |
Softwareversion | Stellt sicher, dass die Softwareabhängigkeiten für Bitfusion installiert sind. |
driver_version |
Softwareversion | Verifiziert die NVIDIA-Treiberversion. |