Sie können neben Leistung und Stabilität auch die Systemressourcen und Softwareversionen eines vSphere Bitfusion-Servers überprüfen, indem Sie eine Integritätsprüfung durchführen.

Sie können den Integritätsstatus eines ausgewählten vSphere Bitfusion-Servers überprüfen und gegebenenfalls Fehlerbehebung durchführen. Bei der Integritätsprüfung werden Leistung und Stabilität sowie die Systemressourcen und Softwareversionen eines ausgewählten vSphere Bitfusion-Servers und die vCenter Server-Umgebung des Servers analysiert. Bei einer Integritätsprüfung können folgende Status zurückgegeben werden: „Bestanden“, „Grenzwertig“ und „Schwerwiegend“.

Bei einer Integritätsprüfung wird beispielsweise sichergestellt, dass alle Knoten ausgeführt werden, genügend freier Speicher verfügbar und die Verbindung mit vCenter Server hergestellt ist. Weitere Informationen zum Anzeigen der Liste aller verfügbaren Integritätsprüfungen finden Sie unter Liste der Integritätsprüfungen in vSphere Bitfusion.

Indem Sie im folgenden Verfahren eine Integritätsprüfung deaktivieren, können Sie die Integritätsprüfungseinstellungen nur für den spezifischen vSphere Bitfusion-Server ändern. Eine deaktivierte Integritätsprüfung wird weiterhin im Hintergrund durchgeführt. Der Status der Prüfung hat jedoch keinen Einfluss auf den allgemeinen Integritätsstatus des auf der Registerkarte Server angezeigten Servers. Sie können die globalen Integritätsprüfungseinstellungen für alle vSphere Bitfusion-Server auf der Registerkarte Einstellungen > Globale Standardeinstellungen des Servers ändern.

Prozedur

  1. Wählen Sie im vSphere Client Menü (vSphere Client-Menüsymbol) > Bitfusion aus.
  2. Wählen Sie auf der Registerkarte Server einen Server aus der Liste aus.
  3. Wählen Sie im Dropdown-Menü Aktionen die Option Integrität aus.
    Das Dialogfeld Systemzustandsprotokolle wird mit den Ergebnissen der Integritätsprüfungen geöffnet. Der Status, Typ, Name und die Details der Prüfung werden angezeigt.
  4. (Optional) Klicken Sie zum Deaktivieren einer bestimmten Integritätsprüfung auf die Umschaltfläche.
  5. Klicken Sie auf Speichern und beenden.

Nächste Maßnahme

Liste der Integritätsprüfungen in vSphere Bitfusion

vSphere Bitfusion führt die folgenden Prüfungen durch, wenn die Integritätsprüfung eines Servers über das vSphere Bitfusion-Plug-In initiiert wird.

Liste der Integritätsprüfungen

Name Typ Beschreibung
cass_buckets Stabilität Validiert die von Cassandra verwendete Bucket-Zuordnung, um Nutzungsdaten und andere Elemente zu speichern.
cass_node_num Stabilität Bestätigt, dass für Cassandra und Bitfusion dieselbe Anzahl an Servern im Cluster angezeigt wird.
cass_nodetool Stabilität Bestätigt, dass der fehlerfreie Zustand des Clusters für Cassandra angezeigt wird.
cass_replication Stabilität Bestätigt den Replizierungsfaktor.
compute_mode Stabilität Bestätigt, dass der Rechenmodus für die GPUs entsprechend festgelegt ist.
network Stabilität Überprüft, ob verworfene Pakete im Netzwerk vorhanden sind.
ecc Stabilität Überprüft, ob auf den GPUs ECC-Fehler auftreten.
gpu_api Stabilität Bestätigt, dass die GPU-APIs übereinstimmen.
pci_nvml Stabilität Bestätigt, dass alle GPUs aufgezählt werden können.
pci_p2p Stabilität Stellt sicher, dass PCIe-P2P unterstützt wird.
temperature Stabilität Stellt sicher, dass die Temperatur der GPUs unter 100 Grad Celsius liegt.
vcenter_check Stabilität Stellt sicher, dass der Server eine Verbindung mit vCenter Server herstellen kann.
xid Stabilität Überprüft, ob GPU-Xid-Fehler vorhanden sind.
bogomips Leistung Validiert die Leistung. Die Metrik wird vom Linux-Kernel verwendet.
hostmem Leistung Stellt sicher, dass auf dem System ausreichend Hostarbeitsspeicher vorhanden ist.
iface_compat Leistung Stellt sicher, dass die Netzwerkkonfiguration gültig ist.
memops Leistung Stellt sicher, dass memops für die GPUs aktiviert ist.
mtu Leistung Stellt sicher, dass Jumbo-Frames für das Netzwerk aktiviert sind.
nvidia_stats Leistung Validiert die Statistiken für die GPUs.
nvidia_topo Leistung Validiert die Hosttopologie.
pci_width Leistung Überprüft, ob die GPUs die maximale PCIe-Lane-Kapazität verwenden.
ulimit_n Leistung Stellt sicher, dass die maximale Beschränkung für Dateideskriptoren geeignet ist.
diskspace Systemressource Bestätigt den freien Speicherplatz auf dem Server.
install Systemressource Validiert die Bitfusion-Installation.
pciinfo Systemressource Validiert die PCI-Konfiguration.
shadow_mem Systemressource Stellt sicher, dass mindestens dieselbe Menge an Systemspeicher vorhanden ist, da sich auf den GPUs Frame-Pufferspeicher befindet.
cuda_version Softwareversion Überprüft die CUDA-Version.
libdep Softwareversion Stellt sicher, dass die Softwareabhängigkeiten für Bitfusion installiert sind.
driver_version Softwareversion Verifiziert die NVIDIA-Treiberversion.