Anforderungen für die Bereitstellung von VMware Private AI Foundation with NVIDIA

Sie stellen Komponenten von VMware Private AI Foundation with NVIDIA in Ihrer VMware Cloud Foundation-Umgebung in einer VI-Arbeitslastdomäne bereit, in der bestimmte NVIDIA-Komponenten installiert sein müssen.

Erforderliche VMware-Softwareversionen

Weitere Informationen finden Sie unter VMware-Komponenten in VMware Private AI Foundation with NVIDIA.

Unterstützte NVIDIA GPU-Geräte

Bevor Sie mit der Verwendung von VMware Private AI Foundation with NVIDIA beginnen, stellen Sie sicher, dass die GPUs auf Ihren ESXi-Hosts von VMware von Broadcom unterstützt werden:

Tabelle 1. Unterstützte NVIDIA-Komponenten für VMware Private AI Foundation with NVIDIA
NVIDIA-Komponente	Unterstützte Optionen
NVIDIA GPUs	NVIDIA A100 NVIDIA L40S NVIDIA H100
GPU-Freigabemodus	Zeitaufteilung GPU mit mehreren Instanzen (MIG)

Erforderliche NVIDIA-Software

Das NVIDIA GPU-Gerät muss die aktuellen vGPU-Profile von NVIDIA AI Enterprise (NVAIE) unterstützen. Weitere Informationen finden Sie in der Dokumentation Von der NVIDIA Virtual GPU-Software unterstützte GPUs.

NVIDIA vGPU-Hosttreiber (einschließlich VIB für ESXi-Hosts), der mit Ihrer VMware Cloud Foundation-Version kompatibel ist. Weitere Informationen finden Sie unter Versionshinweise zur virtuellen GPU-Software für VMware vSphere.
NVIDIA GPU-Operator, der mit der Kubernetes-Version der bereitgestellten TKG-Cluster kompatibel ist. Weitere Informationen finden Sie unter Versionshinweise zum NVIDIA GPU-Operator und Versionshinweise zu VMware Tanzu Kubernetes-Versionen.

Erforderliches VMware Cloud Foundation-Setup

Bevor Sie VMware Private AI Foundation with NVIDIA bereitstellen, muss eine bestimmte Konfiguration in VMware Cloud Foundation verfügbar sein.

VMware Cloud Foundation auf vSAN ReadyNodes™.
Eine VMware Cloud Foundation-Lizenz.
Eine VMware Private AI Foundation with NVIDIA-Add-On-Lizenz.
Sie benötigen die VMware Private AI Foundation with NVIDIA-Add-On-Lizenz, um auf die folgenden Funktionen zuzugreifen:
- Private AI-Einrichtung in VMware Aria Automation für Katalogelemente zwecks einfacher Bereitstellung von GPU-beschleunigten Deep Learning-VMs und TKG-Clustern.
- Bereitstellung von PostgreSQL-Datenbanken mit der pgvector-Erweiterung mit Enterprise-Unterstützung.
- Bereitstellen und Verwenden des Deep Learning-VM-Images, das von VMware von Broadcom bereitgestellt wird.
- Workflow für geführte Bereitstellungen im vSphere Client.
Sie können KI-Arbeitslasten mit und ohne aktivierten Supervisor bereitstellen und die GPU-Metriken in vCenter Server und VMware Aria Operations unter der VMware Cloud Foundation-Lizenz verwenden.
Sie fügen die VMware Private AI Foundation with NVIDIA-Lizenz als Lösungslizenz zum Lizenzverwaltungssystem auf dem Management vCenter Server hinzu. Sie können die Lizenz folgendermaßen hinzufügen:
- Bei erstmaliger Verwendung des Workflows für geführte Bereitstellungen im vSphere Client.
- Mithilfe der Benutzeroberfläche für die Lizenzverwaltung im vSphere Client. Weitere Informationen finden Sie unter Verwalten von vSphere-Lizenzen.
Lizenziertes NVIDIA vGPU-Produkt, einschließlich der VIB-Datei des Hosttreibers für ESXi-Hosts und der Treiber des Gastbetriebssystems. Weitere Informationen finden Sie in der Dokumentation Von der NVIDIA Virtual GPU-Software unterstützte GPUs.
Die VIB-Datei des NVIDIA vGPU-Hosttreibers, die von https://nvid.nvidia.com/ heruntergeladen wurde
Ein vSphere Lifecycle Manager-Image mit der VIB-Datei des in SDDC Manager verfügbaren vGPU-Hostmanagertreibers. Weitere Informationen finden Sie unter Verwalten von vSphere Lifecycle Manager-Images in VMware Cloud Foundation.
Mindestens 3 GPU-aktivierte ESXi-Hosts, die in den Standardcluster einer VI-Arbeitslastdomäne aufgenommen werden sollen.
Der NVIDIA vGPU-Hosttreiber ist auf jedem ESXi-Host im Cluster für KI-Arbeitslasten installiert und für vGPU konfiguriert.
1. Aktivieren Sie auf jedem ESXi-Host SR-IOV im BIOS und auf den Grafikgeräten für KI-Vorgänge direkt freigegeben.
  Informationen zum Konfigurieren von SR-IOV finden Sie in der Dokumentation Ihres Hardwareanbieters. Informationen zum Konfigurieren der Option „Direkt freigegeben“ auf Grafikgeräten finden Sie unter Konfigurieren von virtuellen Grafiken in vSphere.
2. Installieren Sie den NVIDIA vGPU-Hosttreiber auf jedem ESXi-Host anhand einer der folgenden Vorgehensweisen:
  - Installieren Sie den Treiber auf jedem Host und fügen Sie die VIB-Datei des Treibers zum vSphere Lifecycle-Image für den Cluster hinzu.
    Weitere Informationen finden Sie in der Kurzanleitung für NVIDIA Virtual GPU-Software.
  - Fügen Sie die VIB-Datei des Treibers zum vSphere Lifecycle-Image für den Cluster hinzu und standardisieren Sie die Hosts.
3. Wenn Sie die Option „GPU mit mehreren Instanzen (MIG)“ verwenden möchten, aktivieren Sie sie auf jedem ESXi-Host im Cluster.
  Weitere Informationen finden Sie unter NVIDIA MIG-Benutzerhandbuch.