VMware Private AI Foundation with NVIDIA wird zusätzlich zu VMware Cloud Foundation ausgeführt und bietet Unterstützung für KI-Arbeitslasten in VI-Arbeitslastdomänen mit vSphere IaaS control plane, das mithilfe von kubectl und VMware Aria Automation bereitgestellt wird.

Abbildung 1. Beispielarchitektur für VMware Private AI Foundation with NVIDIA


Tabelle 1. Komponenten zum Ausführen von KI-Arbeitslasten in VMware Private AI Foundation with NVIDIA
Komponente Beschreibung
GPU-aktivierte ESXi-Hosts ESXi-Hosts, die wie folgt konfiguriert wurden:
  • Sie verfügen über eine NVIDIA-GPU, die für VMware Private AI Foundation with NVIDIA unterstützt wird. Die GPU wird von den Arbeitslasten gemeinsam genutzt, indem der Mechanismus der Zeitaufteilung oder der Mehrfachinstanz-GPU (MIG) verwendet wird. Weitere Informationen finden Sie unter Unterstützte NVIDIA GPU-Geräte.
  • Installieren Sie den NVIDIA vGPU-Hosttreiber, sodass Sie vGPU-Profile basierend auf MIG oder der Zeitaufteilung verwenden können.
Supervisor Mindestens ein vSphere-Cluster, der für vSphere IaaS control plane aktiviert ist, sodass Sie virtuelle Maschinen und Container auf vSphere mithilfe der Kubernetes-API ausführen können. Ein Supervisor ist selbst ein Kubernetes-Cluster, der als Steuerungsebene zum Verwalten von Arbeitslastclustern und virtuellen Maschinen dient.
Harbor-Registrierung Sie können eine Harbor-Registrierung in folgenden Fällen verwenden:
  • In einer nicht verbundenen Umgebung als lokale Image-Registrierung, in der Sie die aus dem NVIDIA NGC-Katalog heruntergeladenen Container-Images hosten.
  • Zum Speichern validierter ML-Modelle.
NSX Edge-Cluster Ein Cluster aus NSX Edge-Knoten, der zweistufiges Nord-Süd-Routing für den Supervisor und die ausgeführten Arbeitslasten bereitstellt.

Das Tier-0-Gateway auf dem NSX Edge-Cluster befindet sich im Aktiv/Aktiv-Modus.

NVIDIA-Operatoren
  • NVIDIA GPU-Operator. Automatisiert die Verwaltung aller NVIDIA-Softwarekomponenten, die für die Bereitstellung von GPU für Container in einem Kubernetes-Cluster erforderlich sind. Der NVIDIA GPU-Operator wird auf einem TKG-Cluster bereitgestellt.
  • NVIDIA-Netzwerkoperator. Der NVIDIA-Netzwerkoperator hilft auch bei der Konfiguration der richtigen Mellanox-Treiber für Container mit virtuellen Funktionen für Hochgeschwindigkeitsnetzwerke, RDMA und GPUDirect.

    Der Netzwerkoperator arbeitet mit dem GPU-Operator zusammen, um GPUDirect RDMA auf kompatiblen Systemen zu aktivieren.

    Der NVIDIA-Netzwerkoperator wird auf einem TKG-Cluster bereitgestellt.

Vektordatenbank
  • Eine PostgreSQL-Datenbank, bei der die pgvector-Erweiterung aktiviert ist, sodass Sie sie in RAG-KI-Arbeitslasten (Retrieval Augmented Generation) verwenden können.
  • Eine Milvus-Datenbank als Referenzbeispiel.
  • NVIDIA-Lizenzierungsportal
  • NVIDIA Delegated License Service (DLS)
Sie verwenden das NVIDIA-Lizenzierungsportal, um ein Clientkonfigurationstoken zu generieren, mit dem Sie dem vGPU-Gasttreiber in der Deep Learning-VM und den GPU-Operatoren auf TKG-Clustern eine Lizenz zuweisen.

In einer getrennten Umgebung oder damit Ihre Arbeitslasten Lizenzinformationen erhalten, ohne eine Internetverbindung zu verwenden, hosten Sie die NVIDIA-Lizenzen lokal auf einer DLS-Appliance (Delegated License Service).

Inhaltsbibliothek Inhaltsbibliotheken speichern die Images für die Deep Learning-VMs und für die Tanzu Kubernetes-Versionen. Sie verwenden diese Images für die Bereitstellung von KI-Arbeitslasten innerhalb der VMware Private AI Foundation with NVIDIA-Umgebung. In einer verbundenen Umgebung beziehen die Inhaltsbibliotheken ihre Inhalte aus den von VMware verwalteten öffentlichen Inhaltsbibliotheken. In einer nicht verbundenen Umgebung müssen Sie die erforderlichen Images manuell hochladen oder von einem internen Spiegelserver der Inhaltsbibliothek abrufen.
NVIDIA GPU Cloud (NGC)-Katalog Ein Portal für GPU-optimierte Container für KI und maschinelles Lernen, die getestet wurden und für die lokale Ausführung auf unterstützten NVIDIA-GPUs zusätzlich zu VMware Private AI Foundation with NVIDIA bereit sind.

Als Cloud-Administrator verwenden Sie die Verwaltungskomponenten in VMware Cloud Foundation wie folgt:

Tabelle 2. Verwaltungskomponenten in VMware Private AI Foundation with NVIDIA
Verwaltungskomponente Beschreibung
Management vCenter Server Verwalten Sie die ESXi-Hosts, auf denen die Verwaltungskomponenten des SDDC ausgeführt werden, und unterstützen Sie die Integration mit anderen Lösungen zur Überwachung und Verwaltung der virtuellen Infrastruktur.
Management NSX Manager Stellen Sie Netzwerkdienste für die Verwaltungsarbeitslasten in VMware Cloud Foundation bereit.
SDDC Manager
  • Sie stellen eine GPU-fähige VI-Arbeitslastdomäne bereit, die auf vSphere Lifecycle Manager-Images basiert, und fügen dieser Domäne Cluster hinzu.
  • Bereitstellen eines NSX Edge-Clusters in VI-Arbeitslastdomänen für die Verwendung durch Supervisor-Instanzen und in der Verwaltungsdomäne für die VMware Aria Suite-Komponenten von VMware Private AI Foundation with NVIDIA.
  • Bereitstellen einer VMware Aria Suite Lifecycle-Instanz, die in das SDDC Manager-Repository integriert ist.
VI-Arbeitslastdomäne-vCenter Server Aktivieren und konfigurieren Sie einen Supervisor.
NSX Manager für VI-Arbeitslastdomäne SDDC Manager verwendet diese NSX Manager-Instanz, um NSX Edge-Cluster bereitzustellen und zu aktualisieren.
NSX Edge-Cluster (AVN) Platzieren Sie die VMware Aria Suite-Komponenten in einer vordefinierten Konfiguration von NSX-Segmenten (bezeichnet als virtuelle Anwendungsnetzwerke oder AVNs) für dynamisches Routing und Lastausgleich.
VMware Aria Suite Lifecycle Stellen Sie VMware Aria Automation und VMware Aria Operations bereit und aktualisieren Sie sie.
VMware Aria Automation Fügen Sie Self-Service-Katalogelemente für die Bereitstellung von KI-Arbeitslasten für DevOps-Ingenieure, Datenwissenschaftler und MLOps-Ingenieure hinzu.
VMware Aria Operations Überwachen Sie den GPU-Verbrauch in den GPU-fähigen Arbeitslastdomänen.
VMware Data Services Manager Erstellen Sie Vektordatenbanken, z. B. eine PostgreSQL-Datenbank mit der pgvector-Erweiterung.