Sie können AI-/ML-Arbeitslasten auf TKGS-Clustern mithilfe von vSphere with Tanzu und der NVIDIA vGPU-Technologie bereitstellen.

Ankündigen von TKGS-Unterstützung für KI-/ML-Arbeitslasten

Ab vSphere with Tanzu Version 7 Update 3 Monatliches Patch 1 können Sie rechenintensive Arbeitslasten für Tanzu Kubernetes-Cluster bereitstellen, die vom Tanzu Kubernetes Grid-Dienst zur Verfügung gestellt werden. In diesem Kontext handelt es sich bei einer rechenintensiven Arbeitslast um eine KI- (Künstliche Intelligenz) oder ML-Anwendung (Maschinelles Lernen), die die Verwendung eines Geräts für die GPU-Beschleunigung erfordert.

Zur Vereinfachung der Ausführung von KI-/ML-Arbeitslasten in einer Kubernetes-Umgebung ist VMware eine Partnerschaft mit NVIDIA zur Unterstützung der NVIDIA GPU-Cloud-Plattform auf vSphere with Tanzu eingegangen. Dies bedeutet, dass Sie Container-Images aus dem NGC-Katalog auf Tanzu Kubernetes-Clustern bereitstellen können, die vom Tanzu Kubernetes Grid-Dienst zur Verfügung gestellt werden.

Weitere Informationen zur gemeinsamen NVIDIA- und VMware-Architektur für KI-fähige Unternehmen finden Sie im Blog Accelerating Workloads on vSphere 7 with Tanzu - A Technical Preview of Kubernetes Clusters with GPUs.

Unterstützte vGPU-Modi

Zur Bereitstellung von KI-/ML-Arbeitslasten auf TKGS muss die Ubuntu-OVA verwendet werden, die über das vSphere with Tanzu-CDN (Content Delivery Network) verfügbar ist. TKGS unterstützt zwei Modi von GPU-Vorgängen: vGPU und vGPU mit NIC-Passthrough. In der Tabelle werden die beiden Modi detaillierter beschrieben.

Modus Konfiguration Beschreibung

NVIDIA + TKGS + Ubuntu + vGPU

NVIDIA vGPU

Das GPU-Gerät wird vom Treiber des NVIDIA-Hostmanagers virtualisiert, der auf jedem ESXi-Host installiert ist. Das GPU-Gerät wird dann von mehreren virtuellen NVIDIA vGPUs (virtual GPUs) gemeinsam genutzt.

Jede NVIDIA vGPU wird durch die Menge des Arbeitsspeichers auf dem GPU-Gerät definiert. Wenn das GPU-Gerät beispielsweise über eine Arbeitsspeichermenge (RAM) von insgesamt 32 GB verfügt, können Sie 8 vGPUs mit jeweils etwa 4 GB Arbeitsspeicher erstellen.

NVIDIA + TKGS + Ubuntu + vGPU + NIC-Passthrough

NVIDIA vGPU

und

Dynamic DirectPath IO

In derselben VM-Klasse, in der Sie das NVIDIA vGPU-Profil konfigurieren, integrieren Sie Unterstützung für ein Passthrough-Netzwerkgerät mit Dynamic DirectPath IO. In diesem Fall wird die VM-Platzierung von vSphere DRS festgelegt.

Erste Schritte

Wenn Sie vGPU mit NIC-Passthrough verwenden, erhalten Sie weitere Informationen auch in folgendem Thema: Nachtrag zum vSphere-Administrator für die Bereitstellung von KI-/ML-Arbeitslasten auf TKGS-Clustern (vGPU und dynamische DirectPath IO).

Wenn Sie den NVIDIA-DLS (Delegated Licensing Server) für Ihr NVAIE-Konto verwenden, erhalten Sie weitere Informationen auch in folgendem Thema: Nachtrag zum Cluster-Operator für die Bereitstellung von KI-/ML-Arbeitslasten auf TKGS-Clustern (DLS).