Die VMware Deep Learning VM-Images werden als Teil von VMware Private AI Foundation with NVIDIA bereitgestellt. Sie sind mit gängigen DL-Arbeitslasten vorkonfiguriert und werden von NVIDIA und VMware für die GPU-Beschleunigung in einer VMware Cloud Foundation-Umgebung optimiert und validiert.

VMware Deep Learning VM 1.2 | 9. Oktober 2024

Überprüfen Sie, ob Ergänzungen und Updates für diese Versionshinweise zur Verfügung stehen.

Inhaltsbibliothek

Deep Learning-VM-Images werden als vSphere VM-Vorlagen bereitgestellt, die von VMware in einer Inhaltsbibliothek gehostet und veröffentlicht werden. Sie können diese Images verwenden, um Deep Learning-VMs mithilfe des vSphere Client oder VMware Aria Automation bereitzustellen.

Die Inhaltsbibliothek mit Deep Learning-VM-Images für VMware Private AI Foundation with NVIDIA ist unter der URL https://packages.vmware.com/dl-vm/lib.json verfügbar. In einer verbundenen Umgebung erstellen Sie eine abonnierte Inhaltsbibliothek, die mit dieser URL verbunden ist. In einer getrennten Umgebung erstellen Sie eine lokale Inhaltsbibliothek, in der Sie Bilder aus der zentralen Inhaltsbibliothek hochladen.

Kompatibilität und Upgrade

Verwenden Sie die neueste VMware Deep Learning VM-Version, wenn sie von Ihrer Umgebung unterstützt wird.

Das Aktualisieren einer ausgeführten Deep Learning-VM auf ein höheres Image wird nicht unterstützt. Sie müssen eine neue Deep Learning-VM bereitstellen, indem Sie eine spätere Deep Learning-VM-Image-Version verwenden.

Installation

Sie stellen ein Deep Learning VM-Image aus einer Inhaltsbibliothek auf der vCenter Server-Instanz für die KI-fähige VI-Arbeitslastdomäne bereit. Sie können eine Deep Learning VM auf den folgenden Systemen bereitstellen:

  • Als Datenwissenschaftler, MLOps- oder DevOps-Ingenieur

    • Auf einem Supervisor in vSphere IaaS Control Plane mithilfe von VMware Aria Automation.

  • Als Cloud-Administrator

    • Direkt auf einem vSphere-Cluster

  • Als DevOps-Ingenieur

    • Auf einem Supervisor in vSphere IaaS Control Plane mithilfe von kubectl.

Weitere Informationen finden Sie unter Bereitstellen einer Deep Learning VM in VMware Private AI Foundation with NVIDIA.

VMware Deep Learning VM 1.2

Image-Snapshot

VMware Deep Learning VM 1.2 steht für die Verwendung mit VMware Cloud Foundation 5.2.1 zur Verfügung.

Snapshot

Datum der Veröffentlichung

Kompatible VMware Cloud Foundation-Version

common-container-nv-vgpu-ubuntu-2204-v20240814

9. Oktober 2024

VMware Cloud Foundation 5.2.1

Neuerungen

  • Das Deep Learning-VM-Image enthält die Broadcom-Lizenzvereinbarung und VMware Private AI Foundation with NVIDIA SPD (spezielle Programmdokumentation).

  • Die eingebettete Miniconda 24.3.0-Komponente wurde auf Miniforge3 24.3.0 aktualisiert.

  • Zusätzlich zu pytorch2.3.0_py3.12 können Sie mithilfe des OVF-Parameters Conda Environment Install auch die Conda-Umgebungen pytorch1.13.1_py3.10, tf2.16.1_py3.12 und tf1.15.5_py3.7 während der VM-Bereitstellung installieren.

  • Die Private AI Services-CLI (pais) 1.0.0 zum Speichern von ML-Modellen in einer zentralen Harbor-Registrierung steht jetzt zur Verfügung.

  • Zum Herunterladen des vGPU-Gasttreibers in einer verbundenen Umgebung muss jetzt nur eine NVIDIA AI Enterprise-Berechtigung vorliegen.

  • In einer verbundenen Umgebung werden Fehlermeldungen verbessert, die beim Herunterladen des vGPU-Gasttreibers angezeigt werden.

Unterstützte NVIDIA GPU-Geräte

VMware Deep Learning VM 1.2 unterstützt die folgenden GPUs auf Ihren ESXi-Hosts:

NVIDIA-Komponente

Unterstützte Option

NVIDIA GPUs

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

GPU-Freigabemodus

  • Zeitaufteilung

  • GPU mit mehreren Instanzen

Komponenten von VMware Deep Learning VM 1.2

Diese Version des Deep Learning VM-Images enthält die folgende Software:

Softwarekomponentenkategorie

Softwarekomponente

Version

Eingebettet

Kanonisches Ubuntu

22.04

NVIDIA-Container-Toolkit

1.15.0

Docker-Community-Engine

26.0.2

Miniforge

24.3.0-0 (Python 3.10)

VMware Private AI Services-CLI (pais)

1.0.0

Kann automatisch vorinstalliert werden

NVIDIA-vGPU-Gasttreiber

Entsprechend der Version des NVIDIA-vGPU-Hosttreibers

PyTorch Conda-Umgebung

2.3.0 (Python 3.12), 1.13.1 (Python 3.10)

TensorFlow Conda-Umgebung

2.16.1 (Python 3.12), 1.15.5 (Python 3.7)

Deep Learning(DL)-Arbeitslast von NVIDIA NGC

CUDA-Beispiel

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

Behobene Probleme

  • Mithilfe von cloud-init bereitgestellte Container werden als root ausgeführt.

  • Wenn die Deep Learning-VM neu gestartet wird, werden nur Protokollinformationen des letzten Startvorgangs in /var/log/dl.log angezeigt. Die Protokollinformationen der DL-Arbeitslast aus früheren Startvorgängen werden überschrieben.

  • Die Installation von Conda-Umgebungen schlägt fehl, wenn der OVF-Parameter des Kennworts festgelegt wurde.

VMware Deep Learning VM 1.1

Image-Snapshot

VMware Deep Learning VM 1.1 steht für die Verwendung mit VMware Cloud Foundation 5.2 zur Verfügung.

Snapshot

Datum der Veröffentlichung

Kompatible VMware Cloud Foundation-Version

common-container-nv-vgpu-ubuntu-2204-v20240613

23. Juli 2024

VMware Cloud Foundation 5.2

Neuerungen

  • Das Deep Learning VM-Image enthält jetzt eine integrierte Miniconda-Installation.

  • Das Deep Learning VM-Image enthält jetzt ein verifiziertes PyTorch Conda-Umgebungsmanifest.

  • Sie können den OVF-Parameter Conda Environment Install verwenden, um eine kommagetrennte Liste der Conda-Umgebungen anzugeben, die während der VM-Bereitstellung automatisch installiert werden sollen. Aktuell können Sie eine pytorch2.3_py3.12-Umgebung installieren.

  • Ausführlichere Protokolle zum Initialisierungsskript finden Sie unter /var/log/vgpu-install.log.

Unterstützte NVIDIA GPU-Geräte

VMware Deep Learning VM 1.1 unterstützt die folgenden GPUs auf Ihren ESXi-Hosts:

NVIDIA-Komponente

Unterstützte Option

NVIDIA GPUs

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

GPU-Freigabemodus

  • Zeitaufteilung

  • GPU mit mehreren Instanzen

Komponenten von VMware Deep Learning VM 1.1

Diese Version des Deep Learning VM-Images enthält die folgende Software:

Softwarekomponentenkategorie

Softwarekomponente

Version

Eingebettet

Kanonisches Ubuntu

22.04

NVIDIA-Container-Toolkit

1.15.0

Docker-Community-Engine

26.0.2

Miniconda

24.3.0-0 (Python 3.12)

Kann automatisch vorinstalliert werden

NVIDIA-vGPU-Gasttreiber

Entsprechend der Version des NVIDIA-vGPU-Hosttreibers

PyTorch Conda-Umgebung

2.3.0 (Python 3.12)

Deep Learning(DL)-Arbeitslast von NVIDIA NGC

CUDA-Beispiel

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

Behobene Probleme

  • Frühere Versionen des NVIDIA vGPU-Treibers werden nicht aus dem NVIDIA-Lizenzportal heruntergeladen.

  • Der GuestBootstrap-Status wird in bestimmten Fällen falsch angezeigt.

  • Der NVIDIA vGPU-Treiber kann aufgrund von Netzwerkproblemen unter Umständen nicht heruntergeladen werden.

  • Die während der Image-Erstellung verwendete SSH-Datei authorized_keys ist im Verzeichnis ~/.ssh/ verfügbar.

VMware Deep Learning VM 1.0.1

Image-Snapshot

VMware Deep Learning VM 1.0.1 steht für die Verwendung mit VMware Cloud Foundation 5.1.1 zur Verfügung.

Snapshot

Datum der Veröffentlichung

Kompatible VMware Cloud Foundation-Version

common-container-nv-vgpu-ubuntu-2204-v20240419

06. Mai 2024

VMware Cloud Foundation 5.1.1

Neuerungen

  • Die Versionen des NVIDIA Container Toolkit und der Docker Community Engine werden aktualisiert.

  • Die Beschreibung der OVF-Eigenschaften, die bei der Bereitstellung einer Deep Learning-VM mithilfe des OVF-Bereitstellungsassistenten angezeigt werden, wurde verbessert.

  • Das Download-URL-Format für vGPU-Gasttreiber für getrennte Umgebungen unterstützt jetzt Verzeichnisindexlisten, die von Webservern wie NGINX oder Apache HTTP Server generiert werden.

  • Ein Link zur Dokumentation der VMware Deep Learning VM wird im Ubuntu-Betriebssystem als „Meldung des Tages“ angezeigt.

Unterstützte NVIDIA GPU-Geräte

VMware Deep Learning VM 1.0.1 unterstützt die folgenden GPUs auf Ihren ESXi-Hosts:

NVIDIA-Komponente

Unterstützte Option

NVIDIA GPUs

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

GPU-Freigabemodus

  • Zeitaufteilung

  • GPU mit mehreren Instanzen

Komponenten von VMware Deep Learning VM 1.0.1

Diese Version des Deep Learning VM-Images enthält die folgende Software:

Softwarekomponentenkategorie

Softwarekomponente

Version

Eingebettet

Kanonisches Ubuntu

22.04

NVIDIA-Container-Toolkit

1.15.0

Docker-Community-Engine

26.0.2

Kann automatisch vorinstalliert werden

NVIDIA-vGPU-Gasttreiber

Entsprechend der Version des NVIDIA-vGPU-Hosttreibers

Deep Learning(DL)-Arbeitslast von NVIDIA NGC

CUDA-Beispiel

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

Behobene Probleme

  • Die Anmeldung bei einer privaten Docker-Container-Registrierung ist nicht möglich, wenn das in den OVF-Eigenschaften der Deep Learning-VM festgelegte Registrierungskennwort Sonderzeichen wie & < > " ' enthält.

  • Die OVF-Eigenschaften für eine sekundäre Containerregistrierung werden nicht verarbeitet.

  • Die Ausführung von apt update schlägt aufgrund von Fehlern und Sicherheitswarnungen fehl.

  • Der Ausführungsstatus des get-vgpu-driver.sh-Skripts, das beim Starten der VM ausgeführt wird, wird in der Einstellung guestinfo.vmservice.bootstrap.condition von VM Tools nicht widerspiegelt.

VMware Deep Learning VM 1.0

Image-Snapshot

VMware Deep Learning VM 1.0 steht für die Verwendung mit VMware Cloud Foundation 5.1.1 zur Verfügung.

Snapshot

Datum der Veröffentlichung

Kompatible VMware Cloud Foundation-Version

common-container-nv-vgpu-ubuntu-2204-v20240217

26. März 2024

VMware Cloud Foundation 5.1.1

Unterstützte NVIDIA GPU-Geräte

VMware Deep Learning VM 1.0 unterstützt die folgenden GPUs auf Ihren ESXi-Hosts:

NVIDIA-Komponente

Unterstützte Option

NVIDIA GPUs

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

GPU-Freigabemodus

  • Zeitaufteilung

  • GPU mit mehreren Instanzen

Komponenten von VMware Deep Learning VM 1.0

Die anfängliche Version des Deep Learning-VM-Images enthält die folgende Software:

Softwarekomponentenkategorie

Softwarekomponente

Version

Eingebettet

Kanonisches Ubuntu

22.04

NVIDIA-Container-Toolkit

1.13.5

Docker-Community-Engine

25.03

Kann automatisch vorinstalliert werden

NVIDIA-vGPU-Gasttreiber

Entsprechend der Version des NVIDIA-vGPU-Hosttreibers

Deep Learning(DL)-Arbeitslast von NVIDIA NGC

CUDA-Beispiel

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

Lizenzinformationen

VMware Deep Learning VM-Versionen sind unter einer VMware Private AI Foundation with NVIDIA-Lizenz verfügbar. Weitere Informationen finden Sie im Handbuch VMware Private AI Foundation with NVIDIA.

Dokumentation

Im Handbuch VMware Private AI Foundation with NVIDIA finden Sie eine Übersicht und Anleitungen zum Ausführen von Deep Learning-VMs in einer VMware Cloud Foundation-Umgebung.

check-circle-line exclamation-circle-line close-line
Scroll to top icon