Le immagini di VMware Deep Learning VM vengono fornite come parte di VMware Private AI Foundation with NVIDIA. Sono preconfigurate con i carichi di lavoro di DL più comuni e sono ottimizzate e convalidate da NVIDIA e VMware per l'accelerazione GPU in un ambiente di VMware Cloud Foundation.

VMware Deep Learning VM 1.2 | 9 OTT 2024

Verificare la disponibilità di informazioni aggiuntive e aggiornamenti relativi a queste note di rilascio.

Libreria di contenuti

Le immagini di Deep Learning VM vengono fornite come modelli di macchine virtuali di vSphere, ospitati e pubblicati da VMware in una libreria di contenuti. È possibile utilizzare queste immagini per distribuire Deep Learning VM mediante vSphere Client o VMware Aria Automation.

La libreria di contenuti con le immagini di Deep Learning VM per VMware Private AI Foundation with NVIDIA è disponibile all'URL https://packages.vmware.com/dl-vm/lib.json. In un ambiente connesso, si crea una libreria di contenuti con sottoscrizione connessa a questo URL, mentre in un ambiente disconnesso, si crea una libreria di contenuti locale in cui si caricano le immagini della libreria di contenuti centrale.

Compatibilità e aggiornamento

Utilizzare la versione più recente di VMware Deep Learning VM, se è supportata dall'ambiente in uso.

L'aggiornamento di Deep Learning VM in esecuzione a un'immagine successiva non è supportato. È necessario distribuire una nuova istanza di Deep Learning VM utilizzando una versione successiva dell'immagine di Deep Learning VM.

Installazione

Distribuire un'immagine di Deep Learning VM da una libreria di contenuti nell'istanza di vCenter Server per il dominio del carico di lavoro VI pronto per l'IA. È possibile distribuire un'istanza di Deep Learning VM nei sistemi seguenti:

  • In qualità di data scientist oppure tecnico MLOps o DevOps

    • In un supervisore in vSphere IaaS Control Plane utilizzando VMware Aria Automation.

  • In qualità di amministratore del cloud

    • Direttamente in un cluster vSphere

  • In qualità di tecnico DevOps

    • In un supervisore in vSphere IaaS Control Plane utilizzando kubectl.

Vedere Distribuzione di un'istanza di Deep Learning VM in VMware Private AI Foundation with NVIDIA.

VMware Deep Learning VM 1.2

Snapshot immagine

VMware Deep Learning VM 1.2 è disponibile per l'uso con VMware Cloud Foundation 5.2.1.

Snapshot

Data di rilascio

Versione di VMware Cloud Foundation compatibile

common-container-nv-vgpu-ubuntu-2204-v20240814

9 OTT 2024

VMware Cloud Foundation 5.2.1

Novità

  • L'immagine di Deep Learning VM include l'EULA Broadcom e VMware Private AI Foundation with NVIDIA SPD (documentazione specifica del programma).

  • Il componente Miniconda 24.3.0 incorporato è stato aggiornato a Miniforge3 24.3.0.

  • Oltre a pytorch2.3.0_py3.12, utilizzando il parametro OVF Conda Environment Install è possibile fare in modo che gli ambienti Conda pytorch1.13.1_py3.10, tf2.16.1_py3.12 e tf1.15.5_py3.7 vengano installati durante la distribuzione della macchina virtuale.

  • È ora disponibile la versione 1.0.0 della CLI di Private AI Services (pais) per l'archiviazione dei modelli ML in un registro Harbor centrale.

  • In un ambiente connesso, il download del driver guest della vGPU ora richiede solo il permesso di NVIDIA AI Enterprise.

  • In un ambiente connesso, i messaggi di errore visualizzati durante il download del driver guest vGPU sono stati migliorati.

Dispositivi GPU NVIDIA supportati

VMware Deep Learning VM 1.2 supporta le GPU seguenti negli host ESXi:

Componente NVIDIA

Opzione supportata

GPU NVIDIA

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

Modalità di condivisione GPU

  • Slicing temporale

  • GPU a più istanze

Componenti di VMware Deep Learning VM 1.2

Questa versione dell'immagine di Deep Learning VM contiene il software seguente:

Categoria del componente software

Componente software

Versione

Incorporato

Canonical Ubuntu

22.04

NVIDIA Container Toolkit

1.15.0

Docker Community Engine

26.0.2

Miniforge

24.3.0-0 (Python 3.10)

CLI di VMware Private AI Services (pais)

1.0.0

Può essere preinstallato automaticamente

Driver guest NVIDIA vGPU

In base alla versione del driver host di NVIDIA vGPU

Ambiente PyTorch Conda

2.3.0 (Python 3.12), 1.13.1 (Python 3.10)

Ambiente TensorFlow Conda

2.16.1 (Python 3.12), 1.15.5 (Python 3.7)

Carico di lavoro Deep Learning (DL) di NVIDIA NGC

Esempio di CUDA

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

Problemi risolti

  • I container distribuiti utilizzando cloud-init vengono eseguiti come root.

  • Quando Deep Learning VM viene riavviato, in /var/log/dl.log sono visibili solo le informazioni del registro dell'avvio più recente. Le informazioni del registro del carico di lavoro DL dagli avvii precedenti vengono sovrascritte.

  • L'installazione degli ambienti Conda non riesce se è impostato il parametro OVF della password.

VMware Deep Learning VM 1.1

Snapshot immagine

VMware Deep Learning VM 1.1 è disponibile per l'uso con VMware Cloud Foundation 5.2.

Snapshot

Data di rilascio

Versione di VMware Cloud Foundation compatibile

common-container-nv-vgpu-ubuntu-2204-v20240613

23 LUG 2024

VMware Cloud Foundation 5.2

Novità

  • L'immagine di Deep Learning VM ora contiene un'installazione Miniconda integrata.

  • L'immagine di Deep Learning VM ora contiene un manifesto dell'ambiente PyTorch Conda verificato.

  • È possibile utilizzare il parametro OVF Conda Environment Install per specificare un elenco di ambienti Conda separati da virgole da installare automaticamente durante la distribuzione della macchina virtuale. Al momento è possibile installare un ambiente pytorch2.3_py3.12.

  • Registri più dettagliati sullo script di inizializzazione sono disponibili in /var/log/vgpu-install.log.

Dispositivi GPU NVIDIA supportati

VMware Deep Learning VM 1.1 supporta le GPU seguenti negli host ESXi:

Componente NVIDIA

Opzione supportata

GPU NVIDIA

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

Modalità di condivisione GPU

  • Slicing temporale

  • GPU a più istanze

Componenti di VMware Deep Learning VM 1.1

Questa versione dell'immagine di Deep Learning VM contiene il software seguente:

Categoria del componente software

Componente software

Versione

Incorporato

Canonical Ubuntu

22.04

NVIDIA Container Toolkit

1.15.0

Docker Community Engine

26.0.2

Miniconda

24.3.0-0 (Python 3.12)

Può essere preinstallato automaticamente

Driver guest NVIDIA vGPU

In base alla versione del driver host di NVIDIA vGPU

Ambiente PyTorch Conda

2.3.0 (Python 3.12)

Carico di lavoro Deep Learning (DL) di NVIDIA NGC

Esempio di CUDA

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

Problemi risolti

  • Le versioni precedenti del driver NVIDIA vGPU non vengono scaricate dal portale delle licenze NVIDIA.

  • In alcuni casi, lo stato di GuestBootstrap viene visualizzato in modo errato.

  • È possibile che il download del driver NVIDIA vGPU non riesca a causa di problemi di rete.

  • Il file SSH authorized_keys, utilizzato durante il processo di creazione dell'immagine, è disponibile nella directory ~/.ssh/.

VMware Deep Learning VM 1.0.1

Snapshot immagine

VMware Deep Learning VM 1.0.1 è disponibile per l'uso con VMware Cloud Foundation 5.1.1.

Snapshot

Data di rilascio

Versione di VMware Cloud Foundation compatibile

common-container-nv-vgpu-ubuntu-2204-v20240419

6 MAGGIO 2024

VMware Cloud Foundation 5.1.1

Novità

  • Le versioni di NVIDIA Container Toolkit e Docker Community Engine sono state aggiornate.

  • La descrizione delle proprietà OVF visualizzata quando si distribuisce Deep Learning VM tramite la distribuzione guidata di OVF è stata migliorata.

  • Il formato dell'URL di download per i driver guest vGPU per gli ambienti disconnessi ora supporta gli elenchi degli indici delle directory, generati dai server Web, ad esempio NGINX o Apache HTTP Server.

  • Un collegamento alla documentazione di VMware Deep Learning VM viene visualizzato come "messaggio del giorno" nel sistema operativo Ubuntu.

Dispositivi GPU NVIDIA supportati

VMware Deep Learning VM 1.0.1 supporta le GPU seguenti negli host ESXi:

Componente NVIDIA

Opzione supportata

GPU NVIDIA

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

Modalità di condivisione GPU

  • Slicing temporale

  • GPU a più istanze

Componenti di VMware Deep Learning VM 1.0.1

Questa versione dell'immagine di Deep Learning VM contiene il software seguente:

Categoria del componente software

Componente software

Versione

Incorporato

Canonical Ubuntu

22.04

NVIDIA Container Toolkit

1.15.0

Docker Community Engine

26.0.2

Può essere preinstallato automaticamente

Driver guest NVIDIA vGPU

In base alla versione del driver host di NVIDIA vGPU

Carico di lavoro Deep Learning (DL) di NVIDIA NGC

Esempio di CUDA

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

Problemi risolti

  • Non è possibile accedere a un registro di container privato Docker se la password del registro impostata nelle proprietà OVF di Deep Learning VM contiene caratteri speciali, ad esempio & < > " '.

  • Le proprietà OVF per un registro di container secondario non vengono elaborate.

  • L'esecuzione di apt update non riesce a causa di errori e avvisi di sicurezza.

  • Lo stato di esecuzione dello script get-vgpu-driver.sh, eseguito all'avvio della macchina virtuale, non viene riportato nell'impostazione guestinfo.vmservice.bootstrap.condition di VM Tools.

VMware Deep Learning VM 1.0

Snapshot immagine

VMware Deep Learning VM 1.0 è disponibile per l'uso con VMware Cloud Foundation 5.1.1.

Snapshot

Data di rilascio

Versione di VMware Cloud Foundation compatibile

common-container-nv-vgpu-ubuntu-2204-v20240217

26 MARZO 2024

VMware Cloud Foundation 5.1.1

Dispositivi GPU NVIDIA supportati

VMware Deep Learning VM 1.0 supporta le GPU seguenti negli host ESXi:

Componente NVIDIA

Opzione supportata

GPU NVIDIA

  • NVIDIA A100

  • NVIDIA L40S

  • NVIDIA H100

Modalità di condivisione GPU

  • Slicing temporale

  • GPU a più istanze

Componenti di VMware Deep Learning VM 1.0

La versione iniziale dell'immagine di Deep Learning VM contiene il software seguente:

Categoria del componente software

Componente software

Versione

Incorporato

Canonical Ubuntu

22.04

NVIDIA Container Toolkit

1.13.5

Docker Community Engine

25.03

Può essere preinstallato automaticamente

Driver guest NVIDIA vGPU

In base alla versione del driver host di NVIDIA vGPU

Carico di lavoro Deep Learning (DL) di NVIDIA NGC

Esempio di CUDA

-

PyTorch

-

TensorFlow

-

DCGM Exporter

-

Triton Inference Server

-

NVIDIA RAG

-

Informazioni sulla licenza

Le versioni di VMware Deep Learning VM sono disponibili con una licenza di VMware Private AI Foundation with NVIDIA. Vedere Guida di VMware Private AI Foundation with NVIDIA.

Documentazione

Per una panoramica e istruzioni dettagliate sull'esecuzione di Deep Learning VM in un ambiente VMware Cloud Foundation, vedere Guida di VMware Private AI Foundation with NVIDIA.

check-circle-line exclamation-circle-line close-line
Scroll to top icon