Requisiti per la distribuzione di VMware Private AI Foundation with NVIDIA

Distribuire i componenti di VMware Private AI Foundation with NVIDIA nell'ambiente VMware Cloud Foundation in un dominio del carico di lavoro VI in cui devono essere installati determinati componenti NVIDIA.

Versioni del software VMware richieste

Vedere Componenti di VMware in VMware Private AI Foundation with NVIDIA.

Dispositivi GPU NVIDIA supportati

Prima di iniziare a utilizzare VMware Private AI Foundation with NVIDIA, assicurarsi che le GPU negli host ESXi siano supportate da VMware by Broadcom:

Tabella 1. Componenti NVIDIA supportati per VMware Private AI Foundation with NVIDIA
Componente NVIDIA	Opzioni supportate
GPU NVIDIA	NVIDIA A100 NVIDIA L40S NVIDIA H100
Modalità di condivisione GPU	Slicing temporale Multi-Instance GPU (MIG)

Software NVIDIA richiesto

Il dispositivo GPU deve supportare i profili vGPU NVIDIA AI Enterprise (NVAIE) più recenti. Per istruzioni, vedere il documento GPU supportate da NVIDIA Virtual GPU Software.

Driver host della vGPU NVIDIA (incluso il VIB per gli host ESXi) compatibile con la versione di VMware Cloud Foundation in uso. Vedere Note di rilascio di Virtual GPU Software per VMware vSphere.
NVIDIA GPU Operator compatibile con la versione di Kubernetes dei cluster TKG distribuiti. Vedere Note di rilascio di NVIDIA GPU Operator e Note di rilascio delle versioni di VMware Tanzu Kubernetes.

Configurazione di VMware Cloud Foundation necessaria

Prima di distribuire VMware Private AI Foundation with NVIDIA, è necessario che in VMware Cloud Foundation sia disponibile una configurazione specifica.

VMware Cloud Foundation in vSAN ReadyNodes™.
Licenza di VMware Cloud Foundation.
Licenza del componente aggiuntivo VMware Private AI Foundation with NVIDIA.
Per accedere alle funzionalità seguenti, è necessaria la licenza del componente aggiuntivo VMware Private AI Foundation with NVIDIA:
- Configurazione di Private AI in VMware Aria Automation per gli elementi catalogo, per semplificare il provisioning di Deep Learning VM con accelerazione GPU e dei cluster TKG.
- Provisioning dei database PostgreSQL con l'estensione pgvector con il supporto Enterprise.
- Distribuzione e utilizzo dell'immagine di Deep Learning VM fornita da VMware by Broadcom.
- Workflow della distribuzione guidata in vSphere Client.
È possibile distribuire carichi di lavoro AI con e senza un supervisore abilitato e utilizzare le metriche di GPU in vCenter Server e VMware Aria Operations con la licenza di VMware Cloud Foundation.
Aggiungere la licenza di VMware Private AI Foundation with NVIDIA come licenza della soluzione nel sistema di gestione delle licenze nel vCenter Server di gestione. È possibile aggiungere la licenza in uno dei modi seguenti:
- Quando si utilizza per la prima volta il workflow della distribuzione guidata in vSphere Client.
- Utilizzando l'interfaccia utente di gestione delle licenze in vSphere Client. Vedere Gestione delle licenze vSphere.
Prodotto NVIDIA vGPU con licenza che include il file VIB del driver host per gli host ESXi e i driver del sistema operativo guest. Per istruzioni, vedere il documento GPU supportate da NVIDIA Virtual GPU Software.
File VIB del driver host di NVIDIA vGPU scaricato da https://nvid.nvidia.com/
Immagine di vSphere Lifecycle Manager con il file VIB del driver vGPU Host Manager disponibile in SDDC Manager. Vedere Gestione delle immagini di vSphere Lifecycle Manager in VMware Cloud Foundation.
Almeno 3 host ESXi abilitati per la GPU da includere nel cluster predefinito di un dominio del carico di lavoro VI.
Driver host NVIDIA vGPU installato e vGPU configurata in ogni host ESXi del cluster per i carichi di lavoro AI.
1. In ogni host ESXi, abilitare SR-IOV nel BIOS e Shared Direct nei dispositivi grafici per le operazioni di AI.
  Per informazioni sulla configurazione di SR-IOV, vedere la documentazione del fornitore dell'hardware. Per informazioni sulla configurazione di Shared Direct nei dispositivi grafici, vedere Configurazione della grafica virtuale in vSphere.
2. Installare il driver host di NVIDIA vGPU in ogni host ESXi in uno dei modi seguenti:
  - Installare il driver in ogni host e aggiungere il file VIB del driver all'immagine di vSphere Lifecycle per il cluster.
    Vedere Guida rapida del software NVIDIA Virtual GPU.
  - Aggiungere il file VIB del driver all'immagine di vSphere Lifecycle per il cluster e correggere gli host.
3. Se si desidera utilizzare la condivisione MIG (Multi-Instance GPU), abilitarla in ogni host ESXi nel cluster.
  Vedere Guida per l'utente di NVIDIA MIG.