Requisiti per la distribuzione di VMware Private AI Foundation with NVIDIA

Distribuire i componenti di VMware Private AI Foundation with NVIDIA nell'ambiente VMware Cloud Foundation in un dominio del carico di lavoro VI in cui devono essere installati determinati componenti NVIDIA.

Versioni del software VMware richieste

Vedere Componenti di VMware in VMware Private AI Foundation with NVIDIA.

Dispositivi GPU NVIDIA supportati

Prima di iniziare a utilizzare VMware Private AI Foundation with NVIDIA, assicurarsi che le GPU negli host ESXi siano supportate da VMware by Broadcom:

Tabella 1. Componenti NVIDIA supportati per VMware Private AI Foundation with NVIDIA
Componente NVIDIA	Opzioni supportate
GPU NVIDIA	NVIDIA A100 NVIDIA L40S NVIDIA H100
Modalità di condivisione GPU	Slicing temporale Multi-Instance GPU (MIG)

Software NVIDIA richiesto

Il dispositivo GPU deve supportare i profili vGPU NVIDIA AI Enterprise (NVAIE) più recenti. Per istruzioni, vedere il documento GPU supportate da NVIDIA Virtual GPU Software.

Driver host della vGPU NVIDIA (incluso il VIB per gli host ESXi) compatibile con la versione di VMware Cloud Foundation in uso. Vedere Note di rilascio di Virtual GPU Software per VMware vSphere.
NVIDIA GPU Operator compatibile con la versione di Kubernetes dei cluster TKG distribuiti. Vedere Note di rilascio di NVIDIA GPU Operator e Note di rilascio delle versioni di VMware Tanzu Kubernetes.

Configurazione di VMware Cloud Foundation necessaria

Prima di distribuire VMware Private AI Foundation with NVIDIA, è necessario che in VMware Cloud Foundation sia disponibile una configurazione specifica.

Licenza di VMware Cloud Foundation.
Licenza del componente aggiuntivo VMware Private AI Foundation with NVIDIA.
Prodotto NVIDIA vGPU con licenza che include il file VIB del driver host per gli host ESXi e i driver del sistema operativo guest. Per istruzioni, vedere il documento GPU supportate da NVIDIA Virtual GPU Software.
File VIB del driver host di NVIDIA vGPU scaricato da https://nvid.nvidia.com/
Immagine di vSphere Lifecycle Manager con il file VIB del driver vGPU Host Manager disponibile in SDDC Manager. Vedere Gestione delle immagini di vSphere Lifecycle Manager in VMware Cloud Foundation.
Dominio del carico di lavoro VI con almeno 3 host ESXi abilitati per GPU, basato sull'immagine di vSphere Lifecycle Manager contenente il file VIB del driver Host Manager. Vedere Distribuzione di un dominio del carico di lavoro VI tramite l'interfaccia utente di SDDC Manager e Gestione delle immagini di vSphere Lifecycle Manager in VMware Cloud Foundation.
Driver host NVIDIA vGPU installato e vGPU configurata in ogni host ESXi del cluster per i carichi di lavoro AI.
1. In ogni host ESXi, abilitare SR-IOV nel BIOS e Shared Direct nei dispositivi grafici per le operazioni di AI.
  Per informazioni sulla configurazione di SR-IOV, vedere la documentazione del fornitore dell'hardware. Per informazioni sulla configurazione di Shared Direct nei dispositivi grafici, vedere Configurazione della grafica virtuale in vSphere.
2. Installare il driver NVIDIA vGPU Host Manager in ogni host ESXi in uno dei modi seguenti:
  - Installare il driver in ogni host e aggiungere il file VIB del driver all'immagine di vSphere Lifecycle per il cluster.
    Vedere Guida rapida del software NVIDIA Virtual GPU.
  - Aggiungere il file VIB del driver all'immagine di vSphere Lifecycle per il cluster e correggere gli host.
3. Se si desidera utilizzare la condivisione MIG (Multi-Instance GPU), abilitarla in ogni host ESXi nel cluster.
  Vedere Guida per l'utente di NVIDIA MIG.
4. Nell'istanza di vCenter Server per il dominio del carico di lavoro VI, impostare l'impostazione avanzata vgpu.hotmigrate.enabled su true in modo che le macchine virtuali con vGPU possano essere migrate tramite vSphere vMotion.
  Vedere Configurazione delle impostazioni avanzate.