Distribuire i componenti di VMware Private AI Foundation with NVIDIA nell'ambiente VMware Cloud Foundation in un dominio del carico di lavoro VI in cui devono essere installati determinati componenti NVIDIA.
Versioni del software VMware richieste
Vedere Componenti di VMware in VMware Private AI Foundation with NVIDIA.
Dispositivi GPU NVIDIA supportati
Prima di iniziare a utilizzare VMware Private AI Foundation with NVIDIA, assicurarsi che le GPU negli host ESXi siano supportate da VMware by Broadcom:
Componente NVIDIA | Opzioni supportate |
---|---|
GPU NVIDIA |
|
Modalità di condivisione GPU |
|
Software NVIDIA richiesto
Il dispositivo GPU deve supportare i profili vGPU NVIDIA AI Enterprise (NVAIE) più recenti. Per istruzioni, vedere il documento GPU supportate da NVIDIA Virtual GPU Software.
- Driver host della vGPU NVIDIA (incluso il VIB per gli host ESXi) compatibile con la versione di VMware Cloud Foundation in uso. Vedere Note di rilascio di Virtual GPU Software per VMware vSphere.
- NVIDIA GPU Operator compatibile con la versione di Kubernetes dei cluster TKG distribuiti. Vedere Note di rilascio di NVIDIA GPU Operator e Note di rilascio delle versioni di VMware Tanzu Kubernetes.
Configurazione di VMware Cloud Foundation necessaria
Prima di distribuire VMware Private AI Foundation with NVIDIA, è necessario che in VMware Cloud Foundation sia disponibile una configurazione specifica.
- Licenza di VMware Cloud Foundation.
- Licenza del componente aggiuntivo VMware Private AI Foundation with NVIDIA.
- Prodotto NVIDIA vGPU con licenza che include il file VIB del driver host per gli host ESXi e i driver del sistema operativo guest. Per istruzioni, vedere il documento GPU supportate da NVIDIA Virtual GPU Software.
- File VIB del driver host di NVIDIA vGPU scaricato da https://nvid.nvidia.com/
- Immagine di vSphere Lifecycle Manager con il file VIB del driver vGPU Host Manager disponibile in SDDC Manager. Vedere Gestione delle immagini di vSphere Lifecycle Manager in VMware Cloud Foundation.
- Dominio del carico di lavoro VI con almeno 3 host ESXi abilitati per GPU, basato sull'immagine di vSphere Lifecycle Manager contenente il file VIB del driver Host Manager. Vedere Distribuzione di un dominio del carico di lavoro VI tramite l'interfaccia utente di SDDC Manager e Gestione delle immagini di vSphere Lifecycle Manager in VMware Cloud Foundation.
- Driver host NVIDIA vGPU installato e vGPU configurata in ogni host ESXi del cluster per i carichi di lavoro AI.
- In ogni host ESXi, abilitare SR-IOV nel BIOS e Shared Direct nei dispositivi grafici per le operazioni di AI.
Per informazioni sulla configurazione di SR-IOV, vedere la documentazione del fornitore dell'hardware. Per informazioni sulla configurazione di Shared Direct nei dispositivi grafici, vedere Configurazione della grafica virtuale in vSphere.
- Installare il driver NVIDIA vGPU Host Manager in ogni host ESXi in uno dei modi seguenti:
- Installare il driver in ogni host e aggiungere il file VIB del driver all'immagine di vSphere Lifecycle per il cluster.
- Aggiungere il file VIB del driver all'immagine di vSphere Lifecycle per il cluster e correggere gli host.
- Se si desidera utilizzare la condivisione MIG (Multi-Instance GPU), abilitarla in ogni host ESXi nel cluster.
Vedere Guida per l'utente di NVIDIA MIG.
- Nell'istanza di vCenter Server per il dominio del carico di lavoro VI, impostare l'impostazione avanzata
vgpu.hotmigrate.enabled
sutrue
in modo che le macchine virtuali con vGPU possano essere migrate tramite vSphere vMotion.
- In ogni host ESXi, abilitare SR-IOV nel BIOS e Shared Direct nei dispositivi grafici per le operazioni di AI.