Distribuire i componenti di VMware Private AI Foundation with NVIDIA nell'ambiente VMware Cloud Foundation in un dominio del carico di lavoro VI in cui devono essere installati determinati componenti NVIDIA.
Versioni del software VMware richieste
Vedere Componenti di VMware in VMware Private AI Foundation with NVIDIA.
Dispositivi GPU NVIDIA supportati
Prima di iniziare a utilizzare VMware Private AI Foundation with NVIDIA, assicurarsi che le GPU negli host ESXi siano supportate da VMware by Broadcom:
Componente NVIDIA | Opzioni supportate |
---|---|
GPU NVIDIA |
|
Modalità di condivisione GPU |
|
Software NVIDIA richiesto
Il dispositivo GPU deve supportare i profili vGPU NVIDIA AI Enterprise (NVAIE) più recenti. Per istruzioni, vedere il documento GPU supportate da NVIDIA Virtual GPU Software.
- Driver host della vGPU NVIDIA (incluso il VIB per gli host ESXi) compatibile con la versione di VMware Cloud Foundation in uso. Vedere Note di rilascio di Virtual GPU Software per VMware vSphere.
- NVIDIA GPU Operator compatibile con la versione di Kubernetes dei cluster TKG distribuiti. Vedere Note di rilascio di NVIDIA GPU Operator e Note di rilascio delle versioni di VMware Tanzu Kubernetes.
Configurazione di VMware Cloud Foundation necessaria
Prima di distribuire VMware Private AI Foundation with NVIDIA, è necessario che in VMware Cloud Foundation sia disponibile una configurazione specifica.
- VMware Cloud Foundation in vSAN ReadyNodes™.
- Licenza di VMware Cloud Foundation.
- Licenza del componente aggiuntivo VMware Private AI Foundation with NVIDIA.
Per accedere alle funzionalità seguenti, è necessaria la licenza del componente aggiuntivo VMware Private AI Foundation with NVIDIA:
- Configurazione di Private AI in VMware Aria Automation per gli elementi catalogo, per semplificare il provisioning di Deep Learning VM con accelerazione GPU e dei cluster TKG.
- Provisioning dei database PostgreSQL con l'estensione pgvector con il supporto Enterprise.
- Distribuzione e utilizzo dell'immagine di Deep Learning VM fornita da VMware by Broadcom.
- Workflow della distribuzione guidata in vSphere Client.
È possibile distribuire carichi di lavoro AI con e senza un supervisore abilitato e utilizzare le metriche di GPU in vCenter Server e VMware Aria Operations con la licenza di VMware Cloud Foundation.
Aggiungere la licenza di VMware Private AI Foundation with NVIDIA come licenza della soluzione nel sistema di gestione delle licenze nel vCenter Server di gestione. È possibile aggiungere la licenza in uno dei modi seguenti:
- Quando si utilizza per la prima volta il workflow della distribuzione guidata in vSphere Client.
- Utilizzando l'interfaccia utente di gestione delle licenze in vSphere Client. Vedere Gestione delle licenze vSphere.
- Prodotto NVIDIA vGPU con licenza che include il file VIB del driver host per gli host ESXi e i driver del sistema operativo guest. Per istruzioni, vedere il documento GPU supportate da NVIDIA Virtual GPU Software.
- File VIB del driver host di NVIDIA vGPU scaricato da https://nvid.nvidia.com/
- Immagine di vSphere Lifecycle Manager con il file VIB del driver vGPU Host Manager disponibile in SDDC Manager. Vedere Gestione delle immagini di vSphere Lifecycle Manager in VMware Cloud Foundation.
- Almeno 3 host ESXi abilitati per la GPU da includere nel cluster predefinito di un dominio del carico di lavoro VI.
- Driver host NVIDIA vGPU installato e vGPU configurata in ogni host ESXi del cluster per i carichi di lavoro AI.
- In ogni host ESXi, abilitare SR-IOV nel BIOS e Shared Direct nei dispositivi grafici per le operazioni di AI.
Per informazioni sulla configurazione di SR-IOV, vedere la documentazione del fornitore dell'hardware. Per informazioni sulla configurazione di Shared Direct nei dispositivi grafici, vedere Configurazione della grafica virtuale in vSphere.
- Installare il driver host di NVIDIA vGPU in ogni host ESXi in uno dei modi seguenti:
- Installare il driver in ogni host e aggiungere il file VIB del driver all'immagine di vSphere Lifecycle per il cluster.
- Aggiungere il file VIB del driver all'immagine di vSphere Lifecycle per il cluster e correggere gli host.
- Se si desidera utilizzare la condivisione MIG (Multi-Instance GPU), abilitarla in ogni host ESXi nel cluster.
Vedere Guida per l'utente di NVIDIA MIG.
- In ogni host ESXi, abilitare SR-IOV nel BIOS e Shared Direct nei dispositivi grafici per le operazioni di AI.