È possibile distribuire carichi di lavoro AI/ML nei cluster Servizio TKG utilizzando la tecnologia NVIDIA GPU.
Supporto di TKGS per i carichi di lavoro AI/ML
È possibile distribuire carichi di lavoro che utilizzano molte risorse di elaborazione nei cluster Servizio TKG. In questo contesto, un carico di lavoro con utilizzo intensivo di risorse di elaborazione è un'applicazione di intelligenza artificiale (AI) o apprendimento automatico (ML) che richiede l'uso di un dispositivo acceleratore di GPU.
Per facilitare l'esecuzione di carichi di lavoro AI/ML in un ambiente Kubernetes, VMware ha stabilito una partnership con NVIDIA per supportare la piattaforma NVIDIA GPU Cloud. Ciò significa che è possibile distribuire immagini di container dal catalogo NGC nei cluster TKGS. Per ulteriori informazioni sul supporto di NVIDIA GPU in vSphere 8, consultare l'articolo relativo a vGPU in Tech Zone.
Modalità GPU supportate
Sistema operativo | TKr | vSphere with Tanzu | Descrizione |
---|---|---|---|
Ubuntu 20.04 LTS | 1.22 - 1.2x* (più recente fino alla versione 1.28) | 7.0 U3c 8.0 U2+ |
Il dispositivo GPU viene virtualizzato dal driver NVIDIA Host Manager installato in ogni host ESXi. Il dispositivo GPU viene quindi condiviso tra più GPU virtuali NVIDIA (vGPU).
Nota: vSphere Distributed Resource Scheduler (DRS) distribuisce le macchine virtuali vGPU in modo esteso negli host che includono un cluster vSphere. Per ulteriori informazioni, vedere la sezione relativa al
posizionamento DRS di macchine virtuali vGPU nella guida gestione delle risorse vSphere.
Ogni vGPU NVIDIA viene definita dalla quantità di memoria del dispositivo della GPU. Ad esempio, se il dispositivo GPU ha una quantità totale di RAM di 32 GB, è possibile creare 8 vGPU con 4 GB di memoria ciascuna. |
Sistema operativo | TKr | vSphere with Tanzu | Descrizione |
---|---|---|---|
Ubuntu 20.04 LTS | 1.22 - 1.2x* (più recente fino alla versione 1.28) | 7.0 U3c 8.0 U2+ |
Nella stessa classe di macchine virtuali in cui si configura il profilo NVIDIA vGPU, è necessario includere il supporto per un dispositivo di rete passthrough utilizzando Dynamic DirectPath IO. In questo caso, vSphere DRS determina il posizionamento della macchina virtuale. |