Informazioni sulla distribuzione dei carichi di lavoro AI/ML nei cluster Servizio TKG

È possibile distribuire carichi di lavoro AI/ML nei cluster Servizio TKG utilizzando la tecnologia NVIDIA GPU.

Supporto di TKGS per i carichi di lavoro AI/ML

È possibile distribuire carichi di lavoro che utilizzano molte risorse di elaborazione nei cluster Servizio TKG. In questo contesto, un carico di lavoro con utilizzo intensivo di risorse di elaborazione è un'applicazione di intelligenza artificiale (AI) o apprendimento automatico (ML) che richiede l'uso di un dispositivo acceleratore di GPU.

Per facilitare l'esecuzione di carichi di lavoro AI/ML in un ambiente Kubernetes, VMware ha stabilito una partnership con NVIDIA per supportare la piattaforma NVIDIA GPU Cloud. Ciò significa che è possibile distribuire immagini di container dal catalogo NGC nei cluster TKGS. Per ulteriori informazioni sul supporto di NVIDIA GPU in vSphere 8, consultare l'articolo relativo a vGPU in Tech Zone.

Modalità GPU supportate

La distribuzione di carichi di lavoro AI/ML basati su NVIDIA nei cluster Servizio TKG richiede l'utilizzo dell'edizione Ubuntu delle versioni di Tanzu Kubernetes, versioni 1.22 o successive. vSphere supporta due modalità, ovvero NVIDIA GRID vGPU e passthrough GPU tramite un dispositivo I/O DirectPath dinamico. Per ulteriori informazioni, vedere Sistemi operativi e piattaforme Kubernetes supportati nella documentazione di NVIDIA.

Tabella 1. Macchine virtuali vSphere con NVIDIA vGPU
Sistema operativo	TKr	vSphere with Tanzu	Descrizione
Ubuntu 20.04 LTS	1.22 - 1.2x* (più recente fino alla versione 1.28)	7.0 U3c 8.0 U2+	Il dispositivo GPU viene virtualizzato dal driver NVIDIA Host Manager installato in ogni host ESXi. Il dispositivo GPU viene quindi condiviso tra più GPU virtuali NVIDIA (vGPU). Nota: vSphere Distributed Resource Scheduler (DRS) distribuisce le macchine virtuali vGPU in modo esteso negli host che includono un cluster vSphere. Per ulteriori informazioni, vedere la sezione relativa al posizionamento DRS di macchine virtuali vGPU nella guida gestione delle risorse vSphere. Ogni vGPU NVIDIA viene definita dalla quantità di memoria del dispositivo della GPU. Ad esempio, se il dispositivo GPU ha una quantità totale di RAM di 32 GB, è possibile creare 8 vGPU con 4 GB di memoria ciascuna.

Tabella 2. Macchine virtuali vSphere con passthrough GPU
Sistema operativo	TKr	vSphere with Tanzu	Descrizione
Ubuntu 20.04 LTS	1.22 - 1.2x* (più recente fino alla versione 1.28)	7.0 U3c 8.0 U2+	Nella stessa classe di macchine virtuali in cui si configura il profilo NVIDIA vGPU, è necessario includere il supporto per un dispositivo di rete passthrough utilizzando Dynamic DirectPath IO. In questo caso, vSphere DRS determina il posizionamento della macchina virtuale.