Informazioni sulla distribuzione dei carichi di lavoro AI/ML nei cluster TKG

È possibile distribuire carichi di lavoro AI/ML nei cluster TKG utilizzando vSphere with Tanzu e la tecnologia NVIDIA vGPU.

Presentazione del supporto di TGK per i carichi di lavoro AI/ML

A partire da vSphere with Tanzu versione 7 Update 3 Monthly Patch1, è possibile distribuire carichi di lavoro con utilizzo intensivo di risorse di elaborazione ai cluster Tanzu Kubernetes il cui provisioning è stato eseguito da Servizio Tanzu Kubernetes Grid. In questo contesto, un carico di lavoro con utilizzo intensivo di risorse di elaborazione è un'applicazione di intelligenza artificiale (AI) o apprendimento automatico (ML) che richiede l'uso di un dispositivo acceleratore di GPU.

Per facilitare l'esecuzione di carichi di lavoro AI/ML in un ambiente Kubernetes, VMware collabora con NVIDIA per supportare la piattaforma NVIDIA GPU Cloud in vSphere with Tanzu. Ciò significa che è possibile distribuire immagini di container dal catalogo NGC nei cluster Tanzu Kubernetes con provisioning eseguito da Servizio Tanzu Kubernetes Grid.

Per ulteriori informazioni sull'architettura combinata di NVIDIA e VMware per AI-Ready Enterprise, vedere Accelerating Workloads on vSphere 7 with Tanzu - A Technical Preview of Kubernetes Clusters with GPUs.

Modalità vGPU supportate

La distribuzione di carichi di lavoro AI/ML in TKG richiede l'uso dell'OVA di Ubuntu disponibile tramite la rete di distribuzione dei contenuti di vSphere with Tanzu. TKG supporta due modalità di funzionamento della GPU: vGPU e vGPU con passthrough della NIC. La tabella descrive in modo più dettagliato le due modalità.

Modalità	Configurazione	Descrizione
NVIDIA + TKG + Ubuntu + vGPU	NVIDIA vGPU	Il dispositivo GPU viene virtualizzato dal driver NVIDIA Host Manager installato in ogni host ESXi. Il dispositivo GPU viene quindi condiviso tra più GPU virtuali NVIDIA (vGPU). Ogni vGPU NVIDIA viene definita dalla quantità di memoria del dispositivo della GPU. Ad esempio, se il dispositivo GPU ha una quantità totale di RAM di 32 GB, è possibile creare 8 vGPU con circa 4 GB di memoria ciascuna.
NVIDIA + TKG + Ubuntu + vGPU + Passthrough della NIC	NVIDIA vGPU e DirectPath IO dinamico	Nella stessa classe di macchine virtuali in cui si configura il profilo NVIDIA vGPU, è necessario includere il supporto per un dispositivo di rete passthrough utilizzando Dynamic DirectPath IO. In questo caso, vSphere DRS determina il posizionamento della macchina virtuale.

Modalità

Configurazione

Descrizione

NVIDIA + TKG + Ubuntu + vGPU

NVIDIA vGPU

Il dispositivo GPU viene virtualizzato dal driver NVIDIA Host Manager installato in ogni host ESXi. Il dispositivo GPU viene quindi condiviso tra più GPU virtuali NVIDIA (vGPU).

Ogni vGPU NVIDIA viene definita dalla quantità di memoria del dispositivo della GPU. Ad esempio, se il dispositivo GPU ha una quantità totale di RAM di 32 GB, è possibile creare 8 vGPU con circa 4 GB di memoria ciascuna.

NVIDIA + TKG + Ubuntu + vGPU + Passthrough della NIC

NVIDIA vGPU

DirectPath IO dinamico

Nella stessa classe di macchine virtuali in cui si configura il profilo NVIDIA vGPU, è necessario includere il supporto per un dispositivo di rete passthrough utilizzando Dynamic DirectPath IO. In questo caso, vSphere DRS determina il posizionamento della macchina virtuale.

Guida introduttiva

Per configurare NVIDIA vGPU per TKG, fare riferimento agli argomenti seguenti:

Se si utilizza vGPU con passthrough della NIC, fare riferimento anche all'argomento seguente: Appendice per l'amministratore di vSphere sulla distribuzione dei carichi di lavoro AI/ML nei cluster TKGS (vGPU e DirectPath IO dinamico).

Se si utilizza NVIDIA Delegated Licensing Server (DLS) per l'account NVAIE, fare riferimento anche all'argomento seguente: Appendice operatore del cluster per la distribuzione di carichi di lavoro AI/ML nei cluster TKG (DLS).