Per consentire ai tecnici DevOps e ai data scientist di distribuire macchine virtuali di deep learning o cluster TKG con carichi di lavoro del container AI, è necessario distribuire un supervisore in un cluster abilitato per GPU in un dominio del carico di lavoro VI e creare classi di macchine virtuali abilitate per vGPU.
Prerequisiti
Vedere Requisiti per la distribuzione di VMware Private AI Foundation with NVIDIA.
Procedura
- Distribuire un cluster NSX Edge nel dominio del carico di lavoro VI utilizzando SDDC Manager.
SDDC Manager distribuisce anche un gateway di livello 0 che viene specificato al momento della distribuzione del supervisore. Il gateway di livello 0 è in modalità ad alta disponibilità attiva-attiva.
- Configurare un criterio di storage per il supervisore.
- Distribuire un supervisore in un cluster di host ESXi abilitati per GPU nel dominio del carico di lavoro VI.
Utilizzare l'assegnazione dell'indirizzo IP statico per la rete di gestione. Assegnare la rete di gestione della macchina virtuale supervisore in vSphere Distributed Switch per il cluster.
Configurare la rete del carico di lavoro nel modo seguente:
- Utilizzare vSphere Distributed Switch per il cluster o crearne uno specifico per i carichi di lavoro di IA.
- Configurare il supervisore con il cluster NSX Edge e il gateway di livello 0 distribuiti utilizzando SDDC Manager.
- Impostare gli altri valori in base alla progettazione.
Utilizzare il criterio di storage creato.
Per ulteriori informazioni sulla distribuzione di un supervisore in un singolo cluster, vedere Distribuzione di un supervisore a una zona con rete NSX.
- Configurare le classi di macchine virtuali basate su vGPU per i carichi di lavoro di IA.
In queste classi di macchine virtuali, impostare i requisiti di elaborazione e un profilo vGPU per un dispositivo NVIDIA GRID vGPU in base ai dispositivi vGPU configurati negli host ESXi nel cluster supervisore.
- Per informazioni sulla configurazione delle classi di macchine virtuali basate su vGPU per le macchine virtuali, vedere Creazione di una classe di macchine virtuali personalizzata tramite vSphere Client e Aggiunta di dispositivi PCI a una classe di macchine virtuali in vSphere with Tanzu.
- Per informazioni sulla configurazione di classi di macchine virtuali basate su vGPU per i nodi worker TKG, vedere Creazione di una classe di macchine virtuali personalizzata con un profilo vGPU in vSphere 8 Update 2b e versioni successive e Configurazione di spazi dei nomi vSphere per i cluster TKG nel supervisore.
Per la classe di macchine virtuali per la distribuzione di macchine virtuali di deep learning con carichi di lavoro NVIDIA RAG, impostare le seguenti impostazioni aggiuntive nella finestra di dialogo della classe di macchine virtuali:
- Selezionare il profilo vGPU completo per la modalità di slicing temporale o un profilo MIG. Ad esempio, per la scheda NVIDIA A100 a 40 GB in modalità di slicing temporale vGPU, selezionare nvidia_a100-40c.
- Nella scheda Hardware virtuale allocare più di 16 core CPU virtuali e 64 GB di memoria virtuale.
- Nella scheda Parametri avanzati impostare il parametro
pciPassthru<vgpu-id>.cfg.enable_uvm
su 1.dove
<vgpu-id>
identifica la vGPU assegnata alla macchina virtuale. Ad esempio, se alla macchina virtuale sono assegnate due vGPU, impostarepciPassthru0.cfg.parameter=1
epciPassthru1.cfg.parameter = 1
.
- Se si intende utilizzare lo strumento della riga di comando kubectl per distribuire una macchina virtuale di deep learning o un cluster TKG con accelerazione GPU in un supervisore, creare e configurare uno spazio dei nomi vSphere, aggiungendo limiti delle risorse, criterio di storage, autorizzazioni per i tecnici DevOps e associando le classi di macchine virtuali basate su vGPU a tale spazio dei nomi.
- Per informazioni sulla configurazione degli spazi dei nomi vSphere per le macchine virtuali, vedere Creazione e configurazione di uno spazio dei nomi vSphere nel supervisore.
- Per informazioni sulla configurazione degli spazi dei nomi vSphere per i cluster TKG, vedere Configurazione di spazi dei nomi vSphere per i cluster TKG nel supervisore.