Per consentire ai tecnici DevOps e ai data scientist di distribuire macchine virtuali di deep learning o cluster TKG con carichi di lavoro del container AI, è necessario distribuire un supervisore in un cluster abilitato per GPU in un dominio del carico di lavoro VI e creare classi di macchine virtuali abilitate per vGPU.

Prerequisiti

Vedere Requisiti per la distribuzione di VMware Private AI Foundation with NVIDIA.

Procedura

  1. Distribuire un cluster NSX Edge nel dominio del carico di lavoro VI utilizzando SDDC Manager.
    SDDC Manager distribuisce anche un gateway di livello 0 che viene specificato al momento della distribuzione del supervisore. Il gateway di livello 0 è in modalità ad alta disponibilità attiva-attiva.
  2. Configurare un criterio di storage per il supervisore.
  3. Distribuire un supervisore in un cluster di host ESXi abilitati per GPU nel dominio del carico di lavoro VI.
    Utilizzare l'assegnazione dell'indirizzo IP statico per la rete di gestione. Assegnare la rete di gestione della macchina virtuale supervisore in vSphere Distributed Switch per il cluster.

    Configurare la rete del carico di lavoro nel modo seguente:

    • Utilizzare vSphere Distributed Switch per il cluster o crearne uno specifico per i carichi di lavoro di IA.
    • Configurare il supervisore con il cluster NSX Edge e il gateway di livello 0 distribuiti utilizzando SDDC Manager.
    • Impostare gli altri valori in base alla progettazione.

    Utilizzare il criterio di storage creato.

    Per ulteriori informazioni sulla distribuzione di un supervisore in un singolo cluster, vedere Distribuzione di un supervisore a una zona con rete NSX.

  4. Configurare le classi di macchine virtuali basate su vGPU per i carichi di lavoro di IA.
    In queste classi di macchine virtuali, impostare i requisiti di elaborazione e un profilo vGPU per un dispositivo NVIDIA GRID vGPU in base ai dispositivi vGPU configurati negli host ESXi nel cluster supervisore.

    Per la classe di macchine virtuali per la distribuzione di macchine virtuali di deep learning con carichi di lavoro NVIDIA RAG, impostare le seguenti impostazioni aggiuntive nella finestra di dialogo della classe di macchine virtuali:

    • Selezionare il profilo vGPU completo per la modalità di slicing temporale o un profilo MIG. Ad esempio, per la scheda NVIDIA A100 a 40 GB in modalità di slicing temporale vGPU, selezionare nvidia_a100-40c.
    • Nella scheda Hardware virtuale allocare più di 16 core CPU virtuali e 64 GB di memoria virtuale.
    • Nella scheda Parametri avanzati impostare il parametro pciPassthru<vgpu-id>.cfg.enable_uvm su 1.

      dove <vgpu-id> identifica la vGPU assegnata alla macchina virtuale. Ad esempio, se alla macchina virtuale sono assegnate due vGPU, impostare pciPassthru0.cfg.parameter=1 e pciPassthru1.cfg.parameter = 1.

  5. Se si intende utilizzare lo strumento della riga di comando kubectl per distribuire una macchina virtuale di deep learning o un cluster TKG con accelerazione GPU in un supervisore, creare e configurare uno spazio dei nomi vSphere, aggiungendo limiti delle risorse, criterio di storage, autorizzazioni per i tecnici DevOps e associando le classi di macchine virtuali basate su vGPU a tale spazio dei nomi.