Configurazione di vSphere IaaS Control Plane per VMware Private AI Foundation with NVIDIA

Per consentire ai tecnici DevOps e ai data scientist di distribuire Deep Learning VM o cluster TKG con carichi di lavoro del container AI, è necessario distribuire un supervisore in un cluster abilitato per GPU in un dominio del carico di lavoro VI e creare classi di macchine virtuali abilitate per vGPU.

Nota: Questa documentazione si basa su VMware Cloud Foundation 5.2.1. Per informazioni sulla funzionalità VMware Private AI Foundation with NVIDIA in VMware Cloud Foundation 5.2, vedere Guida di VMware Private AI Foundation with NVIDIA per VMware Cloud Foundation 5.2.

Prerequisiti

Verificare che VMware Private AI Foundation with NVIDIA sia configurato fino a questo passaggio del workflow di distribuzione. Vedere Preparazione di VMware Cloud Foundation per la distribuzione del carico di lavoro di Private AI.

Procedura

Per un'istanza di VMware Cloud Foundation 5.2.1, accedere all'istanza di vCenter Server per il dominio di gestione all'indirizzo https://<vcenter_server_fqdn>/ui come [email protected].
Nel pannello laterale di vSphere Client, fare clic su Private AI Foundation.
Nel workflow Private AI Foundation, fare clic sulla sezione Configura dominio carico di lavoro.
Distribuire un cluster NSX Edge nel dominio del carico di lavoro VI.
Vedere Distribuzione di un cluster NSX Edge. La procedura guidata nel workflow di distribuzione guidata ha le stesse opzioni della procedura guidata analoga nell'interfaccia utente di SDDC Manager.

SDDC Manager distribuisce anche un gateway di livello 0 che viene specificato al momento della distribuzione del supervisore. Il gateway di livello 0 è in modalità ad alta disponibilità attiva-attiva.
Nel workflow Private AI Foundation, fare clic sulla sezione Configura gestione carico di lavoro.
Configurare un criterio di storage per il supervisore.
Vedere Creazione di criteri di storage per vSphere with Tanzu. La procedura guidata per la creazione di un criterio di storage della macchina virtuale nel workflow di distribuzione guidata è uguale alla procedura guidata analoga nell'area Criteri e profili di vSphere Client.
Abilitare la gestione del carico di lavoro distribuendo un supervisore nel cluster predefinito di host ESXi abilitati per GPU nel dominio del carico di lavoro VI.
Utilizzare l'assegnazione dell'indirizzo IP statico per la rete di gestione. Assegnare la rete di gestione della macchina virtuale supervisore in vSphere Distributed Switch per il cluster.
Configurare la rete del carico di lavoro nel modo seguente:
- Utilizzare vSphere Distributed Switch per il cluster o crearne uno specifico per i carichi di lavoro di IA.
- Configurare il supervisore con il cluster NSX Edge e il gateway di livello 0 distribuiti utilizzando SDDC Manager.
- Impostare gli altri valori in base alla progettazione.
Utilizzare il criterio di storage creato.

Per ulteriori informazioni sulla distribuzione di un supervisore in un singolo cluster, vedere Abilitazione della gestione del carico di lavoro e Distribuzione di un supervisore a una zona con rete NSX. La procedura guidata nel workflow di distribuzione guidata è identica a quella della procedura guidata analoga nell'area Gestione carico di lavoro di vSphere Client.