Architettura di sistema di VMware Private AI Foundation with NVIDIA

VMware Private AI Foundation with NVIDIA viene eseguito in VMware Cloud Foundation aggiungendo supporto per i carichi di lavoro AI nei domini del carico di lavoro VI con provisioning di vSphere IaaS control plane eseguito tramite kubectl e VMware Aria Automation.

Figura 1. Architettura di esempio per VMware Private AI Foundation with NVIDIA

Tabella 1. Componenti per l'esecuzione dei carichi di lavoro AI in VMware Private AI Foundation with NVIDIA
Componente	Descrizione
Host ESXi abilitati per GPU	Host ESXi configurati nel modo seguente: Dispongono di una GPU NVIDIA supportata per VMware Private AI Foundation with NVIDIA. La GPU viene condivisa tra i carichi di lavoro utilizzando il meccanismo di slicing temporale o MIG (Multi-Instance GPU). Vedere Dispositivi GPU NVIDIA supportati. Dispongono del driver host NVIDIA vGPU installato in modo che sia possibile utilizzare profili vGPU basati su MIG o slicing temporale.
Supervisore	Uno o più cluster vSphere abilitati per vSphere IaaS control plane in modo che sia possibile eseguire macchine virtuali e container in vSphere utilizzando l'API di Kubernetes. Un supervisore stesso è un cluster Kubernetes che funge da piano di controllo per gestire i cluster del carico di lavoro e le macchine virtuali.
Registro Harbor	È possibile utilizzare un registro Harbor nei casi seguenti: In un ambiente disconnesso, come registro immagini locale in cui si ospitano le immagini di container scaricate dal catalogo NVIDIA NGC. Per l'archiviazione di modelli ML convalidati.
Cluster NSX Edge	Cluster di nodi NSX Edge che fornisce il routing nord-sud a 2 livelli per il supervisore e i carichi di lavoro che esegue. Il gateway di livello 0 nel cluster NSX Edge è in modalità attivo-attivo.
Operatori NVIDIA	NVIDIA GPU Operator. Automatizza la gestione di tutti i componenti software NVIDIA necessari per eseguire il provisioning della GPU nei container in un cluster Kubernetes. NVIDIA GPU Operator viene distribuito in un cluster TKG. NVIDIA Network Operator. NVIDIA Network Operator consente inoltre di configurare i driver Mellanox corretti per i container utilizzando funzioni virtuali per la rete ad alta velocità, RDMA e GPUDirect. L'operatore della rete collabora con l'operatore della GPU per abilitare RDMA di GPUDirect nei sistemi compatibili. NVIDIA Network Operator viene distribuito in un cluster TKG.
Database vettore	Database PostgreSQL in cui è abilitata l'estensione pgvector in modo che sia possibile utilizzarlo nei carichi di lavoro AI Retrieval Augmented Generation (RAG). Database Milvus come esempio di riferimento.
Portale delle licenze NVIDIA Delegated License Service (DLS) NVIDIA	Utilizzare il portale delle licenze NVIDIA per generare un token di configurazione client per assegnare una licenza al driver guest della vGPU in Deep Learning VM e agli operatori della GPU nei cluster TKG. In un ambiente disconnesso o per fare in modo che i carichi di lavoro ricevano informazioni sulla licenza senza utilizzare una connessione Internet, ospitare localmente le licenze NVIDIA in un'appliance DLS (Delegated License Service).
Libreria di contenuti	Nelle librerie di contenuti vengono archiviate le immagini per Deep Learning VM e per le versioni di Tanzu Kubernetes. Utilizzare queste immagini per la distribuzione dei carichi di lavoro AI nell'ambiente VMware Private AI Foundation with NVIDIA. In un ambiente connesso le librerie di contenuti estraggono i loro contenuti dalle librerie di contenuti pubbliche gestite da VMware. In un ambiente disconnesso è necessario caricare manualmente le immagini richieste o estrarle da un server mirror della libreria di contenuti interna.
Catalogo NVIDIA GPU Cloud (NGC)	Portale per container AI e ML ottimizzati per GPU che sono testati e pronti per l'esecuzione nelle GPU NVIDIA supportate in locale oltre a VMware Private AI Foundation with NVIDIA.

In qualità di amministratore del cloud, utilizzare i componenti di gestione in VMware Cloud Foundation nel modo seguente:

Tabella 2. Componenti di gestione in VMware Private AI Foundation with NVIDIA
Componente di gestione	Descrizione
vCenter Server di gestione	Gestire gli host ESXi che eseguono i componenti di gestione di SDDC e supportare l'integrazione con le altre soluzioni per il monitoraggio e la gestione dell'infrastruttura virtuale.
NSX Manager di gestione	Fornire servizi di rete ai carichi di lavoro di gestione in VMware Cloud Foundation.
SDDC Manager	Distribuzione di un dominio del carico di lavoro VI abilitato per GPU basato sulle immagini di vSphere Lifecycle Manager e aggiunta di cluster in tale dominio. Distribuzione di un cluster NSX Edge nei domini del carico di lavoro VI per l'utilizzo da parte delle istanze del supervisore e nel dominio di gestione per i componenti di VMware Aria Suite di VMware Private AI Foundation with NVIDIA. Distribuzione di un'istanza di VMware Aria Suite Lifecycle integrata con il repository di SDDC Manager.
vCenter Server del dominio del carico di lavoro VI	Abilitare e configurare un supervisore.
NSX Manager del dominio carico di lavoro VI	SDDC Manager utilizza questa istanza di NSX Manager per distribuire e aggiornare i cluster NSX Edge.
Cluster NSX Edge (AVN)	Posizionare i componenti di VMware Aria Suite in una configurazione predefinita di segmenti NSX denominati reti virtuali dell'applicazione (AVN) per il routing dinamico e il bilanciamento del carico.
VMware Aria Suite Lifecycle	Distribuire e aggiornare VMware Aria Automation e VMware Aria Operations.
VMware Aria Automation	Aggiungere elementi del catalogo self-service per la distribuzione dei carichi di lavoro IA per ingegneri DevOps, data scientist e tecnici di MLOps.
VMware Aria Operations	Monitorare il consumo della GPU nei domini del carico di lavoro abilitati per la GPU.
VMware Data Services Manager	Creare database vettore, ad esempio un database PostgreSQL con estensione pgvector.