Provisioning di un cluster TKG con accelerazione GPU tramite un catalogo self-service in VMware Private AI Foundation with NVIDIA

I tecnici DevOps e gli sviluppatori possono utilizzare VMware Aria Automation per eseguire il provisioning dei cluster TKG con accelerazione GPU per ospitare i carichi di lavoro AI dei container nell'istanza del supervisore in un dominio del carico di lavoro VI.

Il workflow per la distribuzione di un cluster TKG con accelerazione GPU è suddiviso in due parti:

L'amministratore del cloud aggiunge elementi catalogo self-service per Private AI per un nuovo spazio dei nomi nel supervisore in Automation Service Broker.
Il data scientist o il tecnico DevOps utilizza un elemento catalogo del cluster Kubernetes AI per distribuire un cluster TKG con accelerazione GPU in un nuovo spazio dei nomi nel supervisore.

Creazione di elementi catalogo self-service AI in VMware Aria Automation

In qualità di amministratore del cloud, è possibile utilizzare la procedura guidata di configurazione del catalogo per Private AI in VMware Aria Automation per aggiungere rapidamente elementi catalogo per la distribuzione di macchine virtuali di deep learning o cluster TKG con accelerazione GPU in un dominio del carico di lavoro VI.

I data scientist possono utilizzare gli elementi catalogo di deep learning per la distribuzione delle macchine virtuali di deep learning. I tecnici DevOps possono utilizzare gli elementi catalogo per il provisioning di cluster TKG pronti per AI. Ogni volta che la si esegue, la procedura guidata di configurazione del catalogo per Private AI aggiunge due elementi catalogo al catalogo di Service Broker, uno per una macchina virtuale di deep learning e uno per un cluster TKG.

Ogni volta che la si esegue, la procedura guidata di configurazione del catalogo per Private AI aggiunge due elementi catalogo al catalogo di Service Broker, uno per una macchina virtuale di deep learning e uno per un cluster TKG. È possibile eseguire la procedura guidata ogni volta che è necessario:

Abilitare il provisioning dei carichi di lavoro AI in un altro supervisore.
Apportare una modifica alla licenza NVIDIA AI Enterprise, che include il file .tok per la configurazione del client e il server delle licenze o l'URL di download per i driver guest della vGPU per un ambiente disconnesso.
Apportare una modifica all'immagine di una macchina virtuale di deep learning.
Utilizzare altre classi di macchine virtuali vGPU o non GPU, un criterio di storage o un registro di container.
Creare elementi catalogo in un nuovo progetto.

Prerequisiti

Verificare che VMware Private AI Foundation with NVIDIA sia disponibile per il dominio del carico di lavoro VI.
Verificare che siano soddisfatti i prerequisiti per la distribuzione delle macchine virtuali di deep learning.
Creazione di una libreria di contenuti con immagini di macchine virtuali di deep learning per VMware Private AI Foundation with NVIDIA.

Procedura

Passare alla home page di VMware Aria Automation e fare clic su Avvio rapido.
Eseguire la procedura guidata di configurazione del catalogo di Private AI Automation Services per Private AI Automation.

Vedere Aggiunta di elementi di Private AI al catalogo Automation Service Broker nella documentazione del prodotto VMware Aria Automation.

Provisioning di un cluster TKG con accelerazione GPU tramite un catalogo self-service in VMware Aria Automation

In VMware Private AI Foundation with NVIDIA in qualità di tecnico DevOps, è possibile eseguire il provisioning di un cluster TKG accelerato con GPU NVIDIA da VMware Aria Automation utilizzando gli elementi catalogo self-service di un cluster Kubernetes AI in Automation Service Broker. È quindi possibile distribuire le immagini dei container AI da NVIDIA NGC nel cluster.

Nota: VMware Aria Automation crea uno spazio dei nomi ogni volta che si esegue il provisioning di un cluster TKG con accelerazione GPU.

Procedura

In un ambiente connesso in Automation Service Broker distribuire un elemento catalogo di un cluster Kubernetes AI nell'istanza del supervisore configurata dall'amministratore del cloud.
Vedere Distribuzione di un cluster Tanzu Kubernetes abilitato per AI.
In un ambiente disconnesso, caricare i componenti di NVIDIA GPU Operator in posizioni interne e modificare l'elemento catalogo del cluster Kubernetes AI per l'istanza del supervisore configurata dall'amministratore del cloud.
1. Fornire un repository di pacchetti Ubuntu locale e caricare le immagini del container nel pacchetto di NVIDIA GPU Operator nel registro Harbor per il supervisore.
2. Fornire un repository di grafici Helm locale con definizioni dei grafici di NVIDIA GPU Operator.
3. Aggiornare le definizioni del grafico Helm di NVIDIA GPU Operator per utilizzare il repository dei pacchetti Ubuntu locale e il registro Harbor privato.
4. Nella pagina Progettazione > Modelli cloud di Automation Assembler modificare direttamente il modello cloud Cluster Kubernetes AI oppure clonare il modello cloud e modificare il clone.
  1. Aggiungere una ConfigMap per utilizzare il repository Ubuntu locale in NVIDIA GPU Operator.
  2. Aggiornare l'URL del repository di grafici Helm.
  3. Distribuire il modello cloud.
5. Distribuire l'elemento catalogo del Cluster Kubernetes AI modificato o clonato nell'istanza del supervisore.

Operazioni successive

Per informazioni dettagliate su come accedere al cluster TKG utilizzando kubectl, in Automation Service Broker passare a Utilizza > Distribuzioni > Distribuzioni.
Distribuire un'immagine del container AI dal catalogo NVIDIA NGC.
In un ambiente disconnesso, è necessario caricare le immagini del container AI in un registro di container privato. Vedere Configurazione di un registro Harbor privato in VMware Private AI Foundation with NVIDIA.