In qualità di tecnico DevOps, è possibile eseguire il provisioning di un cluster Tanzu Kubernetes Grid accelerato con GPU NVIDIA utilizzando l'elemento del catalogo cluster Kubernetes AI nel catalogo self-service di Automation Service Broker. È quindi possibile distribuire le immagini dei container AI da NVIDIA NGC nel cluster.

Il cluster TKG contiene un operatore GPU NVIDIA, che è un operatore Kubernetes responsabile della configurazione del driver NVIDIA corretto per l'hardware GPU NVIDIA nei nodi del cluster TKG. Il cluster distribuito è pronto per essere utilizzato per i carichi di lavoro AI/ML senza che siano necessarie ulteriori configurazioni relative alla GPU.

La distribuzione contiene uno spazio dei nomi supervisore, un cluster TKG con tre nodi worker, più risorse all'interno del cluster TKG e un'applicazione Carvel che distribuisce l'applicazione dell'operatore GPU.

Per un cluster Tanzu Kubernetes Grid basato su RAG, utilizzare l'elemento catalogo Cluster RAG Kubernetes AI. Vedere Distribuzione di un carico di lavoro RAG in un cluster TKG mediante un elemento del catalogo self-service in VMware Aria Automation.

Prerequisiti

  • Verificare che l'amministratore del cloud abbia configurato Private AI Automation Services per il progetto.
  • Verificare di disporre delle autorizzazioni necessarie per richiedere elementi del catalogo AI.

Procedura

  1. Nella pagina Catalogo in Automation Service Broker, individuare la scheda Cluster Kubernetes AI e fare clic su Richiedi.
  2. Selezionare un progetto.
  3. Immettere un nome e una descrizione per la distribuzione.
  4. Selezionare il numero di nodi del piano di controllo.
    Impostazione Valore di esempio
    Numero di nodi 1
    Classe di macchine virtuali best-effort-4xlarge - 16 CPU e 128 GB di memoria

    La selezione della classe definisce le risorse disponibili all'interno della macchina virtuale.

  5. Selezionare il numero di nodi worker.
    Impostazione Descrizione
    Numero di nodi 3
    Classe di macchine virtuali best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPU e 120 GB di memoria
    Repliche con slicing temporale 1

    Lo slicing temporale definisce un set di repliche per una GPU condivisa tra carichi di lavoro.

  6. Specificare la chiave API aziendale di NVIDIA AI.
  7. Fare clic su Invia.

Operazioni successive

Eseguire un'immagine del container AI. In un ambiente connesso, utilizzare il catalogo di NVIDIA NGC. In un ambiente disconnesso, utilizzare il registro Harbor nel supervisore.