In qualità di tecnico di DevOps, è possibile richiedere un cluster Tanzu Kubernetes Grid (TKG) accelerato da GPU, in cui i nodi worker possono eseguire carichi di lavoro IA/ML, dal catalogo self-service di Automation Service Broker.

Il cluster TKG contiene un operatore GPU NVIDIA, che è un operatore Kubernetes responsabile della configurazione del driver NVIDIA corretto per l'hardware della GPU NVIDIA nei nodi del cluster TKG. Il cluster distribuito è pronto all'uso per i carichi di lavoro IA/ML senza necessità di una configurazione aggiuntiva correlata alla GPU.

La distribuzione contiene uno spazio dei nomi supervisore, un cluster TKG con tre nodi worker, più risorse all'interno del cluster TKG e un'applicazione Carvel che distribuisce l'applicazione dell'operatore GPU.

Procedura

  1. Nella pagina Catalogo in Automation Service Broker, individuare la scheda AI Kubernetes Cluster e fare clic su Richiedi.
  2. Selezionare un progetto.
  3. Immettere un nome e una descrizione per la distribuzione.
  4. Selezionare il numero di nodi del riquadro di controllo.
    Impostazione Valore di esempio
    Numero di nodi 1
    Classe di macchine virtuali best-effort-4xlarge - 16 CPU e 128 GB di memoria

    La selezione della classe definisce le risorse disponibili all'interno della macchina virtuale.

  5. Selezionare il numero di nodi di lavoro.
    Impostazione Descrizione
    Numero di nodi 3
    Classe di macchine virtuali best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPU e 120 GB di memoria
    Repliche time-slicing 1

    Il time-slicing definisce un set di repliche per una GPU condivisa tra carichi di lavoro.

  6. Fornire la chiave API aziendale IA NVIDIA.
  7. Fare clic su Invia.