In qualità di tecnico DevOps che utilizza il catalogo self-service di Automation Service Broker, è possibile eseguire il provisioning di un cluster RAG Tanzu Kubernetes Grid abilitato per GPU, in cui i nodi worker possono eseguire una soluzione RAG di riferimento che utilizza il modello Llama2-13b-chat.

La distribuzione contiene uno spazio dei nomi supervisore e un cluster Tanzu Kubernetes Grid. Il cluster TKG contiene due spazi dei nomi supervisore, uno per NVIDIA GPU Operator e l'altro per NVIDIA RAG LLM Operator, entrambi preinstallati nel cluster TKG. Le applicazioni Carvel per ciascun operatore vengono distribuite in questi due spazi dei nomi.

Procedura

  1. Nella pagina Catalogo di Automation Service Broker, individuare la scheda Cluster RAG Kubernetes AI e fare clic su Richiedi.
  2. Selezionare un progetto.
  3. Immettere un nome e una descrizione per la distribuzione.
  4. Selezionare il numero di nodi del piano di controllo.
    Impostazione Valore di esempio
    Numero di nodi 1
    Classe di macchine virtuali best-effort-2xlarge - 8 CPU e 64 GB di memoria

    La selezione della classe definisce le risorse disponibili all'interno della macchina virtuale.

  5. Selezionare il numero di nodi worker.
    Impostazione Descrizione
    Numero di nodi 3
    Classe di macchine virtuali best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPU e 120 GB di memoria
    Specifica minima della classe di macchine virtuali:
    • CPU: 10 vCPU
    • RAM CPU: 64 GB
    • GPU: 2xH100
    • Memoria GPU: 50 GB
    Repliche con slicing temporale 1

    Lo slicing temporale definisce un set di repliche per una GPU condivisa tra carichi di lavoro.

  6. Specificare la chiave API aziendale di NVIDIA AI.
  7. Fare clic su Invia.