In qualità di tecnico DevOps che utilizza il catalogo self-service di Automation Service Broker, è possibile eseguire il provisioning di un cluster RAG Tanzu Kubernetes Grid abilitato per GPU, in cui i nodi worker possono eseguire una soluzione RAG di riferimento che utilizza il modello Llama2-13b-chat.
La distribuzione contiene uno spazio dei nomi supervisore e un cluster Tanzu Kubernetes Grid. Il cluster TKG contiene due spazi dei nomi supervisore, uno per NVIDIA GPU Operator e l'altro per NVIDIA RAG LLM Operator, entrambi preinstallati nel cluster TKG. Le applicazioni Carvel per ciascun operatore vengono distribuite in questi due spazi dei nomi.
Procedura
- Nella pagina Catalogo di Automation Service Broker, individuare la scheda Cluster RAG Kubernetes AI e fare clic su Richiedi.
- Selezionare un progetto.
- Immettere un nome e una descrizione per la distribuzione.
- Selezionare il numero di nodi del piano di controllo.
Impostazione Valore di esempio Numero di nodi 1 Classe di macchine virtuali best-effort-2xlarge - 8 CPU e 64 GB di memoria La selezione della classe definisce le risorse disponibili all'interno della macchina virtuale.
- Selezionare il numero di nodi worker.
Impostazione Descrizione Numero di nodi 3 Classe di macchine virtuali best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPU e 120 GB di memoria Specifica minima della classe di macchine virtuali:- CPU: 10 vCPU
- RAM CPU: 64 GB
- GPU: 2xH100
- Memoria GPU: 50 GB
Repliche con slicing temporale 1 Lo slicing temporale definisce un set di repliche per una GPU condivisa tra carichi di lavoro.
- Specificare la chiave API aziendale di NVIDIA AI.
- Fare clic su Invia.