I data scientist o i tecnici di DevOps possono utilizzare Automation Service Broker per distribuire carichi di lavoro RAG NVIDIA.
Distribuzione di una workstation RAG
In qualità di data scientist, è possibile distribuire una workstation abilitata per GPU con la soluzione di riferimento Retrieval Augmented Generation (RAG) dal catalogo self-service di Automation Service Broker.
Procedura
- Nella pagina Catalogo in Automation Service Broker, individuare la scheda AI RAG Workstation e fare clic su Richiedi.
- Selezionare un progetto.
- Immettere un nome e una descrizione per la distribuzione.
- Configurare i parametri della workstation RAG.
Impostazione Valore di esempio Classe di macchine virtuali A100 Small - 1 vGPU (16 GB), 8 CPU e 16 GB di memoria Specifica classe macchina virtuale minima:- CPU: 10 vCPU
- RAM CPU: 64 GB
- GPU: 2xH100
- Memoria GPU: 50 GB
Dimensioni disco dati 3 Gi Password utente Immettere una password per l'utente predefinito. È possibile che venga richiesto di reimpostare la password al primo accesso. Chiave pubblica SSH Questa impostazione è opzionale. - Installare le personalizzazioni software.
- (Facoltativo) Se si desidera installare un cloud-init personalizzato oltre al cloud-init definito per il bundle software RAG, selezionare la casella di controllo e incollare il contenuto del pacchetto di configurazione.
VMware Aria Automation unisce il cloud-init del bundle software RAG e il cloud-init personalizzato.
- Specificare la chiave di accesso di NVIDIA NGC Portal.
- Immettere le credenziali di Docker Hub.
- (Facoltativo) Se si desidera installare un cloud-init personalizzato oltre al cloud-init definito per il bundle software RAG, selezionare la casella di controllo e incollare il contenuto del pacchetto di configurazione.
- Fare clic su Invia.
risultati
Distribuzione di un cluster RAG Tanzu Kubernetes Grid accelerato da GPU
Un tecnico di DevOps utilizzando il catalogo self-service di Automation Service Broker può eseguire il provisioning di un cluster RAG Tanzu Kubernetes Grid abilitato per GPU, in cui i nodi worker possono eseguire una soluzione RAG di riferimento che utilizza il modello di Llama2-13b-chat.
La distribuzione contiene uno spazio dei nomi supervisore e un cluster Tanzu Kubernetes Grid. Il cluster TKG contiene due spazi dei nomi supervisore, uno per l'operatore GPU NVIDIA e l'altro per l'operatore LLM RAG NVIDIA, entrambi preinstallati nel cluster TKG. Le applicazioni Carvel per ciascun operatore vengono distribuite in questi due spazi dei nomi.
Procedura
- Nella pagina Catalogo in Automation Service Broker, individuare la scheda AI Kubernetes RAG Cluster e fare clic su Richiedi.
- Selezionare un progetto.
- Immettere un nome e una descrizione per la distribuzione.
- Selezionare il numero di nodi del riquadro di controllo.
Impostazione Valore di esempio Numero di nodi 1 Classe di macchine virtuali best-effort-2xlarge - 8 CPU e 64 GB di memoria La selezione della classe definisce le risorse disponibili all'interno della macchina virtuale.
- Selezionare il numero di nodi di lavoro.
Impostazione Descrizione Numero di nodi 3 Classe di macchine virtuali best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPU e 120 GB di memoria Specifica classe macchina virtuale minima:- CPU: 10 vCPU
- RAM CPU: 64 GB
- GPU: 2xH100
- Memoria GPU: 50 GB
Repliche time-slicing 1 Il time-slicing definisce un set di repliche per una GPU condivisa tra carichi di lavoro.
- Fornire la chiave API aziendale IA NVIDIA.
- Fare clic su Invia.