Distribuzione dei carichi di lavoro RAG

I data scientist o i tecnici di DevOps possono utilizzare Automation Service Broker per distribuire carichi di lavoro RAG NVIDIA.

Nota: Questa documentazione si basa su VMware Aria Automation 8.18. Per informazioni sulle funzionalità di VMware Private AI Foundation in VMware Aria Automation 8.18.1, vedere Distribuzione dei carichi di lavoro RAG tramite elementi del catalogo self-service in VMware Aria Automation nella documentazione di VMware Private AI Foundation with NVIDIA.

Distribuzione di una workstation RAG

In qualità di data scientist, è possibile distribuire una workstation abilitata per GPU con la soluzione di riferimento Retrieval Augmented Generation (RAG) dal catalogo self-service di Automation Service Broker.

La soluzione di riferimento RAG dimostra come ottenere valore aziendale dall'IA generativa aumentando un LLM fondamentale esistente per adattarlo al proprio caso d'uso aziendale. Questa operazione viene eseguita utilizzando la tecnologia RAG (Retrieval Augmented Generation) che recupera i dati da una knowledge base che contiene i dati dell'azienda. Prestare particolare attenzione ai modi in cui è possibile aumentare un LLM con i dati aziendali specifici del dominio per creare applicazioni IA agili e reattive ai nuovi sviluppi.

Procedura

Nella pagina Catalogo in Automation Service Broker, individuare la scheda AI RAG Workstation e fare clic su Richiedi.
Selezionare un progetto.
Immettere un nome e una descrizione per la distribuzione.

Configurare i parametri della workstation RAG.

Impostazione	Valore di esempio
Classe di macchine virtuali	`A100 Small - 1 vGPU (16 GB), 8 CPU e 16 GB di memoria` Specifica classe macchina virtuale minima: CPU: 10 vCPU RAM CPU: 64 GB GPU: 2xH100 Memoria GPU: 50 GB
Dimensioni disco dati	`3 Gi`
Password utente	Immettere una password per l'utente predefinito. È possibile che venga richiesto di reimpostare la password al primo accesso.
Chiave pubblica SSH	Questa impostazione è opzionale.

Installare le personalizzazioni software.
1. (Facoltativo) Se si desidera installare un cloud-init personalizzato oltre al cloud-init definito per il bundle software RAG, selezionare la casella di controllo e incollare il contenuto del pacchetto di configurazione.
  VMware Aria Automation unisce il cloud-init del bundle software RAG e il cloud-init personalizzato.
2. Specificare la chiave di accesso di NVIDIA NGC Portal.
3. Immettere le credenziali di Docker Hub.
Fare clic su Invia.

risultati

La workstation include Ubuntu 22.04, un driver NVIDIA vGPU, un Docker Engine, un NVIDIA Container Toolkit e una soluzione RAG di riferimento che utilizza il modello Llama-2-13b-chat.

Distribuzione di un cluster RAG Tanzu Kubernetes Grid accelerato da GPU

Un tecnico di DevOps utilizzando il catalogo self-service di Automation Service Broker può eseguire il provisioning di un cluster RAG Tanzu Kubernetes Grid abilitato per GPU, in cui i nodi worker possono eseguire una soluzione RAG di riferimento che utilizza il modello di Llama2-13b-chat.

La distribuzione contiene uno spazio dei nomi supervisore e un cluster Tanzu Kubernetes Grid. Il cluster TKG contiene due spazi dei nomi supervisore, uno per l'operatore GPU NVIDIA e l'altro per l'operatore LLM RAG NVIDIA, entrambi preinstallati nel cluster TKG. Le applicazioni Carvel per ciascun operatore vengono distribuite in questi due spazi dei nomi.

Procedura

Nella pagina Catalogo in Automation Service Broker, individuare la scheda AI Kubernetes RAG Cluster e fare clic su Richiedi.
Selezionare un progetto.
Immettere un nome e una descrizione per la distribuzione.

Selezionare il numero di nodi del riquadro di controllo.

Impostazione	Valore di esempio
Numero di nodi	`1`
Classe di macchine virtuali	`best-effort-2xlarge - 8 CPU e 64 GB di memoria` La selezione della classe definisce le risorse disponibili all'interno della macchina virtuale.

Selezionare il numero di nodi di lavoro.

Impostazione	Descrizione
Numero di nodi	`3`
Classe di macchine virtuali	`best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPU e 120 GB di memoria` Specifica classe macchina virtuale minima: CPU: 10 vCPU RAM CPU: 64 GB GPU: 2xH100 Memoria GPU: 50 GB
Repliche time-slicing	`1` Il time-slicing definisce un set di repliche per una GPU condivisa tra carichi di lavoro.

Fornire la chiave API aziendale IA NVIDIA.
Fare clic su Invia.