Als datawetenschapper of DevOps-engineer kunt u Automation Service Broker gebruiken om NVIDIA RAG-workloads te implementeren.
Een RAG-werkstation implementeren
Als datawetenschapper kunt u een werkstation met GPU-functionaliteit implementeren met de referentieoplossing Retrieval Augmented Generation (RAG) uit de selfservicecatalogus van Automation Service Broker.
Procedure
- Zoek op de pagina Catalogus in Automation Service Broker naar de kaart AI RAG Workstation en klik op Aanvragen.
- Selecteer een project.
- Voer een naam en een beschrijving in voor uw implementatie.
- Configureer de parameters voor het RAG-werkstation.
Instelling Voorbeeldwaarde VM-klasse A100 Klein - 1 vGPU (16 GB), 8 CPU's en 16 GB geheugen Minimale specificatie van VM-klasse:- CPU: 10 vCPU's
- CPU RAM: 64 GB
- GPU: 2xH100
- GPU-geheugen: 50 GB
Grootte van gegevensschijf 3 Gi Gebruikerswachtwoord Maak een wachtwoord voor de standaardgebruiker. U wordt mogelijk gevraagd om uw wachtwoord opnieuw in te stellen wanneer u zich voor het eerst aanmeldt. Openbare SSH-sleutel Deze instelling is optioneel. - Installeer softwareaanpassingen.
- (Optioneel) Als u een aangepaste cloud-init wilt installeren naast de cloud-init die is gedefinieerd voor de RAG-softwarebundel, schakelt u het selectievakje in en plakt u de inhoud van het configuratiepakket.
VMware Aria Automation voegt de cloud-init van de RAG-softwarebundel en de aangepaste cloud-init samen.
- Geef de toegangssleutel voor uw NVIDIA NGC-portaal op.
- Voer de Docker Hub-verificatiegegevens in.
- (Optioneel) Als u een aangepaste cloud-init wilt installeren naast de cloud-init die is gedefinieerd voor de RAG-softwarebundel, schakelt u het selectievakje in en plakt u de inhoud van het configuratiepakket.
- Klik op Verzenden.
resultaten
Een Tanzu Kubernetes Grid RAG-cluster met GPU-versnelling implementeren
Als DevOps-engineer die de selfservicecatalogus van Automation Service Broker gebruikt, kunt u een Tanzu Kubernetes Grid RAG-cluster met GPU-functionaliteit inrichten, waar werkerknooppunten een RAG-referentieoplossing kunnen uitvoeren die het Llama2-13b-chatmodel gebruikt.
De implementatie bevat een supervisornaamruimte en een Tanzu Kubernetes Grid-cluster. Het TKG-cluster bevat twee supervisornaamruimten – één voor de NVIDIA GPU-operator en één voor de NVIDIA RAG LLM-operator, die beide vooraf zijn geïnstalleerd op het TKG-cluster. Carvel-applicaties voor elke operator worden geïmplementeerd in deze twee naamruimten.
Procedure
- Zoek op de pagina Catalogus in Automation Service Broker naar de kaart AI Kubernetes RAG Cluster en klik op Aanvragen.
- Selecteer een project.
- Voer een naam en een beschrijving in voor uw implementatie.
- Selecteer het aantal knooppunten in het controlevenster.
Instelling Voorbeeldwaarde Aantal knooppunten 1 VM-klasse best-effort-2xlarge - 8 CPU's en 64 GB geheugen In de klasseselectie worden de resources gedefinieerd die beschikbaar zijn op de virtuele machine.
- Selecteer het aantal werkknooppunten.
Instelling Beschrijving Aantal knooppunten 3 VM-klasse best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPU's en 120 GB geheugen Minimale specificatie van VM-klasse:- CPU: 10 vCPU's
- CPU RAM: 64 GB
- GPU: 2xH100
- GPU-geheugen: 50 GB
Time-slicingreplica's 1 Time-slicing definieert een set replica's voor een GPU die tussen workloads wordt gedeeld.
- Geef de NVIDIA zakelijke AI API-sleutel op.
- Klik op Verzenden.