Als datawetenschapper of DevOps-engineer kunt u Automation Service Broker gebruiken om NVIDIA RAG-workloads te implementeren.

Opmerking: Deze documentatie is gebaseerd op VMware Aria Automation 8.18. Zie RAG-workloads implementeren met selfservicecatalogusitems in VMware Aria Automation in de documentatie voor VMware Private AI Foundation with NVIDIA voor informatie over de VMware Private AI Foundation-functionaliteit in VMware Aria Automation 8.18.1.

Een RAG-werkstation implementeren

Als datawetenschapper kunt u een werkstation met GPU-functionaliteit implementeren met de referentieoplossing Retrieval Augmented Generation (RAG) uit de selfservicecatalogus van Automation Service Broker.

De RAG-referentieoplossing laat zien hoe u bedrijfswaarde kunt vinden in generatieve AI door een bestaande basis-LLM aan te vullen en in te passen in uw zakelijke gebruiksscenario. Dit is mogelijk met Retrieval Augmented Generation (RAG), waarmee feiten worden opgehaald uit een zakelijke knowledge base die de zakelijke gegevens van uw bedrijf bevat. Let vooral op manieren waarop u een LLM kunt aanvullen met uw domeinspecifieke zakelijke gegevens om AI-applicaties te maken die flexibel zijn en kunnen reageren op nieuwe ontwikkelingen.

Procedure

  1. Zoek op de pagina Catalogus in Automation Service Broker naar de kaart AI RAG Workstation en klik op Aanvragen.
  2. Selecteer een project.
  3. Voer een naam en een beschrijving in voor uw implementatie.
  4. Configureer de parameters voor het RAG-werkstation.
    Instelling Voorbeeldwaarde
    VM-klasse A100 Klein - 1 vGPU (16 GB), 8 CPU's en 16 GB geheugen
    Minimale specificatie van VM-klasse:
    • CPU: 10 vCPU's
    • CPU RAM: 64 GB
    • GPU: 2xH100
    • GPU-geheugen: 50 GB
    Grootte van gegevensschijf 3 Gi
    Gebruikerswachtwoord Maak een wachtwoord voor de standaardgebruiker. U wordt mogelijk gevraagd om uw wachtwoord opnieuw in te stellen wanneer u zich voor het eerst aanmeldt.
    Openbare SSH-sleutel Deze instelling is optioneel.
  5. Installeer softwareaanpassingen.
    1. (Optioneel) Als u een aangepaste cloud-init wilt installeren naast de cloud-init die is gedefinieerd voor de RAG-softwarebundel, schakelt u het selectievakje in en plakt u de inhoud van het configuratiepakket.
      VMware Aria Automation voegt de cloud-init van de RAG-softwarebundel en de aangepaste cloud-init samen.
    2. Geef de toegangssleutel voor uw NVIDIA NGC-portaal op.
    3. Voer de Docker Hub-verificatiegegevens in.
  6. Klik op Verzenden.

resultaten

Uw workstation bevat Ubuntu 22.04, een NVIDIA vGPU-stuurprogramma, een Docker Engine, een NVIDIA Container Toolkit en een RAG-referentieoplossing die gebruikmaakt van het Llama-2-13b-chatmodel.

Een Tanzu Kubernetes Grid RAG-cluster met GPU-versnelling implementeren

Als DevOps-engineer die de selfservicecatalogus van Automation Service Broker gebruikt, kunt u een Tanzu Kubernetes Grid RAG-cluster met GPU-functionaliteit inrichten, waar werkerknooppunten een RAG-referentieoplossing kunnen uitvoeren die het Llama2-13b-chatmodel gebruikt.

De implementatie bevat een supervisornaamruimte en een Tanzu Kubernetes Grid-cluster. Het TKG-cluster bevat twee supervisornaamruimten – één voor de NVIDIA GPU-operator en één voor de NVIDIA RAG LLM-operator, die beide vooraf zijn geïnstalleerd op het TKG-cluster. Carvel-applicaties voor elke operator worden geïmplementeerd in deze twee naamruimten.

Procedure

  1. Zoek op de pagina Catalogus in Automation Service Broker naar de kaart AI Kubernetes RAG Cluster en klik op Aanvragen.
  2. Selecteer een project.
  3. Voer een naam en een beschrijving in voor uw implementatie.
  4. Selecteer het aantal knooppunten in het controlevenster.
    Instelling Voorbeeldwaarde
    Aantal knooppunten 1
    VM-klasse best-effort-2xlarge - 8 CPU's en 64 GB geheugen

    In de klasseselectie worden de resources gedefinieerd die beschikbaar zijn op de virtuele machine.

  5. Selecteer het aantal werkknooppunten.
    Instelling Beschrijving
    Aantal knooppunten 3
    VM-klasse best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPU's en 120 GB geheugen
    Minimale specificatie van VM-klasse:
    • CPU: 10 vCPU's
    • CPU RAM: 64 GB
    • GPU: 2xH100
    • GPU-geheugen: 50 GB
    Time-slicingreplica's 1

    Time-slicing definieert een set replica's voor een GPU die tussen workloads wordt gedeeld.

  6. Geef de NVIDIA zakelijke AI API-sleutel op.
  7. Klik op Verzenden.