I data scientist o i tecnici di DevOps possono utilizzare Automation Service Broker per distribuire carichi di lavoro RAG NVIDIA.

Nota: Questa documentazione si basa su VMware Aria Automation 8.18. Per informazioni sulle funzionalità di VMware Private AI Foundation in VMware Aria Automation 8.18.1, vedere Distribuzione dei carichi di lavoro RAG tramite elementi del catalogo self-service in VMware Aria Automation nella documentazione di VMware Private AI Foundation with NVIDIA.

Distribuzione di una workstation RAG

In qualità di data scientist, è possibile distribuire una workstation abilitata per GPU con la soluzione di riferimento Retrieval Augmented Generation (RAG) dal catalogo self-service di Automation Service Broker.

La soluzione di riferimento RAG dimostra come ottenere valore aziendale dall'IA generativa aumentando un LLM fondamentale esistente per adattarlo al proprio caso d'uso aziendale. Questa operazione viene eseguita utilizzando la tecnologia RAG (Retrieval Augmented Generation) che recupera i dati da una knowledge base che contiene i dati dell'azienda. Prestare particolare attenzione ai modi in cui è possibile aumentare un LLM con i dati aziendali specifici del dominio per creare applicazioni IA agili e reattive ai nuovi sviluppi.

Procedura

  1. Nella pagina Catalogo in Automation Service Broker, individuare la scheda AI RAG Workstation e fare clic su Richiedi.
  2. Selezionare un progetto.
  3. Immettere un nome e una descrizione per la distribuzione.
  4. Configurare i parametri della workstation RAG.
    Impostazione Valore di esempio
    Classe di macchine virtuali A100 Small - 1 vGPU (16 GB), 8 CPU e 16 GB di memoria
    Specifica classe macchina virtuale minima:
    • CPU: 10 vCPU
    • RAM CPU: 64 GB
    • GPU: 2xH100
    • Memoria GPU: 50 GB
    Dimensioni disco dati 3 Gi
    Password utente Immettere una password per l'utente predefinito. È possibile che venga richiesto di reimpostare la password al primo accesso.
    Chiave pubblica SSH Questa impostazione è opzionale.
  5. Installare le personalizzazioni software.
    1. (Facoltativo) Se si desidera installare un cloud-init personalizzato oltre al cloud-init definito per il bundle software RAG, selezionare la casella di controllo e incollare il contenuto del pacchetto di configurazione.
      VMware Aria Automation unisce il cloud-init del bundle software RAG e il cloud-init personalizzato.
    2. Specificare la chiave di accesso di NVIDIA NGC Portal.
    3. Immettere le credenziali di Docker Hub.
  6. Fare clic su Invia.

risultati

La workstation include Ubuntu 22.04, un driver NVIDIA vGPU, un Docker Engine, un NVIDIA Container Toolkit e una soluzione RAG di riferimento che utilizza il modello Llama-2-13b-chat.

Distribuzione di un cluster RAG Tanzu Kubernetes Grid accelerato da GPU

Un tecnico di DevOps utilizzando il catalogo self-service di Automation Service Broker può eseguire il provisioning di un cluster RAG Tanzu Kubernetes Grid abilitato per GPU, in cui i nodi worker possono eseguire una soluzione RAG di riferimento che utilizza il modello di Llama2-13b-chat.

La distribuzione contiene uno spazio dei nomi supervisore e un cluster Tanzu Kubernetes Grid. Il cluster TKG contiene due spazi dei nomi supervisore, uno per l'operatore GPU NVIDIA e l'altro per l'operatore LLM RAG NVIDIA, entrambi preinstallati nel cluster TKG. Le applicazioni Carvel per ciascun operatore vengono distribuite in questi due spazi dei nomi.

Procedura

  1. Nella pagina Catalogo in Automation Service Broker, individuare la scheda AI Kubernetes RAG Cluster e fare clic su Richiedi.
  2. Selezionare un progetto.
  3. Immettere un nome e una descrizione per la distribuzione.
  4. Selezionare il numero di nodi del riquadro di controllo.
    Impostazione Valore di esempio
    Numero di nodi 1
    Classe di macchine virtuali best-effort-2xlarge - 8 CPU e 64 GB di memoria

    La selezione della classe definisce le risorse disponibili all'interno della macchina virtuale.

  5. Selezionare il numero di nodi di lavoro.
    Impostazione Descrizione
    Numero di nodi 3
    Classe di macchine virtuali best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPU e 120 GB di memoria
    Specifica classe macchina virtuale minima:
    • CPU: 10 vCPU
    • RAM CPU: 64 GB
    • GPU: 2xH100
    • Memoria GPU: 50 GB
    Repliche time-slicing 1

    Il time-slicing definisce un set di repliche per una GPU condivisa tra carichi di lavoro.

  6. Fornire la chiave API aziendale IA NVIDIA.
  7. Fare clic su Invia.