Se l'amministratore del cloud ha configurato Private AI Automation Services in VMware Aria Automation, è possibile richiedere carichi di lavoro di AI utilizzando il catalogo di Automation Service Broker.

Private AI Automation Services supporta due elementi del catalogo in Automation Service Broker a cui gli utenti con le rispettive autorizzazioni possono accedere e richiedere.

  • Workstation IA: una macchina virtuale abilitata per GPU che può essere configurata con vCPU, vGPU, memoria e software IA/ML desiderato di NVIDIA.
  • AI Kubernetes Cluster: un cluster Tanzu Kubernetes abilitato per GPU che può essere configurato con un operatore GPU NVIDIA.
Importante: La soluzione Private AI Automation Services è disponibile per VMware Aria Automation 8.16.2.

Prima di iniziare

  • Verificare che Private AI Automation Services sia configurato per il progetto e di disporre delle autorizzazioni necessarie per richiedere elementi del catalogo di AI.

Tenere presente che tutti i valori indicati qui sono esempi di casi d'uso. I valori dell'account variano in base all'ambiente in uso.

Distribuzione di una macchina virtuale di deep learning in un dominio del carico di lavoro VI

In qualità di data scientist, è possibile distribuire un singolo ambiente di sviluppo definito da software GPU dal catalogo self-service di Automation Service Broker. È possibile personalizzare la macchina virtuale abilitata per GPU con i parametri della macchina per modellare i requisiti di sviluppo, specificare le configurazioni del software IA/ML in base ai requisiti di training e inferenza e specificare i pacchetti IA/ML dal registro di NVIDIA NGC tramite una chiave di accesso al portale.

Procedura

  1. Fare clic sulla scheda Utilizza in Automation Service Broker.
  2. Fare clic su Catalogo.
    Gli elementi del catalogo disponibili sono disponibili per l'utente in base al progetto selezionato. Se non si seleziona un progetto, nel catalogo vengono visualizzati tutti gli elementi del catalogo che si è autorizzati a visualizzare.
  3. Individuare la scheda Workstation IA e fare clic su Richiedi.
  4. Selezionare un progetto.
  5. Immettere un nome e una descrizione per la distribuzione.
  6. Configurare i parametri della workstation IA.
    Impostazione Valore di esempio
    Classe di macchine virtuali A100 Small - 1 vGPU (16 GB), 8 CPUs and 16 GB Memory
    Dimensioni disco dati 8 GB
    Password utente Immettere una password per l'utente predefinito. È possibile che venga richiesto di reimpostare la password al primo accesso.
    Chiave pubblica SSH Questa impostazione è opzionale.
  7. Selezionare un bundle software da installare sulla workstation.
    Impostazione Descrizione
    PyTorch PyTorch NGC Container è ottimizzato per l'accelerazione GPU e contiene un set convalidato di librerie che abilitano e ottimizzano le prestazioni della GPU. Questo container contiene anche software per accelerare i carichi di lavoro ETL (DALI, RAPIDS), di training (cuDNN, NCCL) e di inferenza (TensorRT).
    TensorFlow TensorFlow NGC Container è ottimizzato per l'accelerazione GPU e contiene un set convalidato di librerie che abilitano e ottimizzano le prestazioni della GPU. Questo container può inoltre contenere modifiche al codice sorgente di TensorFlow per massimizzare le prestazioni e la compatibilità. Questo container contiene anche software per accelerare i carichi di lavoro ETL (DALI, RAPIDS), di training (cuDNN, NCCL) e di inferenza (TensorRT).
    Campioni CUDA Si tratta di una raccolta di container per eseguire carichi di lavoro CUDA nelle GPU. La raccolta include campioni CUDA containerizzati, ad esempio vectorAdd (per illustrare l'aggiunta di vettori), nbody (o simulazione n-body gravitazionale) e altri esempi. Questi container possono essere utilizzati per convalidare la configurazione del software delle GPU nel sistema o semplicemente per eseguire alcuni carichi di lavoro di esempio.
    DCGM Exporter NVIDIA Data Center GPU Manager (DCGM) è una suite di strumenti per la gestione e il monitoraggio delle GPU dei data center NVIDIA negli ambienti cluster. Gli stack di monitoraggio sono in genere costituiti da un agente di raccolta, un database delle serie temporali per archiviare le metriche e un livello di visualizzazione. DCGM-Exporter è uno strumento di esportazione di Prometheus che consente di monitorare l'integrità e recuperare le metriche dalle GPU.
    Triton Inference Server Triton Inference Server fornisce una soluzione di inferenza cloud ed edge ottimizzata per CPU e GPU. Triton supporta un protocollo HTTP/REST e GRPC che consente ai client remoti di richiedere l'inferenza per qualsiasi modello gestito dal server. Per le distribuzioni edge, Triton è disponibile come libreria condivisa con un'API C che consente di includere tutte le funzionalità di Triton direttamente in un'applicazione.
    Generative AI Workflow - RAG Questa soluzione di riferimento dimostra come trovare valore aziendale nell'IA generativa aumentando un LLM fondamentale esistente per adattarlo al proprio caso d'uso aziendale. Questa operazione viene eseguita utilizzando la tecnologia RAG (Retrieval Augmented Generation) che recupera i dati da una knowledge base aziendale che contiene i dati dell'azienda. In questa sintesi è descritta una soluzione di riferimento per un chatbot IA basato su RAG, incluso il codice disponibile in Generative AI Examples Github di NVIDIA per gli sviluppatori. Prestare particolare attenzione ai modi in cui è possibile aumentare un LLM con i dati aziendali specifici del dominio per creare applicazioni IA agili e reattive ai nuovi sviluppi.
  8. Immettere un cloud-init personalizzato che si desidera installare oltre al cloud-init definito per il bundle software.
    VMware Aria Automation unisce il cloud-init del bundle software e il cloud-init personalizzato.
  9. Specificare la chiave di accesso di NVIDIANGC Portal.
  10. Fare clic su Invia.

Distribuzione di un cluster Tanzu Kubernetes abilitato per l'IA

Un tecnico di DevOps può richiedere un cluster Tanzu Kubernetes abilitato per GPU in cui i nodi worker possono eseguire carichi di lavoro IA/ML.

Il cluster TKG contiene un operatore GPU NVIDIA, che è un operatore Kubernetes responsabile della configurazione del driver NVIDIA corretto per l'hardware della GPU NVIDIA nei nodi del cluster TKG. Il cluster distribuito è pronto all'uso per i carichi di lavoro IA/ML senza necessità di una configurazione aggiuntiva correlata alla GPU.

Procedura

  1. Individuare la scheda AI Kubernetes Cluster e fare clic su Richiedi.
  2. Selezionare un progetto.
  3. Immettere un nome e una descrizione per la distribuzione.
  4. Selezionare il numero di nodi del riquadro di controllo.
    Impostazione Valore di esempio
    Numero di nodi 1
    Classe di macchine virtuali cpu-only-medium - 8 CPUs and 16 GB Memory

    La selezione della classe definisce le risorse disponibili all'interno della macchina virtuale.

  5. Selezionare il numero di nodi di lavoro.
    Impostazione Descrizione
    Numero di nodi 3
    Classe di macchine virtuali a100-medium - 4 vGPU (64 GB), 16 CPUs and 32 GB Memory
  6. Fare clic su Invia.

risultati

La distribuzione contiene uno spazio dei nomi supervisore, un cluster TKG con tre nodi worker, più risorse all'interno del cluster TKG e un'applicazione carvel che distribuisce l'applicazione dell'operatore GPU.

Monitoraggio delle distribuzioni di Private AI

La pagina Distribuzioni consente di gestire le distribuzioni e le risorse associate apportando modifiche alle distribuzioni, risolvendo i problemi relativi alle distribuzioni non riuscite, apportando modifiche alle risorse ed eliminando le distribuzioni inutilizzate.

Per gestire le distribuzioni, selezionare Utilizzo > Distribuzioni > Distribuzioni.

Per ulteriori informazioni, vedere Come si gestiscono le distribuzioni personali di Automation Service Broker.