In qualità di data scientist, è possibile utilizzare Automation Service Broker per distribuire macchine virtuali di deep learning per lo sviluppo dell'IA.

Nota: Questa documentazione si basa su VMware Aria Automation 8.18. Per informazioni sulle funzionalità di VMware Private AI Foundation in VMware Aria Automation 8.18.1, vedere Distribuzione di Deep Learning VM tramite elementi del catalogo self-service in VMware Aria Automation nella documentazione di VMware Private AI Foundation with NVIDIA.

Quando si richiede una workstation IA (macchina virtuale) nel catalogo di Automation Service Broker, si esegue il provisioning di una macchina virtuale di deep learning abilitata per GPU che può essere configurata con i container NGC vCPU, vGPU, Memoria e IA/ML desiderati da NVIDIA.

Distribuzione di una macchina virtuale di deep learning in un dominio del carico di lavoro VI

In qualità di data scientist, è possibile distribuire un singolo ambiente di sviluppo definito da software GPU dal catalogo self-service di Automation Service Broker.

È possibile personalizzare la macchina virtuale abilitata per GPU con i parametri della macchina per modellare i requisiti di sviluppo, preinstallare i framework IA/ML come PyTorch, TensorFlow e CUDA in base ai requisiti di addestramento e inferenza e specificare i pacchetti IA/ML dal registro di NVIDIA NGC tramite una chiave di accesso al portale.

Procedura

  1. Nella pagina Catalogo in Automation Service Broker, individuare la scheda Workstation IA e fare clic su Richiedi.
  2. Selezionare un progetto.
  3. Immettere un nome e una descrizione per la distribuzione.
  4. Configurare i parametri della workstation IA.
    Impostazione Valore di esempio
    Classe di macchine virtuali A100 Small - 1 vGPU (16 GB), 8 CPU e 16 GB di memoria
    Dimensioni disco dati 32 GB
    Password utente Immettere una password per l'utente predefinito. È possibile che venga richiesto di reimpostare la password al primo accesso.
    Chiave pubblica SSH Questa impostazione è opzionale.
  5. Selezionare un bundle software da installare sulla workstation.
    Impostazione Descrizione
    PyTorch PyTorch NGC Container è ottimizzato per l'accelerazione GPU e contiene un set convalidato di librerie che abilitano e ottimizzano le prestazioni della GPU. Questo container contiene anche software per accelerare i carichi di lavoro ETL (DALI, RAPIDS), di training (cuDNN, NCCL) e di inferenza (TensorRT).
    TensorFlow TensorFlow NGC Container è ottimizzato per l'accelerazione GPU e contiene un set convalidato di librerie che abilitano e ottimizzano le prestazioni della GPU. Questo container può inoltre contenere modifiche al codice sorgente di TensorFlow per massimizzare le prestazioni e la compatibilità. Questo container contiene anche software per accelerare i carichi di lavoro ETL (DALI, RAPIDS), di training (cuDNN, NCCL) e di inferenza (TensorRT).
    Campioni CUDA Si tratta di una raccolta di container per eseguire carichi di lavoro CUDA nelle GPU. La raccolta include campioni CUDA containerizzati, ad esempio vectorAdd (per illustrare l'aggiunta di vettori), nbody (o simulazione n-body gravitazionale) e altri esempi. Questi container possono essere utilizzati per convalidare la configurazione del software delle GPU nel sistema o semplicemente per eseguire alcuni carichi di lavoro di esempio.
  6. (Facoltativo) Immettere un cloud-init personalizzato che si desidera installare oltre al cloud-init definito per il bundle software.
    VMware Aria Automation unisce il cloud-init del bundle software e il cloud-init personalizzato.
  7. Fare clic su Invia.

risultati

La scheda Panoramica della distribuzione contiene un riepilogo del software installato, insieme alle istruzioni su come accedere all'applicazione, ai servizi e alla macchina virtuale workstation.

Aggiunta di DCGM Exporter per il monitoraggio dei carichi di lavoro DL

È possibile utilizzare DCGM Exporter per monitorare un carico di lavoro di deep learning che utilizza la capacità della GPU.

DCGM-Exporter è uno strumento di esportazione di Prometheus che consente di monitorare l'integrità e recuperare le metriche dalle GPU. Sfrutta DCGM utilizzando i binding Go per raccogliere la telemetria GPU ed espone le metriche della GPU a Prometheus utilizzando un endpoint HTTP (/metrics). DCGM-Exporter può essere autonomo o distribuito come parte dell'operatore GPU NVIDIA.

Prima di iniziare

Verificare che una macchina virtuale di deep learning sia stata distribuita correttamente.

Procedura

  1. Accedere alla macchina virtuale di deep learning tramite SSH.

    Per PyTorch e TensorFlow, accedere dal notebook JupyterLab.

  2. Eseguire il container DCGM Exporter con il comando seguente.
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
    Ad esempio, per eseguire dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 dal catalogo NVIDIA NGC, eseguire il comando seguente:
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
  3. Al termine dell'installazione di DCGM Exporter, visualizzare le metriche di vGPU in Prometheus e Grafana.
    1. Installare Prometheus e Grafana.
    2. Visualizzare le metriche di vGPU in Prometheus.
    3. Visualizzare le metriche in Grafana.

Distribuzione di una workstation abilitata per GPU con NVIDIA Triton Inference Server

In qualità di data scientist, è possibile distribuire una workstation abilitata per GPU con NVIDIA Triton Inference Server dal catalogo self-service di Automation Service Broker.

NVIDIA Triton Inference Server fornisce una soluzione di inferenza cloud ed edge ottimizzata per CPU e GPU. Triton Inference Server supporta un protocollo HTTP/REST e GRPC che consente ai client remoti di richiedere l'inferenza per un'ampia gamma di framework di machine learning, tra cui TensorFlow, PyTorch e altri. Per le distribuzioni edge, Triton Inference Server è disponibile come libreria condivisa con un'API C che consente di includere tutte le funzionalità di Triton direttamente in un'applicazione.

La workstation distribuita include Ubuntu 22.04, un driver NVIDIA vGPU, Docker Engine, NVIDIA Container Toolkit e NVIDIA Triton Inference Server.

Procedura

  1. Nella pagina Catalogo in Automation Service Broker, individuare la scheda Triton Inferencing Server e fare clic su Richiedi.
  2. Selezionare un progetto.
  3. Immettere un nome e una descrizione per la distribuzione.
  4. Configurare i parametri della workstation IA.
    Impostazione Valore di esempio
    Classe di macchine virtuali A100 Small - 1 vGPU (16 GB), 8 CPU e 16 GB di memoria

    Le classi di macchine virtuali con supporto di UVM (Unified Virtual Memory) sono necessarie per l'esecuzione di Triton Inferencing Server.

    Dimensioni disco dati 32 GB
    Password utente Immettere una password per l'utente predefinito. È possibile che venga richiesto di reimpostare la password al primo accesso.
    Chiave pubblica SSH Questa impostazione è opzionale.
  5. (Facoltativo) Immettere un cloud-init personalizzato che si desidera installare oltre al cloud-init definito per il bundle software.
    VMware Aria Automation unisce il cloud-init del bundle software e il cloud-init personalizzato.
  6. Fare clic su Invia.