In qualità di data scientist, è possibile utilizzare Automation Service Broker per distribuire macchine virtuali di deep learning per lo sviluppo dell'IA.
Quando si richiede una workstation IA (macchina virtuale) nel catalogo di Automation Service Broker, si esegue il provisioning di una macchina virtuale di deep learning abilitata per GPU che può essere configurata con i container NGC vCPU, vGPU, Memoria e IA/ML desiderati da NVIDIA.
Distribuzione di una macchina virtuale di deep learning in un dominio del carico di lavoro VI
In qualità di data scientist, è possibile distribuire un singolo ambiente di sviluppo definito da software GPU dal catalogo self-service di Automation Service Broker.
Procedura
risultati
Aggiunta di DCGM Exporter per il monitoraggio dei carichi di lavoro DL
È possibile utilizzare DCGM Exporter per monitorare un carico di lavoro di deep learning che utilizza la capacità della GPU.
DCGM-Exporter è uno strumento di esportazione di Prometheus che consente di monitorare l'integrità e recuperare le metriche dalle GPU. Sfrutta DCGM utilizzando i binding Go per raccogliere la telemetria GPU ed espone le metriche della GPU a Prometheus utilizzando un endpoint HTTP (/metrics). DCGM-Exporter può essere autonomo o distribuito come parte dell'operatore GPU NVIDIA.
Prima di iniziare
Verificare che una macchina virtuale di deep learning sia stata distribuita correttamente.
Procedura
- Accedere alla macchina virtuale di deep learning tramite SSH.
Per PyTorch e TensorFlow, accedere dal notebook JupyterLab.
- Eseguire il container DCGM Exporter con il comando seguente.
docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
Ad esempio, per eseguire dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 dal catalogo NVIDIA NGC, eseguire il comando seguente:docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
- Al termine dell'installazione di DCGM Exporter, visualizzare le metriche di vGPU in Prometheus e Grafana.
Distribuzione di una workstation abilitata per GPU con NVIDIA Triton Inference Server
In qualità di data scientist, è possibile distribuire una workstation abilitata per GPU con NVIDIA Triton Inference Server dal catalogo self-service di Automation Service Broker.
La workstation distribuita include Ubuntu 22.04, un driver NVIDIA vGPU, Docker Engine, NVIDIA Container Toolkit e NVIDIA Triton Inference Server.