Als Datenwissenschaftler können Sie Automation Service Broker verwenden, um Deep Learning-VMs für die KI-Entwicklung bereitzustellen.
Wenn Sie eine KI-Workstation (VM) im Automation Service Broker-Katalog anfordern, stellen Sie eine GPU-fähige Deep Learning-VM bereit, die mit den gewünschten vCPU-, vGPU-, Arbeitsspeicher- und KI-/ML-NGC-Containern aus NVIDIA konfiguriert werden kann.
Bereitstellen einer Deep Learning-VM in einer VI-Arbeitslastdomäne
Als Datenwissenschaftler können Sie eine einzelne softwaredefinierte GPU-Entwicklungsumgebung über den Automation Service Broker-Self-Service-Katalog bereitstellen.
Prozedur
Ergebnisse
DCGM Exporter für die Dl-Arbeitslastüberwachung hinzufügen
Sie können DCGM Exporter zum Überwachen einer Deep Learning-Arbeitslast verwenden, die GPU-Kapazität verwendet.
DCGM Exporter fungiert als Exporter für Prometheus zum Überwachen des Systemzustands und Abrufen von Metriken aus GPUs. Es nutzt DCGM mithilfe von Go-Bindungen zur Erfassung von GPU-Telemetrie und macht GPU-Metriken für Prometheus mithilfe eines HTTP-Endpoints (/metrics) verfügbar. DCGM-Exporter kann eigenständig sein oder als Teil des NVIDIA GPU-Operators bereitgestellt werden.
Bevor Sie beginnen
Stellen Sie sicher, dass Sie erfolgreich eine Deep Learning-VM bereitgestellt haben.
Verfahren
- Melden Sie sich über SSH bei der Deep Learning-VM an.
Melden Sie sich für PyTorch und TensorFlow über das JupyterLab-Notizbuch an.
- Führen Sie mit dem folgenden Befehl den DCGM Exporter-Container aus.
docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
Um beispielsweise dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 aus dem NVIDIA NGC-Katalog auszuführen, führen Sie den folgenden Befehl aus:docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
- Nachdem die DCGM Exporter-Installation abgeschlossen ist, visualisieren Sie vGPU-Metriken in Prometheus und Grafana.
Bereitstellen einer GPU-fähigen Workstation mit NVIDIA Triton Inference Server
Als Datenwissenschaftler können Sie eine GPU-fähige Workstation mit NVIDIA Triton Inference Server über den Automation Service Broker-Self-Service-Katalog bereitstellen.
Die bereitgestellte Workstation umfasst Folgendes: Ubuntu 22.04, ein NVIDIA vGPU-Treiber, Docker Engine, NVIDIA Container Toolkit und NVIDIA Triton Inference Server.