Als Datenwissenschaftler können Sie Automation Service Broker verwenden, um Deep Learning-VMs für die KI-Entwicklung bereitzustellen.

Hinweis: Diese Dokumentation basiert auf VMware Aria Automation 8.18. Informationen zur VMware Private AI Foundation-Funktionalität in VMware Aria Automation 8.18.1 finden Sie unter Bereitstellen von Deep Learning-VMs mithilfe von Self-Service-Katalogelementen in VMware Aria Automation in der Dokumentation zu VMware Private AI Foundation mit NVIDIA.

Wenn Sie eine KI-Workstation (VM) im Automation Service Broker-Katalog anfordern, stellen Sie eine GPU-fähige Deep Learning-VM bereit, die mit den gewünschten vCPU-, vGPU-, Arbeitsspeicher- und KI-/ML-NGC-Containern aus NVIDIA konfiguriert werden kann.

Bereitstellen einer Deep Learning-VM in einer VI-Arbeitslastdomäne

Als Datenwissenschaftler können Sie eine einzelne softwaredefinierte GPU-Entwicklungsumgebung über den Automation Service Broker-Self-Service-Katalog bereitstellen.

Sie können eine GPU-fähige virtuelle Maschine mit Maschinenparametern erstellen, um die Entwicklungsanforderungen zu modellieren, KI/ML-Frameworks wie PyTorch, TensorFlow und CUDA vorinstallieren, die KI-/ML-Softwarekonfigurationen zur Erfüllung von Schulungs- und Inferenzanforderungen angeben und die KI-/ML-Pakete aus der NVIDIA NGC-Registrierung über einen Portalzugriffsschlüssel festlegen.

Prozedur

  1. Suchen Sie auf der Seite Katalog in Automation Service Broker die Karte AI Workstation und klicken Sie auf Anfordern.
  2. Wählen Sie ein Projekt aus.
  3. Geben Sie einen Namen und eine Beschreibung für Ihre Bereitstellung ein.
  4. Konfigurieren Sie die Parameter der KI-Arbeitsstation.
    Einstellung Beispielwert
    VM-Klasse A100 klein – 1 vGPU (16 GB), 8 CPUs und 16 GB Arbeitsspeicher
    Größe der Datenfestplatte 32 GB
    Benutzerkennwort Geben Sie ein Kennwort für den Standardbenutzer ein. Sie werden bei der ersten Anmeldung unter Umständen aufgefordert, Ihr Kennwort zurückzusetzen.
    Öffentlicher SSH-Schlüssel Diese Einstellung ist optional.
  5. Wählen Sie ein Softwarepaket aus, das auf Ihrer Arbeitsstation installiert werden soll.
    Einstellung Beschreibung
    PyTorch Der PyTorch NGC-Container ist für die GPU-Beschleunigung optimiert und enthält einen validierten Satz an Bibliotheken, die die GPU-Leistung aktivieren und optimieren. Dieser Container enthält auch Software zur Beschleunigung von Arbeitslasten für ETL (DALI, RAPIDS), Schulungen (cuDNN, NCCL) und Inferenz (TensorRT).
    TensorFlow Der TensorFlow NGC-Container ist für die GPU-Beschleunigung optimiert und enthält einen validierten Satz an Bibliotheken, die die GPU-Leistung aktivieren und optimieren. Dieser Container kann auch Änderungen am TensorFlow-Quellcode enthalten, um Leistung und Kompatibilität zu maximieren. Dieser Container enthält auch Software zur Beschleunigung von Arbeitslasten für ETL (DALI, RAPIDS), Schulungen (cuDNN, NCCL) und Inferenz (TensorRT).
    CUDA-Beispiele Hierbei handelt es sich um eine Sammlung von Containern zum Ausführen von CUDA-Arbeitslasten auf den GPUs. Die Sammlung umfasst containerisierte CUDA-Beispiele wie vectorAdd (zur Veranschaulichung der Vektorhinzufügung), nbody (oder Gravitations-N-Körper-Simulation) und andere Beispiele. Diese Container können zur Validierung der Softwarekonfiguration von GPUs im System oder einfach zur Ausführung bestimmter Beispielarbeitslasten verwendet werden.
  6. (Optional) Geben Sie zusätzlich zu der für das Softwarepaket definierten cloud-init eine benutzerdefinierte cloud-init ein, die Sie installieren möchten.
    VMware Aria Automation führt die cloud-init aus dem Softwarepaket und die benutzerdefinierte cloud-init zusammen.
  7. Klicken Sie auf Senden.

Ergebnisse

Die Registerkarte „Übersicht“ über die Bereitstellung enthält eine Übersicht über die installierte Software sowie Anweisungen zum Zugriff auf die Anwendung, Dienste und die Workstation-VM.

DCGM Exporter für die Dl-Arbeitslastüberwachung hinzufügen

Sie können DCGM Exporter zum Überwachen einer Deep Learning-Arbeitslast verwenden, die GPU-Kapazität verwendet.

DCGM Exporter fungiert als Exporter für Prometheus zum Überwachen des Systemzustands und Abrufen von Metriken aus GPUs. Es nutzt DCGM mithilfe von Go-Bindungen zur Erfassung von GPU-Telemetrie und macht GPU-Metriken für Prometheus mithilfe eines HTTP-Endpoints (/metrics) verfügbar. DCGM-Exporter kann eigenständig sein oder als Teil des NVIDIA GPU-Operators bereitgestellt werden.

Bevor Sie beginnen

Stellen Sie sicher, dass Sie erfolgreich eine Deep Learning-VM bereitgestellt haben.

Verfahren

  1. Melden Sie sich über SSH bei der Deep Learning-VM an.

    Melden Sie sich für PyTorch und TensorFlow über das JupyterLab-Notizbuch an.

  2. Führen Sie mit dem folgenden Befehl den DCGM Exporter-Container aus.
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
    Um beispielsweise dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 aus dem NVIDIA NGC-Katalog auszuführen, führen Sie den folgenden Befehl aus:
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
  3. Nachdem die DCGM Exporter-Installation abgeschlossen ist, visualisieren Sie vGPU-Metriken in Prometheus und Grafana.
    1. Installieren Sie Prometheus und Grafana.
    2. Zeigen Sie vGPU-Metriken in Prometheus an.
    3. Visualisieren Sie Metriken in Grafana.

Bereitstellen einer GPU-fähigen Workstation mit NVIDIA Triton Inference Server

Als Datenwissenschaftler können Sie eine GPU-fähige Workstation mit NVIDIA Triton Inference Server über den Automation Service Broker-Self-Service-Katalog bereitstellen.

NVIDIA Triton Inference Server stellt eine Inferenzlösung für Cloud und Edge bereit, die sowohl für CPUs als auch für GPUs optimiert ist. Triton Inference Server unterstützt ein HTTP/REST- und GRPC-Protokoll, mit dem Remote-Clients Inferenzen für eine Vielzahl von Frameworks für maschinelles Lernen anfordern können, einschließlich TensorFlow, PyTorch usw. Für Edge-Bereitstellungen steht Triton Inference Server als gemeinsam genutzte Bibliothek mit einer C-API zur Verfügung, mit der die gesamte Funktionalität von Triton direkt in eine Anwendung aufgenommen werden kann.

Die bereitgestellte Workstation umfasst Folgendes: Ubuntu 22.04, ein NVIDIA vGPU-Treiber, Docker Engine, NVIDIA Container Toolkit und NVIDIA Triton Inference Server.

Prozedur

  1. Suchen Sie auf der Seite Katalog in Automation Service Broker die Karte Triton Inference Server und klicken Sie auf Anfordern.
  2. Wählen Sie ein Projekt aus.
  3. Geben Sie einen Namen und eine Beschreibung für Ihre Bereitstellung ein.
  4. Konfigurieren Sie die Parameter der KI-Arbeitsstation.
    Einstellung Beispielwert
    VM-Klasse A100 klein – 1 vGPU (16 GB), 8 CPUs und 16 GB Arbeitsspeicher

    VM-Klassen mit UVM-Unterstützung (Unified Virtual Memory) sind für die Ausführung von Triton Inference Server erforderlich

    Größe der Datenfestplatte 32 GB
    Benutzerkennwort Geben Sie ein Kennwort für den Standardbenutzer ein. Sie werden bei der ersten Anmeldung unter Umständen aufgefordert, Ihr Kennwort zurückzusetzen.
    Öffentlicher SSH-Schlüssel Diese Einstellung ist optional.
  5. (Optional) Geben Sie zusätzlich zu der für das Softwarepaket definierten cloud-init eine benutzerdefinierte cloud-init ein, die Sie installieren möchten.
    VMware Aria Automation führt die cloud-init aus dem Softwarepaket und die benutzerdefinierte cloud-init zusammen.
  6. Klicken Sie auf Senden.