Nach dem Bereitstellen einer Deep Learning-VM in VMware Private AI Foundation with NVIDIA wird die angegebene DL-Arbeitslast nicht ausgeführt.

Problem

Sie stellen eine Deep Learning-VM mit einer DL-Arbeitslast bereit, die beim ersten Start vorab installiert werden soll. Nach dem Start der Deep Learning-VM wird die DL-Arbeitslast nicht ausgeführt.

Ursache

  1. Die base64-codierten user-data oder Werte anderer OVF-Parameter, wie z. B. image-oneliner oder config-json, werden in der Datei /opt/dlvm/dl_app.sh falsch gespeichert oder falsch dekodiert. Dies hat zur Folge, dass das DL-Arbeitslastskript nicht ausgeführt wird.
  2. Die Installation des vGPU-Treibers ist fehlgeschlagen, wodurch das im OVF-Parameter user-data übergebene Cloud-init-Skript nicht ausgeführt wird. Das Cloud-init-Skript ist auf die erfolgreiche Installation des NVIDIA vGPU-Treibers angewiesen.

Lösung

Überprüfen Sie auf der Deep Learning-VM, ob die DL-Arbeitslast auf der virtuellen Maschine installiert ist, und wenden Sie eine passende Lösung an.

Verfügbarkeit der DL-Arbeitslast Lösung
Die Komponenten der DL-Arbeitslast werden nicht auf der virtuellen Maschine erstellt.
  • Wenn Sie ein Cloud-init-Skript als Eingabe für den OVF-Parameter user-data verwenden, überprüfen Sie die folgenden Werte:
    • Überprüfen Sie das kodierte Skript, das als user-data eingegeben wird.

      Stellen Sie sicher, dass #cloud-config in der ersten Zeile angezeigt wird und im base64-Äquivalent enthalten ist.

    • Überprüfen Sie den Parameter path.

    • Überprüfen Sie die base64-codierte Zeichenfolge und stellen Sie sicher, dass der Wert user-data korrekt in /opt/dlvm/dl_app.sh gespeichert wurde.

  • Wenn Sie andere OVF-Parameter verwenden, überprüfen Sie die folgenden Werte:

    • image-oneliner. Überprüfen Sie die base64-codierte Zeichenfolge und stellen Sie sicher, dass der einzeilige Befehl korrekt in /opt/dlvm/dl_app.sh gespeichert wurde.

    • config-json. Überprüfen Sie die base64-codierte Zeichenfolge und stellen Sie sicher, dass die Docker-Erstellungsdatei und die Datei config.json, sofern angegeben, ordnungsgemäß in /root/docker-compose.yaml und /root/.docker/config.json gespeichert werden.

Informationen zu den OVF-Parametern des aktuellen Deep Learning-VM-Images finden Sie unter OVF-Eigenschaften von Deep Learning-VMs.

Die Komponenten der DL-Arbeitslast werden erstellt, aber die Arbeitslast wird nicht ausgeführt.
  • Überprüfen Sie die Fehlermeldungen in /var/log/vgpu-install.log.

  • Stellen Sie bei Verwendung des Cloud-init-Skripts als Eingabe für den OVF-Parameter user-data sicher, dass der NVIDIA vGPU-Treiber installiert ist und ordnungsgemäß funktioniert. Das Cloud-init-Skript wird nicht ausgeführt, wenn die Installation des NVIDIA vGPU-Treibers fehlschlägt.