Nach dem Bereitstellen einer Deep Learning-VM in VMware Private AI Foundation with NVIDIA wird die angegebene DL-Arbeitslast nicht ausgeführt.
Problem
Sie stellen eine Deep Learning-VM mit einer DL-Arbeitslast bereit, die beim ersten Start vorab installiert werden soll. Nach dem Start der Deep Learning-VM wird die DL-Arbeitslast nicht ausgeführt.
Ursache
- Die base64-codierten
user-data
oder Werte anderer OVF-Parameter, wie z. B.image-oneliner
oderconfig-json
, werden in der Datei /opt/dlvm/dl_app.sh falsch gespeichert oder falsch dekodiert. Dies hat zur Folge, dass das DL-Arbeitslastskript nicht ausgeführt wird. - Die Installation des vGPU-Treibers ist fehlgeschlagen, wodurch das im OVF-Parameter
user-data
übergebene Cloud-init-Skript nicht ausgeführt wird. Das Cloud-init-Skript ist auf die erfolgreiche Installation des NVIDIA vGPU-Treibers angewiesen.
Lösung
Überprüfen Sie auf der Deep Learning-VM, ob die DL-Arbeitslast auf der virtuellen Maschine installiert ist, und wenden Sie eine passende Lösung an.
Verfügbarkeit der DL-Arbeitslast | Lösung |
---|---|
Die Komponenten der DL-Arbeitslast werden nicht auf der virtuellen Maschine erstellt. |
Informationen zu den OVF-Parametern des aktuellen Deep Learning-VM-Images finden Sie unter OVF-Eigenschaften von Deep Learning-VMs. |
Die Komponenten der DL-Arbeitslast werden erstellt, aber die Arbeitslast wird nicht ausgeführt. |
|