Après le déploiement d'une VM à apprentissage profond dans VMware Private AI Foundation with NVIDIA, la charge de travail DL spécifiée ne s'exécute pas.
Problème
Déployez une VM à apprentissage profond avec une charge de travail DL à préinstaller lors du démarrage initial. Après le démarrage de la VM à apprentissage profond, la charge de travail DL ne s'effectue pas.
Cause
- Le paramètre
user-data
codé en base64 ou les valeurs d'autres paramètres OVF, tels queimage-oneliner
ouconfig-json
sont enregistrés ou décodés de manière incorrecte dans le fichier /opt/dlvm/dl_app.sh. Par conséquent, le script de charge de travail DL ne s'exécute pas. - L'installation du pilote vGPU a échoué, ce qui a entraîné la non-exécution du script cloud-init transmis dans le paramètre OVF
user-data
. Le script cloud-init repose sur l'installation réussie du pilote NVIDIA vGPU.
Solution
Sur la VM à apprentissage profond, vérifiez si la charge de travail DL est installée sur la machine virtuelle et appliquez une solution en conséquence.
Disponibilité de la charge de travail DL | Solution |
---|---|
Les composants de charge de travail DL ne sont pas créés sur la machine virtuelle. |
Pour plus d'informations sur les paramètres OVF de la dernière image de VM à apprentissage profond, reportez-vous à la section Propriétés OVF des VM à apprentissage profond. |
Les composants de charge de travail DL sont créés, mais la charge de travail n'est pas en cours d'exécution. |
|