Après le déploiement d'une VM à apprentissage profond dans VMware Private AI Foundation with NVIDIA, la charge de travail DL spécifiée ne s'exécute pas.

Problème

Déployez une VM à apprentissage profond avec une charge de travail DL à préinstaller lors du démarrage initial. Après le démarrage de la VM à apprentissage profond, la charge de travail DL ne s'effectue pas.

Cause

  1. Le paramètre user-data codé en base64 ou les valeurs d'autres paramètres OVF, tels que image-oneliner ou config-json sont enregistrés ou décodés de manière incorrecte dans le fichier /opt/dlvm/dl_app.sh. Par conséquent, le script de charge de travail DL ne s'exécute pas.
  2. L'installation du pilote vGPU a échoué, ce qui a entraîné la non-exécution du script cloud-init transmis dans le paramètre OVF user-data. Le script cloud-init repose sur l'installation réussie du pilote NVIDIA vGPU.

Solution

Sur la VM à apprentissage profond, vérifiez si la charge de travail DL est installée sur la machine virtuelle et appliquez une solution en conséquence.

Disponibilité de la charge de travail DL Solution
Les composants de charge de travail DL ne sont pas créés sur la machine virtuelle.
  • Si vous utilisez un script cloud-init comme entrée dans le paramètre OVF user-data, vérifiez les valeurs suivantes :
    • Vérifiez le script codé et l'entrée en user-data.

      Assurez-vous que le paramètre #cloud-config s'affiche sur la première ligne et qu'il est inclus dans l'équivalent base64.

    • Vérifiez le path.

    • Vérifiez la chaîne codée en base64 et assurez-vous que la valeur user-data est correctement enregistrée dans /opt/dlvm/dl_app.sh.

  • Si vous utilisez d'autres paramètres OVF, vérifiez les valeurs suivantes :

    • image-oneliner. Vérifiez la chaîne codée en base64 et assurez-vous que la commande sur une ligne est correctement enregistrée dans /opt/dlvm/dl_app.sh.

    • config-json. Vérifiez la chaîne codée en base64 et assurez-vous que le fichier Docker Compose et config.json, s'ils sont fournis, sont correctement enregistrés dans /root/docker-compose.yaml et /root/.docker/config.json.

Pour plus d'informations sur les paramètres OVF de la dernière image de VM à apprentissage profond, reportez-vous à la section Propriétés OVF des VM à apprentissage profond.

Les composants de charge de travail DL sont créés, mais la charge de travail n'est pas en cours d'exécution.
  • Vérifiez les messages d'erreur dans /var/log/vgpu-install.log.

  • Si vous utilisez un script cloud-init en entrée dans le paramètre OVF user-data, vérifiez si le pilote NVIDIA vGPU est installé et fonctionne correctement. Le script cloud-init n'est pas exécuté si l'installation du pilote NVIDIA vGPU échoue.