Dopo aver distribuito Deep Learning VM in VMware Private AI Foundation with NVIDIA, il carico di lavoro DL specificato non è in esecuzione.

Problema

Si distribuisce Deep Learning VM con un carico di lavoro DL da preinstallare all'avvio iniziale. Dopo aver avviato Deep Learning VM, il carico di lavoro DL non viene eseguito.

Causa

  1. Il valore user-data o i valori di altri parametri OVF con codifica base64, come image-oneliner o config-json, vengono salvati o decodificati in modo errato nel file /opt/dlvm/dl_app.sh. Di conseguenza, lo script del carico di lavoro DL non viene eseguito.
  2. L'installazione del driver vGPU non riesce causando la mancata esecuzione dello script cloud-init passato al parametro OVF user-data. Lo script cloud-init si basa sulla corretta installazione del driver NVIDIA vGPU.

Soluzione

In Deep Learning VM, verificare se il carico di lavoro DL è installato nella macchina virtuale e applicare una soluzione di conseguenza.

Disponibilità del carico di lavoro DL Soluzione
I componenti del carico di lavoro DL non vengono creati nella macchina virtuale.
  • Se si utilizza uno script cloud-init come input per il parametro OVF user-data, verificare i valori seguenti:
    • Controllare lo script codificato e immesso come input user-data.

      Assicurarsi che il valore #cloud-config sia presente nella prima riga e che sia incluso nell'equivalente base64.

    • Controllare il parametro path.

    • Controllare la stringa con codifica base64 e assicurarsi che il valore user-data sia salvato correttamente in /opt/dlvm/dl_app.sh.

  • Se si utilizzano altri parametri OVF, verificare i valori seguenti:

    • image-oneliner. Controllare la stringa con codifica base64 e assicurarsi che il comando a una riga sia salvato correttamente in /opt/dlvm/dl_app.sh.

    • config-json. Controllare la stringa con codifica base64 e assicurarsi che il file di composizione Docker e config.json, se specificati, siano salvati correttamente in /root/docker/compose.yaml e /root/.docker/config.json.

Per informazioni sui parametri OVF dell'immagine di Deep Learning VM più recente, vedere Proprietà OVF delle macchine virtuali di deep learning.

I componenti del carico di lavoro DL vengono creati ma il carico di lavoro non è in esecuzione.
  • Controllare i messaggi di errore in /var/log/vgpu-install.log.

  • Se si utilizza uno script cloud-init come input per il parametro OVF user-data, verificare che il driver NVIDIA vGPU sia installato e funzioni correttamente. Lo script cloud-init non viene eseguito se l'installazione del driver NVIDIA vGPU non riesce.