Dopo aver distribuito Deep Learning VM in VMware Private AI Foundation with NVIDIA, il carico di lavoro DL specificato non è in esecuzione.
Problema
Si distribuisce Deep Learning VM con un carico di lavoro DL da preinstallare all'avvio iniziale. Dopo aver avviato Deep Learning VM, il carico di lavoro DL non viene eseguito.
Causa
- Il valore
user-data
o i valori di altri parametri OVF con codifica base64, comeimage-oneliner
oconfig-json
, vengono salvati o decodificati in modo errato nel file /opt/dlvm/dl_app.sh. Di conseguenza, lo script del carico di lavoro DL non viene eseguito. - L'installazione del driver vGPU non riesce causando la mancata esecuzione dello script cloud-init passato al parametro OVF
user-data
. Lo script cloud-init si basa sulla corretta installazione del driver NVIDIA vGPU.
Soluzione
In Deep Learning VM, verificare se il carico di lavoro DL è installato nella macchina virtuale e applicare una soluzione di conseguenza.
Disponibilità del carico di lavoro DL | Soluzione |
---|---|
I componenti del carico di lavoro DL non vengono creati nella macchina virtuale. |
Per informazioni sui parametri OVF dell'immagine di Deep Learning VM più recente, vedere Proprietà OVF di Deep Learning VM. |
I componenti del carico di lavoro DL vengono creati ma il carico di lavoro non è in esecuzione. |
|