VMware Private AI Foundation with NVIDIA にディープ ラーニング仮想マシンを展開した後、指定した DL ワークロードが実行されません。
問題
最初の起動時にプリインストールされる DL ワークロードを持つディープ ラーニング仮想マシンを展開します。ディープ ラーニング仮想マシンの起動後、DL ワークロードが実行されません。
原因
- base64 でエンコードされた
user-data
、またはimage-oneliner
やconfig-json
などのその他の OVF パラメータの値が、/opt/dlvm/dl_app.sh ファイルに誤って保存またはデコードされています。その結果、DL ワークロード スクリプトが実行されません。 - vGPU ドライバのインストールに失敗し、
user-data
OVF パラメータに渡された cloud-init スクリプトが実行されません。cloud-init スクリプトは、NVIDIA vGPU ドライバの正常なインストールに依存します。
解決方法
ディープ ラーニング仮想マシンで、DL ワークロードが仮想マシンにインストールされているかどうかを確認し、それに応じてソリューションを適用します。
DL ワークロードの可用性 | 解決方法 |
---|---|
DL ワークロード コンポーネントが仮想マシンに作成されていません。 |
最新のディープ ラーニング仮想マシン イメージの OVF パラメータの詳細については、「ディープ ラーニング仮想マシンの OVF プロパティ」を参照してください。 |
DL ワークロード コンポーネントは作成されていますが、ワークロードが実行されていません。 |
|