VMware Private AI Foundation with NVIDIA にディープ ラーニング仮想マシンを展開した後、指定した DL ワークロードが実行されません。

問題

最初の起動時にプリインストールされる DL ワークロードを持つディープ ラーニング仮想マシンを展開します。ディープ ラーニング仮想マシンの起動後、DL ワークロードが実行されません。

原因

  1. base64 でエンコードされた user-data、または image-onelinerconfig-json などのその他の OVF パラメータの値が、/opt/dlvm/dl_app.sh ファイルに誤って保存またはデコードされています。その結果、DL ワークロード スクリプトが実行されません。
  2. vGPU ドライバのインストールに失敗し、user-data OVF パラメータに渡された cloud-init スクリプトが実行されません。cloud-init スクリプトは、NVIDIA vGPU ドライバの正常なインストールに依存します。

解決方法

ディープ ラーニング仮想マシンで、DL ワークロードが仮想マシンにインストールされているかどうかを確認し、それに応じてソリューションを適用します。

DL ワークロードの可用性 解決方法
DL ワークロード コンポーネントが仮想マシンに作成されていません。
  • user-data OVF パラメータへの入力として cloud-init スクリプトを使用している場合は、次の値を確認します。
    • user-data としてエンコードおよび入力されたスクリプトを確認します。

      #cloud-config が最初の行に表示され、base64 に相当するものに含まれていることを確認します。

    • path パラメータを確認します。

    • base64 でエンコードされた文字列を確認し、user-data 値が /opt/dlvm/dl_app.sh に正しく保存されていることを確認します。

  • 他の OVF パラメータを使用している場合は、次の値を確認します。

    • image-oneliner。base64 でエンコードされた文字列を確認し、1 行のコマンドが /opt/dlvm/dl_app.sh に正しく保存されていることを確認します。

    • config-json。base64 でエンコードされた文字列を確認し、Docker Compose ファイルと config.json(指定されている場合)が /root/docker-compose.yaml および /root/.docker/config.json に正しく保存されていることを確認します。

最新のディープ ラーニング仮想マシン イメージの OVF パラメータの詳細については、「ディープ ラーニング仮想マシンの OVF プロパティ」を参照してください。

DL ワークロード コンポーネントは作成されていますが、ワークロードが実行されていません。
  • /var/log/vgpu-install.log のエラー メッセージを確認します。

  • user-data OVF パラメータへの入力として cloud-init スクリプトを使用している場合は、NVIDIA vGPU ドライバがインストールされ、正常に動作しているかどうかを確認します。NVIDIA vGPU ドライバのインストールに失敗した場合、cloud-init スクリプトは実行されません。