DevOps エンジニアとデータ サイエンティストに、AI コンテナ ワークロードを含むディープ ラーニング仮想マシンまたは TKG クラスタを展開する機能を提供するには、VI ワークロード ドメインの GPU 対応クラスタにスーパーバイザーを展開し、vGPU 対応仮想マシン クラスを作成する必要があります。

前提条件

VMware Private AI Foundation with NVIDIA を展開するための要件」を参照してください。

手順

  1. SDDC Manager を使用して、VI ワークロード ドメインに NSX Edge クラスタを展開します。
    SDDC Manager は、スーパーバイザーの展開時に指定した Tier-0 ゲートウェイも展開します。Tier-0 ゲートウェイは、アクティブ/アクティブの高可用性モードです。
  2. スーパーバイザーのストレージ ポリシーを構成します。
  3. VI ワークロード ドメイン内の GPU 対応 ESXi ホストのクラスタにスーパーバイザーを展開します。
    管理ネットワークには、静的 IP アドレス割り当てを使用します。クラスタの vSphere Distributed Switch にスーパーバイザー仮想マシン管理ネットワークを割り当てます。

    ワークロード ネットワークを次のように構成します。

    • クラスタの vSphere Distributed Switch を使用するか、AI ワークロード専用のものを作成します。
    • SDDC Manager を使用して展開した NSX Edge クラスタと Tier-0 ゲートウェイを使用してスーパーバイザーを構成します。
    • 残りの値は、設計に従って設定します。

    作成したストレージ ポリシーを使用します。

    単一のクラスタにスーパーバイザーを展開する方法の詳細については、「NSX ネットワークを使用する 1 ゾーン スーパーバイザーのデプロイ」を参照してください。

  4. AI ワークロード用に vGPU ベースの仮想マシン クラスを構成します。
    これらの仮想マシン クラスでは、スーパーバイザー クラスタの ESXi ホストに構成されている vGPU デバイスに応じて、NVIDIA GRID vGPU デバイスのコンピューティング要件と vGPU プロファイルを設定します。

    NVIDIA RAG ワークロードでディープ ラーニング仮想マシンを展開するための仮想マシン クラスの場合は、仮想マシン クラス ダイアログ ボックスで次の追加設定を行います。

    • タイム スライス モードのフルサイズ vGPU プロファイルまたは MIG プロファイルを選択します。たとえば、vGPU タイム スライス モードの NVIDIA A100 40GB カードの場合は、[nvidia_a100-40c] を選択します。
    • [仮想ハードウェア] タブで、16 個を超える仮想 CPU コアと 64 GB を超える仮想メモリを割り当てます。
    • [詳細パラメータ] タブで、pciPassthru<vgpu-id>.cfg.enable_uvm パラメータを 1 に設定します。

      ここで、<vgpu-id> は仮想マシンに割り当てられた vGPU を識別します。たとえば、2 つの vGPU が仮想マシンに割り当てられている場合は、pciPassthru0.cfg.parameter=1pciPassthru1.cfg.parameter = 1 を設定します。

  5. kubectl コマンド ライン ツールを使用してスーパーバイザーにディープ ラーニング仮想マシンまたは GPU アクセラレーション TKG クラスタを展開する場合は、vSphere 名前空間を作成して構成し、リソース制限、ストレージ ポリシー、DevOps エンジニアの権限を追加し、vGPU ベースの仮想マシン クラスを関連付けます。