DevOps エンジニアとデータ サイエンティストに、AI コンテナ ワークロードを含むディープ ラーニング仮想マシンまたは TKG クラスタを展開する機能を提供するには、VI ワークロード ドメインの GPU 対応クラスタにスーパーバイザーを展開し、vGPU 対応仮想マシン クラスを作成する必要があります。
前提条件
「VMware Private AI Foundation with NVIDIA を展開するための要件」を参照してください。
手順
- SDDC Manager を使用して、VI ワークロード ドメインに NSX Edge クラスタを展開します。
SDDC Manager は、スーパーバイザーの展開時に指定した Tier-0 ゲートウェイも展開します。Tier-0 ゲートウェイは、アクティブ/アクティブの高可用性モードです。
- スーパーバイザーのストレージ ポリシーを構成します。
vSphere with Tanzu のストレージ ポリシーを作成するを参照してください。
- VI ワークロード ドメイン内の GPU 対応 ESXi ホストのクラスタにスーパーバイザーを展開します。
管理ネットワークには、静的 IP アドレス割り当てを使用します。クラスタの vSphere Distributed Switch にスーパーバイザー仮想マシン管理ネットワークを割り当てます。
ワークロード ネットワークを次のように構成します。
- クラスタの vSphere Distributed Switch を使用するか、AI ワークロード専用のものを作成します。
- SDDC Manager を使用して展開した NSX Edge クラスタと Tier-0 ゲートウェイを使用してスーパーバイザーを構成します。
- 残りの値は、設計に従って設定します。
作成したストレージ ポリシーを使用します。
単一のクラスタにスーパーバイザーを展開する方法の詳細については、「NSX ネットワークを使用する 1 ゾーン スーパーバイザーのデプロイ」を参照してください。
- AI ワークロード用に vGPU ベースの仮想マシン クラスを構成します。
これらの仮想マシン クラスでは、スーパーバイザー クラスタの ESXi ホストに構成されている vGPU デバイスに応じて、NVIDIA GRID vGPU デバイスのコンピューティング要件と vGPU プロファイルを設定します。
- 仮想マシン用の vGPU ベースの仮想マシン クラスの設定については、「vSphere Client を使用したカスタム仮想マシン クラスの作成」および「vSphere with Tanzu での仮想マシン クラスへの PCI デバイスの追加」を参照してください。
- TKG ワーカー ノード用の vGPU ベースの仮想マシン クラスの設定については、「vSphere 8 Update 2b 以降で vGPU プロファイルを使用してカスタム仮想マシン クラスを作成する」および「スーパーバイザーに TKG クラスタの vSphere 名前空間を構成する」を参照してください。
NVIDIA RAG ワークロードでディープ ラーニング仮想マシンを展開するための仮想マシン クラスの場合は、仮想マシン クラス ダイアログ ボックスで次の追加設定を行います。
- タイム スライス モードのフルサイズ vGPU プロファイルまたは MIG プロファイルを選択します。たとえば、vGPU タイム スライス モードの NVIDIA A100 40GB カードの場合は、[nvidia_a100-40c] を選択します。
- [仮想ハードウェア] タブで、16 個を超える仮想 CPU コアと 64 GB を超える仮想メモリを割り当てます。
- [詳細パラメータ] タブで、
pciPassthru<vgpu-id>.cfg.enable_uvm
パラメータを 1 に設定します。ここで、
<vgpu-id>
は仮想マシンに割り当てられた vGPU を識別します。たとえば、2 つの vGPU が仮想マシンに割り当てられている場合は、pciPassthru0.cfg.parameter=1
とpciPassthru1.cfg.parameter = 1
を設定します。
- kubectl コマンド ライン ツールを使用してスーパーバイザーにディープ ラーニング仮想マシンまたは GPU アクセラレーション TKG クラスタを展開する場合は、vSphere 名前空間を作成して構成し、リソース制限、ストレージ ポリシー、DevOps エンジニアの権限を追加し、vGPU ベースの仮想マシン クラスを関連付けます。
- 仮想マシンの vSphere 名前空間の設定については、「スーパーバイザーに vSphere 名前空間を作成して構成する」を参照してください。
- TKG クラスタの vSphere 名前空間の設定については、「スーパーバイザーに TKG クラスタの vSphere 名前空間を構成する」を参照してください。