VMware Private AI Foundation with NVIDIA の vSphere IaaS Control Plane の構成

DevOps エンジニアとデータサイエンティストに、AI コンテナワークロードを含むディープラーニング仮想マシンまたは TKG クラスタを展開する機能を提供するには、VI ワークロードドメインの GPU 対応クラスタにスーパーバイザーを展開し、vGPU 対応仮想マシンクラスを作成する必要があります。

前提条件

「VMware Private AI Foundation with NVIDIA を展開するための要件」を参照してください。

手順

SDDC Manager を使用して、VI ワークロードドメインに NSX Edge クラスタを展開します。
SDDC Manager は、スーパーバイザーの展開時に指定した Tier-0 ゲートウェイも展開します。Tier-0 ゲートウェイは、アクティブ/アクティブの高可用性モードです。
スーパーバイザーのストレージポリシーを構成します。
vSphere with Tanzu のストレージポリシーを作成するを参照してください。
VI ワークロードドメイン内の GPU 対応 ESXi ホストのクラスタにスーパーバイザーを展開します。
管理ネットワークには、静的 IP アドレス割り当てを使用します。クラスタの vSphere Distributed Switch にスーパーバイザー仮想マシン管理ネットワークを割り当てます。
ワークロードネットワークを次のように構成します。
- クラスタの vSphere Distributed Switch を使用するか、AI ワークロード専用のものを作成します。
- SDDC Manager を使用して展開した NSX Edge クラスタと Tier-0 ゲートウェイを使用してスーパーバイザーを構成します。
- 残りの値は、設計に従って設定します。
作成したストレージポリシーを使用します。

単一のクラスタにスーパーバイザーを展開する方法の詳細については、「NSX ネットワークを使用する 1 ゾーンスーパーバイザーのデプロイ」を参照してください。
AI ワークロード用に vGPU ベースの仮想マシンクラスを構成します。
これらの仮想マシンクラスでは、スーパーバイザークラスタの ESXi ホストに構成されている vGPU デバイスに応じて、NVIDIA GRID vGPU デバイスのコンピューティング要件と vGPU プロファイルを設定します。
- 仮想マシン用の vGPU ベースの仮想マシンクラスの設定については、「vSphere Client を使用したカスタム仮想マシンクラスの作成」および「vSphere with Tanzu での仮想マシンクラスへの PCI デバイスの追加」を参照してください。
- TKG ワーカーノード用の vGPU ベースの仮想マシンクラスの設定については、「vSphere 8 Update 2b 以降で vGPU プロファイルを使用してカスタム仮想マシンクラスを作成する」および「スーパーバイザーに TKG クラスタの vSphere 名前空間を構成する」を参照してください。
NVIDIA RAG ワークロードでディープラーニング仮想マシンを展開するための仮想マシンクラスの場合は、仮想マシンクラスダイアログボックスで次の追加設定を行います。
- タイムスライスモードのフルサイズ vGPU プロファイルまたは MIG プロファイルを選択します。たとえば、vGPU タイムスライスモードの NVIDIA A100 40GB カードの場合は、[nvidia_a100-40c] を選択します。
- [仮想ハードウェア] タブで、16 個を超える仮想 CPU コアと 64 GB を超える仮想メモリを割り当てます。
- [詳細パラメータ] タブで、pciPassthru<vgpu-id>.cfg.enable_uvm パラメータを 1 に設定します。
  ここで、<vgpu-id> は仮想マシンに割り当てられた vGPU を識別します。たとえば、2 つの vGPU が仮想マシンに割り当てられている場合は、pciPassthru0.cfg.parameter=1 と pciPassthru1.cfg.parameter = 1 を設定します。
kubectl コマンドラインツールを使用してスーパーバイザーにディープラーニング仮想マシンまたは GPU アクセラレーション TKG クラスタを展開する場合は、vSphere 名前空間を作成して構成し、リソース制限、ストレージポリシー、DevOps エンジニアの権限を追加し、vGPU ベースの仮想マシンクラスを関連付けます。
- 仮想マシンの vSphere 名前空間の設定については、「スーパーバイザーに vSphere 名前空間を作成して構成する」を参照してください。
- TKG クラスタの vSphere 名前空間の設定については、「スーパーバイザーに TKG クラスタの vSphere 名前空間を構成する」を参照してください。
kubectl を直接呼び出してスーパーバイザー上でディープラーニング仮想マシンの展開を有効にする場合は、AI ワークロードの vSphere 名前空間にコンテンツライブラリを追加します。

VMware Aria Automation は、ディープラーニング仮想マシンがプロビジョニングされるたびに名前空間を作成し、コンテンツライブラリを自動的に追加します。
1. [メニュー] > [ワークロード管理] の順に選択します。
2. AI ワークロードの名前空間に移動します。
3. [仮想マシンサービス] カードで [コンテンツライブラリの管理] をクリックします。
4. ディープラーニング仮想マシンイメージを含むコンテンツライブラリを選択し、[OK] をクリックします。