開発者が TKG クラスタに AI/ML ワークロードをデプロイできるようにするには、vSphere 管理者が NVIDIA GPU ハードウェアをサポートするように スーパーバイザー 環境を設定します。

管理者の手順 1:システム要件を確認する

次のシステム要件を参照して、TKG クラスタに AI/ML ワークロードをデプロイできるように環境を設定します。
要件 説明

vSphere 8 インフラストラクチャ

vCenter Server ホストおよび ESXi ホスト

ワークロード管理ライセンス

vSphere 名前空間と スーパーバイザー

TKR Ubuntu OVA

Tanzu Kubernetes リリースのリリース ノート

NVIDIA vGPU ホスト ドライバ

NGC Web サイトから VIB をダウンロードします。詳細については、vGPU ソフトウェア ドライバのドキュメントを参照してください。

vGPU の NVIDIA ライセンス サーバ

組織から提供された FQDN

管理者の手順 2:サポートされている NVIDIA GPU デバイスを ESXi ホストにインストールする

TKG に AI/ML ワークロードをデプロイするには、[ワークロード管理] を有効にする vCenter Server クラスタ内の各 ESXi ホストに、サポートされている NVIDIA GPU デバイスを 1 つ以上インストールします。

互換性のある NVIDIA GPU デバイスを表示するには、VMware 互換性ガイドを参照してください。

互換性のある NVIDIA GPU デバイスのリスト。GPU デバイス モデルをクリックして詳細を表示し、RSS フィードをサブスクライブします。

NVIDA GPU デバイスは、最新の NVIDIA AI Enterprise (NVAIE) vGPU プロファイルをサポートしている必要があります。ガイダンスについては、NVIDIA Virtual GPU Software Supported GPUsドキュメントを参照してください。

たとえば、次の ESXi ホストには、2 つの NVIDIA GPU A100 デバイスがインストールされています。

vSphere Client の [グラフィック デバイス] タブに NVIDIA GPU A100 デバイスが一覧表示されます。

管理者の手順 3:各 ESXi ホストを vGPU 操作用に構成する

[ワークロード管理] が有効になっている vCenter Server クラスタ内の ESXi ホストごとに、[直接共有] および [SR-IOV] を有効にして、ホストを NVIDIA vGPU 用に構成します。

[各 ESXi ホストでの直接共有の有効化]

NVIDIA vGPU 機能をロック解除するには、[ワークロード管理] が有効になっている vCenter Server クラスタ内の各 ESXi ホストで [直接共有] モードを有効にします。

[直接共有] を有効にするには、次の手順を実行します。その他のガイダンスについては、「 vSphere での仮想グラフィックの構成」を参照してください。
  1. vSphere Client を使用して、vCenter Server にログインします。
  2. vCenter Server クラスタで ESXi ホストを選択します。
  3. [構成] > [ハードウェア] > [グラフィック] > [グラフィック デバイス] の順に選択します。
  4. NVIDIA GPU アクセラレータ デバイスを選択します。
  5. グラフィック デバイスの設定を [編集] します。
  6. [直接共有] を選択します。
  7. [共有パススルー GPU 割り当てポリシー] で、最適なパフォーマンスを実現するために、[複数の GPU にわたって仮想マシンを分散] を選択します。
  8. [OK] をクリックして構成を保存します。
  9. ホストの再起動後に設定が有効になります。
  10. ESXi ホストを右クリックして、メンテナンス モードにします。
  11. ホストを再起動します。
  12. ホストが再実行されているときに、メンテナンス モードを終了します。
  13. [ワークロード管理] をサポートする vSphere クラスタ内の ESXi ホストごとにこのプロセスを繰り返します。

[NVIDIA GPU A30 デバイスおよび A100 デバイスの SR-IOV BIOS の有効化]

マルチインスタンス GPU(MIG モード)で必要となる NVIDIA A30 デバイスまたは A100 GPU デバイスを使用している場合は、ESXi ホストで SR-IOV を有効にする必要があります。SR-IOV が有効になっていない場合は、Tanzu Kubernetes クラスタ ノード仮想マシンを起動できません。この問題が発生すると、[ワークロード管理] が有効になっている vCenter Server[最近のタスク] ペインに次のエラー メッセージが表示されます。

Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.

SR-IOV を有効にするには、Web コンソールを使用して ESXi ホストにログインします。[管理] > [ハードウェア ] の順に選択します。NVIDIA GPU デバイスを選択して、[SR-IOV の構成] をクリックします。ここで SR-IOV をオンにできます。その他のガイダンスについては、vSphere ドキュメントのSingle Root I/O Virtualization (SR-IOV)を参照してください。

[vGPU と動的 DirectPath I/O(パススルー対応デバイス)]

vGPU と動的 DirectPath I/O を使用している場合、以下の追加構成を実行します。
  1. vSphere Client を使用して、vCenter Server にログインします。
  2. vCenter Server クラスタでターゲット ESXi ホストを選択します。
  3. [構成] > [ハードウェア] > [PCI デバイス] の順に選択します。
  4. [すべての PCI デバイス] タブを選択します。
  5. ターゲット NVIDIA GPU アクセラレータ デバイスを選択します。
  6. [パススルーの切り替え] をクリックします。
  7. ESXi ホストを右クリックして、メンテナンス モードにします。
  8. ホストを再起動します。
  9. ホストが再実行されているときに、メンテナンス モードを終了します。

管理者の手順 4:各 ESXi ホストに NVIDIA ホスト マネージャ ドライバをインストールする

NVIDIA vGPU グラフィック アクセラレーションを使用して Tanzu Kubernetes クラスタ ノード仮想マシンを実行するには、[ワークロード管理] を有効にする vCenter Server クラスタ内の各 ESXi ホストに NVIDIA ホスト マネージャ ドライバをインストールします。

NVIDIA vGPU ホスト マネージャ ドライバのコンポーネントは、vSphere インストール バンドル (VIB) に含まれています。NVAIE VIB は、NVIDIA GRID ライセンス プログラムを通じて組織から提供されます。VMware は NVAIE VIB を提供することも、ダウンロード可能にすることもしません。NVIDIA ライセンス プログラムの一環として、ユーザーの組織がライセンス サーバを設定します。詳細については、NVIDIA 仮想 GPU ソフトウェア クイック スタート ガイドを参照してください。

NVIDIA 環境が設定されたら、各 ESXi ホストで次のコマンドを実行して、NVIDIA ライセンス サーバのアドレスと NVAIE VIB のバージョンを環境に適した値に置き換えます。その他のガイダンスについては、VMware サポートのナレッジベースの記事 Installing and configuring the NVIDIA VIB on ESXiを参照してください。
注: ESXi ホストにインストールされている NVAIE VIB のバージョンは、ノードの仮想マシンにインストールされている vGPU ソフトウェアのバージョンと一致する必要があります。以下のバージョンは単なる例です。
esxcli system maintenanceMode set --enable true
esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib
esxcli system maintenanceMode set --enable false
/etc/init.d/xorg restart

管理者の手順 5:ESXi ホストで NVIDIA vGPU 操作の準備ができていることを確認する

各 ESXi ホストで NVIDIA vGPU 操作を行う準備ができていることを確認するには、 [ワークロード管理] を有効にする vCenter Server クラスタ内の各 ESXi ホストで次のチェックを実行します
  • ESXi ホストに SSH 接続を行い、シェル モードに切り替えて、コマンド nvidia-smi を実行します。NVIDIA システム管理インターフェイスは、NVIDA vGPU ホスト マネージャから提供されるコマンド ライン ユーティリティです。このコマンドを実行すると、ホスト上の GPU とドライバが返されます。
  • 次のコマンドを実行して、NVIDIA ドライバが適切にインストールされていることを確認します。esxcli software vib list | grep NVIDA
  • ホストに GPU の直接共有が構成され、SR-IOV がオンになっていることを確認します(NVIDIA A30 デバイスまたは A100 デバイスを使用している場合)。
  • vSphere Client を使用して、GPU 用に構成されている ESXi ホストに PCI デバイスを含む新しい仮想マシンを作成します。NVIDIA vGPU プロファイルが表示されて、選択可能になります。[ハードウェアのカスタマイズ] タブ。NVIDIA vGPU プロファイルが選択されています。

管理者の手順 6:ワークロード管理を有効にする

[ワークロード管理] を有効にするには、 TKG サービス クラスタのデプロイを参照してください。
注: [ワークロード管理] が有効になっている vSphere クラスタがすでに存在する場合は、クラスタが vGPU 用に構成された ESXi ホストを使用していると想定して、この手順をスキップします。

管理者の手順 7:TKR Ubuntu を含むコンテンツ ライブラリを作成または更新する

NVIDIA vGPU には Ubuntu オペレーティング システムが必要です。vGPU クラスタに Tanzu Kubernetes リリースの PhotonOS エディションを使用することはできません。

VMware では、Tanzu Kubernetes リリースの Ubuntu エディションが提供されています。vSphere 8 以降では、Ubuntu エディションはクラスタ YAML のアノテーションを使用して指定されます。

サポートされている Ubuntu TKR を使用して、既存のコンテンツ ライブラリを作成または更新します。 TKG サービス クラスタ用 Kubernetes リリースの管理を参照してください。
注: vCenter Server で既存の TKR コンテンツ ライブラリがすでに構成されている場合は、この手順をスキップします。TKR 用に 2 つ目のコンテンツ ライブラリを作成しないでください。作成すると、システムが不安定になる可能性があります。

管理者の手順 8:vGPU プロファイルを使用するカスタム仮想マシン クラスを作成する

vGPU プロファイルを使用してカスタム仮想マシン クラスを作成します。次に、クラスタ仕様でこの仮想マシン クラスを使用して、TKGS クラスタ ノードを作成します。「NVIDIA vGPU デバイス用のカスタム仮想マシン クラスの作成」の手順を参照してください。

管理者の手順 9:vSphere 名前空間 を構成する

プロビジョニングする TKG vGPU クラスタごとに、vSphere 名前空間 を作成します。TKG サービス クラスタをホストするための vSphere 名前空間 の作成を参照してください。

編集権限を持つ vSphere SSO ユーザー/グループを追加して名前空間を構成し、パーシステント ボリュームにストレージ ポリシーを適用して、vSphere 名前空間 を構成します。TKG サービス クラスタ向けの vSphere 名前空間 の構成を参照してください。

目的の Ubuntu イメージが格納されている TKR コンテンツ ライブラリを vSphere 名前空間 に関連付けます。TKR コンテンツ ライブラリの TKG サービス への関連付けを参照してください。

カスタム仮想マシン クラスを vSphere 名前空間 に関連付けます。
  • vSphere 名前空間 の選択で、[仮想マシン サービス]タイルを選択し、[仮想マシン クラスの管理] をクリックします。
  • クラスのリストで、作成したカスタム仮想マシン クラスを見つけます。
  • クラスを選択し、[追加] をクリックします。
その他のガイダンスについては、 仮想マシン クラスの vSphere 名前空間 への関連付けを参照してください。

管理者の手順 10:スーパーバイザー の準備ができていることを確認する

最後の管理タスクでは、スーパーバイザー がプロビジョニングされ、クラスタ オペレータが AI/ML ワークロード用の TKG クラスタをプロビジョニングする際に使用できることを確認します。

vCenter SSO 認証を使用した TKG サービス クラスタへの接続を参照してください。