TKGS クラスタへの AI/ML ワークロードのデプロイに関する vSphere 管理者ワークフロー

開発者が TKG クラスタに AI/ML ワークロードをデプロイできるようにするには、vSphere 管理者が NVIDIA GPU ハードウェアをサポートするようにスーパーバイザー環境を設定します。

管理者の手順 1：システム要件を確認する

次のシステム要件を参照して、TKG クラスタに AI/ML ワークロードをデプロイできるように環境を設定します。

要件	説明
vSphere 8 インフラストラクチャ	vCenter Server ホストおよび ESXi ホスト
ワークロード管理ライセンス	vSphere 名前空間とスーパーバイザー
TKR Ubuntu OVA	Tanzu Kubernetes リリースのリリースノート
NVIDIA vGPU ホストドライバ	NGC Web サイトから VIB をダウンロードします。詳細については、vGPU ソフトウェアドライバのドキュメントを参照してください。
vGPU の NVIDIA ライセンスサーバ	組織から提供された FQDN

管理者の手順 2：サポートされている NVIDIA GPU デバイスを ESXi ホストにインストールする

TKG に AI/ML ワークロードをデプロイするには、[ワークロード管理] を有効にする vCenter Server クラスタ内の各 ESXi ホストに、サポートされている NVIDIA GPU デバイスを 1 つ以上インストールします。

互換性のある NVIDIA GPU デバイスを表示するには、VMware 互換性ガイドを参照してください。

互換性のある NVIDIA GPU デバイスのリスト。GPU デバイスモデルをクリックして詳細を表示し、RSS フィードをサブスクライブします。

NVIDA GPU デバイスは、最新の NVIDIA AI Enterprise (NVAIE) vGPU プロファイルをサポートしている必要があります。ガイダンスについては、NVIDIA Virtual GPU Software Supported GPUsドキュメントを参照してください。

たとえば、次の ESXi ホストには、2 つの NVIDIA GPU A100 デバイスがインストールされています。

vSphere Client の [グラフィックデバイス] タブに NVIDIA GPU A100 デバイスが一覧表示されます。

管理者の手順 3：各 ESXi ホストを vGPU 操作用に構成する

[ワークロード管理] が有効になっている vCenter Server クラスタ内の ESXi ホストごとに、[直接共有] および [SR-IOV] を有効にして、ホストを NVIDIA vGPU 用に構成します。

[各 ESXi ホストでの直接共有の有効化]

NVIDIA vGPU 機能をロック解除するには、[ワークロード管理] が有効になっている vCenter Server クラスタ内の各 ESXi ホストで [直接共有] モードを有効にします。

[直接共有] を有効にするには、次の手順を実行します。その他のガイダンスについては、「 vSphere での仮想グラフィックの構成」を参照してください。

vSphere Client を使用して、vCenter Server にログインします。
vCenter Server クラスタで ESXi ホストを選択します。
[構成] > [ハードウェア] > [グラフィック] > [グラフィックデバイス] の順に選択します。
NVIDIA GPU アクセラレータデバイスを選択します。
グラフィックデバイスの設定を [編集] します。
[直接共有] を選択します。
[共有パススルー GPU 割り当てポリシー] で、最適なパフォーマンスを実現するために、[複数の GPU にわたって仮想マシンを分散] を選択します。
[OK] をクリックして構成を保存します。
ホストの再起動後に設定が有効になります。
ESXi ホストを右クリックして、メンテナンスモードにします。
ホストを再起動します。
ホストが再実行されているときに、メンテナンスモードを終了します。
[ワークロード管理] をサポートする vSphere クラスタ内の ESXi ホストごとにこのプロセスを繰り返します。

[NVIDIA GPU A30 デバイスおよび A100 デバイスの SR-IOV BIOS の有効化]

マルチインスタンス GPU（MIG モード）で必要となる NVIDIA A30 デバイスまたは A100 GPU デバイスを使用している場合は、ESXi ホストで SR-IOV を有効にする必要があります。SR-IOV が有効になっていない場合は、Tanzu Kubernetes クラスタノード仮想マシンを起動できません。この問題が発生すると、[ワークロード管理] が有効になっている vCenter Server の [最近のタスク] ペインに次のエラーメッセージが表示されます。

Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.

SR-IOV を有効にするには、Web コンソールを使用して ESXi ホストにログインします。[管理] > [ハードウェア ] の順に選択します。NVIDIA GPU デバイスを選択して、[SR-IOV の構成] をクリックします。ここで SR-IOV をオンにできます。その他のガイダンスについては、vSphere ドキュメントのSingle Root I/O Virtualization (SR-IOV)を参照してください。

[vGPU と動的 DirectPath I/O（パススルー対応デバイス）]

vGPU と動的 DirectPath I/O を使用している場合、以下の追加構成を実行します。

vSphere Client を使用して、vCenter Server にログインします。
vCenter Server クラスタでターゲット ESXi ホストを選択します。
[構成] > [ハードウェア] > [PCI デバイス] の順に選択します。
[すべての PCI デバイス] タブを選択します。
ターゲット NVIDIA GPU アクセラレータデバイスを選択します。
[パススルーの切り替え] をクリックします。
ESXi ホストを右クリックして、メンテナンスモードにします。
ホストを再起動します。
ホストが再実行されているときに、メンテナンスモードを終了します。

管理者の手順 4：各 ESXi ホストに NVIDIA ホストマネージャドライバをインストールする

NVIDIA vGPU グラフィックアクセラレーションを使用して Tanzu Kubernetes クラスタノード仮想マシンを実行するには、[ワークロード管理] を有効にする vCenter Server クラスタ内の各 ESXi ホストに NVIDIA ホストマネージャドライバをインストールします。

NVIDIA vGPU ホストマネージャドライバのコンポーネントは、vSphere インストールバンドル (VIB) に含まれています。NVAIE VIB は、NVIDIA GRID ライセンスプログラムを通じて組織から提供されます。VMware は NVAIE VIB を提供することも、ダウンロード可能にすることもしません。NVIDIA ライセンスプログラムの一環として、ユーザーの組織がライセンスサーバを設定します。詳細については、NVIDIA 仮想 GPU ソフトウェアクイックスタートガイドを参照してください。

NVIDIA 環境が設定されたら、各 ESXi ホストで次のコマンドを実行して、NVIDIA ライセンスサーバのアドレスと NVAIE VIB のバージョンを環境に適した値に置き換えます。その他のガイダンスについては、VMware サポートのナレッジベースの記事 Installing and configuring the NVIDIA VIB on ESXiを参照してください。

注： ESXi ホストにインストールされている NVAIE VIB のバージョンは、ノードの仮想マシンにインストールされている vGPU ソフトウェアのバージョンと一致する必要があります。以下のバージョンは単なる例です。

esxcli system maintenanceMode set --enable true
esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib
esxcli system maintenanceMode set --enable false
/etc/init.d/xorg restart

管理者の手順 5：ESXi ホストで NVIDIA vGPU 操作の準備ができていることを確認する

各 ESXi ホストで NVIDIA vGPU 操作を行う準備ができていることを確認するには、 [ワークロード管理] を有効にする vCenter Server クラスタ内の各 ESXi ホストで次のチェックを実行します

ESXi ホストに SSH 接続を行い、シェルモードに切り替えて、コマンド nvidia-smi を実行します。NVIDIA システム管理インターフェイスは、NVIDA vGPU ホストマネージャから提供されるコマンドラインユーティリティです。このコマンドを実行すると、ホスト上の GPU とドライバが返されます。
次のコマンドを実行して、NVIDIA ドライバが適切にインストールされていることを確認します。esxcli software vib list | grep NVIDA
ホストに GPU の直接共有が構成され、SR-IOV がオンになっていることを確認します（NVIDIA A30 デバイスまたは A100 デバイスを使用している場合）。
vSphere Client を使用して、GPU 用に構成されている ESXi ホストに PCI デバイスを含む新しい仮想マシンを作成します。NVIDIA vGPU プロファイルが表示されて、選択可能になります。

管理者の手順 6：ワークロード管理を有効にする

[ワークロード管理] を有効にするには、 TKG サービスクラスタのデプロイを参照してください。

注： [ワークロード管理] が有効になっている vSphere クラスタがすでに存在する場合は、クラスタが vGPU 用に構成された ESXi ホストを使用していると想定して、この手順をスキップします。

管理者の手順 7：TKR Ubuntu を含むコンテンツライブラリを作成または更新する

NVIDIA vGPU には Ubuntu オペレーティングシステムが必要です。vGPU クラスタに Tanzu Kubernetes リリースの PhotonOS エディションを使用することはできません。

VMware では、Tanzu Kubernetes リリースの Ubuntu エディションが提供されています。vSphere 8 以降では、Ubuntu エディションはクラスタ YAML のアノテーションを使用して指定されます。

サポートされている Ubuntu TKR を使用して、既存のコンテンツライブラリを作成または更新します。 TKG サービスクラスタ用 Kubernetes リリースの管理を参照してください。

注： vCenter Server で既存の TKR コンテンツライブラリがすでに構成されている場合は、この手順をスキップします。TKR 用に 2 つ目のコンテンツライブラリを作成しないでください。作成すると、システムが不安定になる可能性があります。

管理者の手順 8：vGPU プロファイルを使用するカスタム仮想マシンクラスを作成する

vGPU プロファイルを使用してカスタム仮想マシンクラスを作成します。次に、クラスタ仕様でこの仮想マシンクラスを使用して、TKGS クラスタノードを作成します。「NVIDIA vGPU デバイス用のカスタム仮想マシンクラスの作成」の手順を参照してください。

管理者の手順 9：vSphere 名前空間を構成する

プロビジョニングする TKG vGPU クラスタごとに、vSphere 名前空間を作成します。TKG サービスクラスタをホストするための vSphere 名前空間の作成を参照してください。

編集権限を持つ vSphere SSO ユーザー/グループを追加して名前空間を構成し、パーシステントボリュームにストレージポリシーを適用して、vSphere 名前空間を構成します。TKG サービスクラスタ向けの vSphere 名前空間の構成を参照してください。

目的の Ubuntu イメージが格納されている TKR コンテンツライブラリを vSphere 名前空間に関連付けます。TKR コンテンツライブラリの TKG サービスへの関連付けを参照してください。

カスタム仮想マシンクラスを vSphere 名前空間に関連付けます。

vSphere 名前空間の選択で、[仮想マシンサービス]タイルを選択し、[仮想マシンクラスの管理] をクリックします。
クラスのリストで、作成したカスタム仮想マシンクラスを見つけます。
クラスを選択し、[追加] をクリックします。

その他のガイダンスについては、仮想マシンクラスの vSphere 名前空間への関連付けを参照してください。

管理者の手順 10：スーパーバイザーの準備ができていることを確認する

最後の管理タスクでは、スーパーバイザーがプロビジョニングされ、クラスタオペレータが AI/ML ワークロード用の TKG クラスタをプロビジョニングする際に使用できることを確認します。

vCenter SSO 認証を使用した TKG サービスクラスタへの接続を参照してください。

管理者の手順 1：システム要件を確認する

管理者の手順 2：サポートされている NVIDIA GPU デバイスを ESXi ホストにインストールする

管理者の手順 3：各 ESXi ホストを vGPU 操作用に構成する

管理者の手順 4：各 ESXi ホストに NVIDIA ホスト マネージャ ドライバをインストールする

管理者の手順 5：ESXi ホストで NVIDIA vGPU 操作の準備ができていることを確認する

管理者の手順 6：ワークロード管理を有効にする

管理者の手順 7：TKR Ubuntu を含むコンテンツ ライブラリを作成または更新する

管理者の手順 8：vGPU プロファイルを使用するカスタム仮想マシン クラスを作成する

管理者の手順 9：vSphere 名前空間 を構成する

管理者の手順 10：スーパーバイザー の準備ができていることを確認する

管理者の手順 4：各 ESXi ホストに NVIDIA ホストマネージャドライバをインストールする

管理者の手順 7：TKR Ubuntu を含むコンテンツライブラリを作成または更新する

管理者の手順 8：vGPU プロファイルを使用するカスタム仮想マシンクラスを作成する

管理者の手順 9：vSphere 名前空間を構成する

管理者の手順 10：スーパーバイザーの準備ができていることを確認する