開発者が TKG クラスタに AI/ML ワークロードをデプロイできるようにするには、vSphere 管理者が NVIDIA GPU ハードウェアをサポートするように スーパーバイザー 環境を設定します。
管理者の手順 1:システム要件を確認する
要件 | 説明 |
---|---|
vSphere 8 インフラストラクチャ |
vCenter Server ホストおよび ESXi ホスト |
ワークロード管理ライセンス |
vSphere 名前空間と スーパーバイザー |
TKR Ubuntu OVA | |
NVIDIA vGPU ホスト ドライバ |
NGC Web サイトから VIB をダウンロードします。詳細については、vGPU ソフトウェア ドライバのドキュメントを参照してください。 |
vGPU の NVIDIA ライセンス サーバ |
組織から提供された FQDN |
管理者の手順 2:サポートされている NVIDIA GPU デバイスを ESXi ホストにインストールする
TKG に AI/ML ワークロードをデプロイするには、[ワークロード管理] を有効にする vCenter Server クラスタ内の各 ESXi ホストに、サポートされている NVIDIA GPU デバイスを 1 つ以上インストールします。
互換性のある NVIDIA GPU デバイスを表示するには、VMware 互換性ガイドを参照してください。
NVIDA GPU デバイスは、最新の NVIDIA AI Enterprise (NVAIE) vGPU プロファイルをサポートしている必要があります。ガイダンスについては、NVIDIA Virtual GPU Software Supported GPUsドキュメントを参照してください。
たとえば、次の ESXi ホストには、2 つの NVIDIA GPU A100 デバイスがインストールされています。
管理者の手順 3:各 ESXi ホストを vGPU 操作用に構成する
[ワークロード管理] が有効になっている vCenter Server クラスタ内の ESXi ホストごとに、[直接共有] および [SR-IOV] を有効にして、ホストを NVIDIA vGPU 用に構成します。
[各 ESXi ホストでの直接共有の有効化]
NVIDIA vGPU 機能をロック解除するには、[ワークロード管理] が有効になっている vCenter Server クラスタ内の各 ESXi ホストで [直接共有] モードを有効にします。
- vSphere Client を使用して、vCenter Server にログインします。
- vCenter Server クラスタで ESXi ホストを選択します。
- の順に選択します。
- NVIDIA GPU アクセラレータ デバイスを選択します。
- グラフィック デバイスの設定を [編集] します。
- [直接共有] を選択します。
- [共有パススルー GPU 割り当てポリシー] で、最適なパフォーマンスを実現するために、[複数の GPU にわたって仮想マシンを分散] を選択します。
- [OK] をクリックして構成を保存します。
- ホストの再起動後に設定が有効になります。
- ESXi ホストを右クリックして、メンテナンス モードにします。
- ホストを再起動します。
- ホストが再実行されているときに、メンテナンス モードを終了します。
- [ワークロード管理] をサポートする vSphere クラスタ内の ESXi ホストごとにこのプロセスを繰り返します。
[NVIDIA GPU A30 デバイスおよび A100 デバイスの SR-IOV BIOS の有効化]
マルチインスタンス GPU(MIG モード)で必要となる NVIDIA A30 デバイスまたは A100 GPU デバイスを使用している場合は、ESXi ホストで SR-IOV を有効にする必要があります。SR-IOV が有効になっていない場合は、Tanzu Kubernetes クラスタ ノード仮想マシンを起動できません。この問題が発生すると、[ワークロード管理] が有効になっている vCenter Server の [最近のタスク] ペインに次のエラー メッセージが表示されます。
Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.
SR-IOV を有効にするには、Web コンソールを使用して ESXi ホストにログインします。[SR-IOV の構成] をクリックします。ここで SR-IOV をオンにできます。その他のガイダンスについては、vSphere ドキュメントのSingle Root I/O Virtualization (SR-IOV)を参照してください。
の順に選択します。NVIDIA GPU デバイスを選択して、[vGPU と動的 DirectPath I/O(パススルー対応デバイス)]
- vSphere Client を使用して、vCenter Server にログインします。
- vCenter Server クラスタでターゲット ESXi ホストを選択します。
- の順に選択します。
- [すべての PCI デバイス] タブを選択します。
- ターゲット NVIDIA GPU アクセラレータ デバイスを選択します。
- [パススルーの切り替え] をクリックします。
- ESXi ホストを右クリックして、メンテナンス モードにします。
- ホストを再起動します。
- ホストが再実行されているときに、メンテナンス モードを終了します。
管理者の手順 4:各 ESXi ホストに NVIDIA ホスト マネージャ ドライバをインストールする
NVIDIA vGPU グラフィック アクセラレーションを使用して Tanzu Kubernetes クラスタ ノード仮想マシンを実行するには、[ワークロード管理] を有効にする vCenter Server クラスタ内の各 ESXi ホストに NVIDIA ホスト マネージャ ドライバをインストールします。
NVIDIA vGPU ホスト マネージャ ドライバのコンポーネントは、vSphere インストール バンドル (VIB) に含まれています。NVAIE VIB は、NVIDIA GRID ライセンス プログラムを通じて組織から提供されます。VMware は NVAIE VIB を提供することも、ダウンロード可能にすることもしません。NVIDIA ライセンス プログラムの一環として、ユーザーの組織がライセンス サーバを設定します。詳細については、NVIDIA 仮想 GPU ソフトウェア クイック スタート ガイドを参照してください。
esxcli system maintenanceMode set --enable true esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib esxcli system maintenanceMode set --enable false /etc/init.d/xorg restart
管理者の手順 5:ESXi ホストで NVIDIA vGPU 操作の準備ができていることを確認する
- ESXi ホストに SSH 接続を行い、シェル モードに切り替えて、コマンド
nvidia-smi
を実行します。NVIDIA システム管理インターフェイスは、NVIDA vGPU ホスト マネージャから提供されるコマンド ライン ユーティリティです。このコマンドを実行すると、ホスト上の GPU とドライバが返されます。 - 次のコマンドを実行して、NVIDIA ドライバが適切にインストールされていることを確認します。
esxcli software vib list | grep NVIDA
- ホストに GPU の直接共有が構成され、SR-IOV がオンになっていることを確認します(NVIDIA A30 デバイスまたは A100 デバイスを使用している場合)。
- vSphere Client を使用して、GPU 用に構成されている ESXi ホストに PCI デバイスを含む新しい仮想マシンを作成します。NVIDIA vGPU プロファイルが表示されて、選択可能になります。
管理者の手順 6:ワークロード管理を有効にする
管理者の手順 7:TKR Ubuntu を含むコンテンツ ライブラリを作成または更新する
NVIDIA vGPU には Ubuntu オペレーティング システムが必要です。vGPU クラスタに Tanzu Kubernetes リリースの PhotonOS エディションを使用することはできません。
VMware では、Tanzu Kubernetes リリースの Ubuntu エディションが提供されています。vSphere 8 以降では、Ubuntu エディションはクラスタ YAML のアノテーションを使用して指定されます。
管理者の手順 8:vGPU プロファイルを使用するカスタム仮想マシン クラスを作成する
vGPU プロファイルを使用してカスタム仮想マシン クラスを作成します。次に、クラスタ仕様でこの仮想マシン クラスを使用して、TKGS クラスタ ノードを作成します。「NVIDIA vGPU デバイス用のカスタム仮想マシン クラスの作成」の手順を参照してください。
管理者の手順 9:vSphere 名前空間 を構成する
プロビジョニングする TKG vGPU クラスタごとに、vSphere 名前空間 を作成します。TKG サービス クラスタをホストするための vSphere 名前空間 の作成を参照してください。
編集権限を持つ vSphere SSO ユーザー/グループを追加して名前空間を構成し、パーシステント ボリュームにストレージ ポリシーを適用して、vSphere 名前空間 を構成します。TKG サービス クラスタ向けの vSphere 名前空間 の構成を参照してください。
目的の Ubuntu イメージが格納されている TKR コンテンツ ライブラリを vSphere 名前空間 に関連付けます。TKR コンテンツ ライブラリの TKG サービス への関連付けを参照してください。
- vSphere 名前空間 の選択で、[仮想マシン サービス]タイルを選択し、[仮想マシン クラスの管理] をクリックします。
- クラスのリストで、作成したカスタム仮想マシン クラスを見つけます。
- クラスを選択し、[追加] をクリックします。
管理者の手順 10:スーパーバイザー の準備ができていることを確認する
最後の管理タスクでは、スーパーバイザー がプロビジョニングされ、クラスタ オペレータが AI/ML ワークロード用の TKG クラスタをプロビジョニングする際に使用できることを確認します。
vCenter SSO 認証を使用した TKG サービス クラスタへの接続を参照してください。