vSphere with Tanzu および NVIDIA vGPU テクノロジーを使用して、TKGS クラスタに AI/ML ワークロードをデプロイできます。

AI/ML ワークロードの TGKS サポートについてのお知らせ

vSphere with Tanzu バージョン 7 Update 3 Monthly Patch 1 以降のリリースでは、計算を多用するワークロードを、Tanzu Kubernetes Grid サービス によってプロビジョニングされた Tanzu Kubernetes クラスタにデプロイできます。このコンテキストでは、計算を多用するワークロードとは、GPU アクセラレータ デバイスを使用する必要がある人工知能 (AI) または機械学習 (ML) アプリケーションを意味します。

Kubernetes 環境で AI/ML ワークロードの実行を容易にするために、VMware は NVIDIA と連携して、vSphere with Tanzu で NVIDIA GPU Cloud プラットフォームをサポートしています。つまり、NGC カタログ内のコンテナ イメージを、Tanzu Kubernetes Grid サービス によってプロビジョニングされた Tanzu Kubernetes クラスタにデプロイできます。

AI-Ready Enterprise 向けの NVIDIA と VMware の共通アーキテクチャの詳細については、Accelerating Workloads on vSphere 7 with Tanzu - A Technical Preview of Kubernetes Clusters with GPUを参照してください。

サポート対象の vGPU モード

TKGS に AI/ML ワークロードをデプロイするには、vSphere with Tanzu コンテンツ配信ネットワーク経由で入手可能な Ubuntu OVA を使用する必要があります。TKGS では、2 つの GPU 動作モードがサポートされています。1 つは vGPU で、もう 1 つは NIC パススルー機能を持つ vGPU です。次の表では、2 つのモードについて詳しく説明します。

モード 構成 説明

NVIDIA + TKGS + Ubuntu + vGPU

NVIDIA vGPU

GPU デバイスは、各 ESXi ホストにインストールされている NVIDIA ホスト マネージャ ドライバによって仮想化されます。仮想化された GPU デバイスは、複数の NVIDIA 仮想 GPU (vGPU) 間で共有されます。

各 NVIDIA vGPU は、GPU デバイスのメモリ容量によって定義されます。たとえば、GPU デバイスの RAM の合計容量が 32 GB の場合は、それぞれ約 4 GB のメモリを持つ 8 つの vGPU を作成できます。

NVIDIA + TKGS + Ubuntu + vGPU + NIC パススルー

NVIDIA vGPU

[および]

動的 DirectPath I/O

NVIDIA vGPU プロファイルを構成した仮想マシン クラスに、動的 DirectPath IO を使用するパススルー ネットワーク デバイスのサポートを含めます。この場合、仮想マシンの配置は vSphere DRS によって決まります。

はじめに

NIC パススルー機能を持つ vGPU を使用している場合は、TKGS クラスタへの AI/ML ワークロードのデプロイに関する vSphere 管理者向けの補足(vGPU および動的 DirectPath I/O)のトピックも参照してください。

NVAIE アカウントに NVIDIA Delegated Licensing Server (DLS) を使用している場合は、TKGS クラスタ (DLS) への AI/ML ワークロードのデプロイに関するクラスタ オペレータについての補足のトピックも参照してください。