NVIDIA GPU テクノロジーを使用して、TKG サービス クラスタに AI/ML ワークロードをデプロイできます。

AI/ML ワークロードの TKGS サポート

コンピューティング集約型のワークロードを TKG サービス クラスタにデプロイできます。このコンテキストでは、計算を多用するワークロードとは、GPU アクセラレータ デバイスを使用する必要がある人工知能 (AI) または機械学習 (ML) アプリケーションを意味します。

Kubernetes 環境で AI/ML ワークロードの実行を容易にするために、VMware は NVIDIA と連携して、NVIDIA GPU Cloud プラットフォームをサポートしています。つまり、NGC カタログ内のコンテナ イメージを TKGS クラスタにデプロイできます。vSphere 8 の NVIDIA GPU サポートの詳細については、Tech Zone の vGPU の記事を参照してください。

サポート対象の GPU モード

TKG サービス クラスタに NVIDIA ベースの AI/ML ワークロードをデプロイするには、Ubuntu エディションの Tanzu Kubernetes リリース(バージョン 1.22 以降)を使用する必要があります。vSphere では 2 つのモード(NVIDIA GRID vGPU、動的 DirectPath I/O デバイスを使用する GPU パススルー)がサポートされます。詳細については、NVIDIA ドキュメントの「 Supported Operating Systems and Kubernetes Platforms」を参照してください。
表 1. NVIDIA vGPU を使用する vSphere 仮想マシン
OS TKr vSphere with Tanzu 説明
Ubuntu 20.04 LTS 1.22 ~ 1.2x*(最新バージョンから 1.28 まで)

7.0 U3c

8.0 U2+

GPU デバイスは、各 ESXi ホストにインストールされている NVIDIA ホスト マネージャ ドライバによって仮想化されます。仮想化された GPU デバイスは、複数の NVIDIA 仮想 GPU (vGPU) 間で共有されます。
注: vSphere Distributed Resource Scheduler (DRS) は、vSphere クラスタを構成するホスト全体に幅優先方式で vGPU 仮想マシンを分散します。詳細については、『vSphere リソース管理』ガイドの「 vGPU 仮想マシンの DRS 配置」を参照してください。

各 NVIDIA vGPU は、GPU デバイスのメモリ容量によって定義されます。たとえば、GPU デバイスの RAM の合計容量が 32 GB の場合は、それぞれ 4 GB のメモリを持つ 8 つの vGPU を作成できます。

表 2. GPU パススルーを使用する vSphere 仮想マシン
OS TKr vSphere with Tanzu 説明
Ubuntu 20.04 LTS 1.22 ~ 1.2x*(最新バージョンから 1.28 まで)

7.0 U3c

8.0 U2+

NVIDIA vGPU プロファイルを構成した仮想マシン クラスに、動的 DirectPath IO を使用するパススルー ネットワーク デバイスのサポートを含めます。この場合、仮想マシンの配置は vSphere DRS によって決まります。