TKG サービスクラスタへの AI/ML ワークロードのデプロイについて

NVIDIA GPU テクノロジーを使用して、TKG サービスクラスタに AI/ML ワークロードをデプロイできます。

AI/ML ワークロードの TKGS サポート

コンピューティング集約型のワークロードを TKG サービスクラスタにデプロイできます。このコンテキストでは、計算を多用するワークロードとは、GPU アクセラレータデバイスを使用する必要がある人工知能 (AI) または機械学習 (ML) アプリケーションを意味します。

Kubernetes 環境で AI/ML ワークロードの実行を容易にするために、VMware は NVIDIA と連携して、NVIDIA GPU Cloud プラットフォームをサポートしています。つまり、NGC カタログ内のコンテナイメージを TKGS クラスタにデプロイできます。vSphere 8 の NVIDIA GPU サポートの詳細については、Tech Zone の vGPU の記事を参照してください。

サポート対象の GPU モード

TKG サービスクラスタに NVIDIA ベースの AI/ML ワークロードをデプロイするには、Ubuntu エディションの Tanzu Kubernetes リリース（バージョン 1.22 以降）を使用する必要があります。vSphere では 2 つのモード（NVIDIA GRID vGPU、動的 DirectPath I/O デバイスを使用する GPU パススルー）がサポートされます。詳細については、NVIDIA ドキュメントの「 Supported Operating Systems and Kubernetes Platforms」を参照してください。

表 1. NVIDIA vGPU を使用する vSphere 仮想マシン
OS	TKr	vSphere with Tanzu	説明
Ubuntu 20.04 LTS	1.22 ～ 1.2x*（最新バージョンから 1.28 まで）	7.0 U3c 8.0 U2+	GPU デバイスは、各 ESXi ホストにインストールされている NVIDIA ホストマネージャドライバによって仮想化されます。仮想化された GPU デバイスは、複数の NVIDIA 仮想 GPU (vGPU) 間で共有されます。注： vSphere Distributed Resource Scheduler (DRS) は、vSphere クラスタを構成するホスト全体に幅優先方式で vGPU 仮想マシンを分散します。詳細については、『vSphere リソース管理』ガイドの「 vGPU 仮想マシンの DRS 配置」を参照してください。各 NVIDIA vGPU は、GPU デバイスのメモリ容量によって定義されます。たとえば、GPU デバイスの RAM の合計容量が 32 GB の場合は、それぞれ 4 GB のメモリを持つ 8 つの vGPU を作成できます。

表 2. GPU パススルーを使用する vSphere 仮想マシン
OS	TKr	vSphere with Tanzu	説明
Ubuntu 20.04 LTS	1.22 ～ 1.2x*（最新バージョンから 1.28 まで）	7.0 U3c 8.0 U2+	NVIDIA vGPU プロファイルを構成した仮想マシンクラスに、動的 DirectPath IO を使用するパススルーネットワークデバイスのサポートを含めます。この場合、仮想マシンの配置は vSphere DRS によって決まります。