NVIDIA GPU テクノロジーを使用して、TKG サービス クラスタに AI/ML ワークロードをデプロイできます。
AI/ML ワークロードの TKGS サポート
コンピューティング集約型のワークロードを TKG サービス クラスタにデプロイできます。このコンテキストでは、計算を多用するワークロードとは、GPU アクセラレータ デバイスを使用する必要がある人工知能 (AI) または機械学習 (ML) アプリケーションを意味します。
Kubernetes 環境で AI/ML ワークロードの実行を容易にするために、VMware は NVIDIA と連携して、NVIDIA GPU Cloud プラットフォームをサポートしています。つまり、NGC カタログ内のコンテナ イメージを TKGS クラスタにデプロイできます。vSphere 8 の NVIDIA GPU サポートの詳細については、Tech Zone の vGPU の記事を参照してください。
サポート対象の GPU モード
TKG サービス クラスタに NVIDIA ベースの AI/ML ワークロードをデプロイするには、Ubuntu エディションの
Tanzu Kubernetes
リリース(バージョン 1.22 以降)を使用する必要があります。vSphere では 2 つのモード(NVIDIA GRID vGPU、動的 DirectPath I/O デバイスを使用する GPU パススルー)がサポートされます。詳細については、NVIDIA ドキュメントの「
Supported Operating Systems and Kubernetes Platforms」を参照してください。
OS | TKr | vSphere with Tanzu | 説明 |
---|---|---|---|
Ubuntu 20.04 LTS | 1.22 ~ 1.2x*(最新バージョンから 1.28 まで) | 7.0 U3c 8.0 U2+ |
GPU デバイスは、各 ESXi ホストにインストールされている NVIDIA ホスト マネージャ ドライバによって仮想化されます。仮想化された GPU デバイスは、複数の NVIDIA 仮想 GPU (vGPU) 間で共有されます。
注: vSphere Distributed Resource Scheduler (DRS) は、vSphere クラスタを構成するホスト全体に幅優先方式で vGPU 仮想マシンを分散します。詳細については、『vSphere リソース管理』ガイドの「
vGPU 仮想マシンの DRS 配置」を参照してください。
各 NVIDIA vGPU は、GPU デバイスのメモリ容量によって定義されます。たとえば、GPU デバイスの RAM の合計容量が 32 GB の場合は、それぞれ 4 GB のメモリを持つ 8 つの vGPU を作成できます。 |
OS | TKr | vSphere with Tanzu | 説明 |
---|---|---|---|
Ubuntu 20.04 LTS | 1.22 ~ 1.2x*(最新バージョンから 1.28 まで) | 7.0 U3c 8.0 U2+ |
NVIDIA vGPU プロファイルを構成した仮想マシン クラスに、動的 DirectPath IO を使用するパススルー ネットワーク デバイスのサポートを含めます。この場合、仮想マシンの配置は vSphere DRS によって決まります。 |