GPU アクセラレーション Tanzu Kubernetes Grid クラスタの展開

DevOps エンジニアは、ワーカーノードが AI/ML ワークロードを実行できる GPU アクセラレーション Tanzu Kubernetes Grid (TKG) クラスタをセルフサービス Automation Service Broker カタログから申請できます。

注：このドキュメントは、 VMware Aria Automation 8.18 に基づいています。 VMware Aria Automation 8.18.1 の VMware Private AI Foundation 機能については、 VMware Private AI Foundation with NVIDIA ドキュメントの「 Deploy a GPU-Accelerated TKG Cluster by Using a Self-Service Catalog Item in VMware Aria Automation」を参照してください。

TKG クラスタには NVIDIA GPU Operator が含まれています。これは、TKG クラスタノードで NVIDIA GPU ハードウェアに適した NVIDIA ドライバを設定する Kubernetes Operator です。展開されたクラスタはすぐに AI/ML ワークロードに使用できます。追加の GPU 関連の設定は必要ありません。

展開には、スーパーバイザー名前空間、3 台のワーカーノードを持つ TKG クラスタ、TKG クラスタ内の複数のリソース、GPU Operator アプリケーションを展開する Carvel アプリケーションが含まれています。

手順

Automation Service Broker の [カタログ] 画面で、[AI Kubernetes クラスタ] カードを見つけて [申請] をクリックします。
プロジェクトを選択します。
展開の名前と説明を入力します。

コントロールペインノードの数を選択します。

設定	サンプル値
ノード数	`1`
仮想マシンクラス	`best-effort-4xlarge - 16 個の CPU と 128 GB のメモリ` 選択したクラスによって、仮想マシン内で使用可能なリソースが決まります。

ワーカーノードの数を選択します。

設定	説明
ノード数	`3`
仮想マシンクラス	`best-effort-4xlarge-a100-40c - 1 個の vGPU (40 GB)、16 個の CPU、120 GB のメモリ`
タイムスライスレプリカ	`1` タイムスライスでは、ワークロード間で共有される GPU のレプリカのセットを定義します。

NVIDIA AI エンタープライズ API キーを指定します。
[送信] をクリックします。