DevOps エンジニアは、ワーカー ノードが AI/ML ワークロードを実行できる GPU アクセラレーション Tanzu Kubernetes Grid (TKG) クラスタをセルフサービス Automation Service Broker カタログから申請できます。

注: このドキュメントは、 VMware Aria Automation 8.18 に基づいています。 VMware Aria Automation 8.18.1 の VMware Private AI Foundation 機能については、 VMware Private AI Foundation with NVIDIA ドキュメントの「 Deploy a GPU-Accelerated TKG Cluster by Using a Self-Service Catalog Item in VMware Aria Automation」を参照してください。

TKG クラスタには NVIDIA GPU Operator が含まれています。これは、TKG クラスタ ノードで NVIDIA GPU ハードウェアに適した NVIDIA ドライバを設定する Kubernetes Operator です。展開されたクラスタはすぐに AI/ML ワークロードに使用できます。追加の GPU 関連の設定は必要ありません。

展開には、スーパーバイザー名前空間、3 台のワーカー ノードを持つ TKG クラスタ、TKG クラスタ内の複数のリソース、GPU Operator アプリケーションを展開する Carvel アプリケーションが含まれています。

手順

  1. Automation Service Broker[カタログ] 画面で、[AI Kubernetes クラスタ] カードを見つけて [申請] をクリックします。
  2. プロジェクトを選択します。
  3. 展開の名前と説明を入力します。
  4. コントロール ペイン ノードの数を選択します。
    設定 サンプル値
    ノード数 1
    仮想マシン クラス best-effort-4xlarge - 16 個の CPU と 128 GB のメモリ

    選択したクラスによって、仮想マシン内で使用可能なリソースが決まります。

  5. ワーカー ノードの数を選択します。
    設定 説明
    ノード数 3
    仮想マシン クラス best-effort-4xlarge-a100-40c - 1 個の vGPU (40 GB)、16 個の CPU、120 GB のメモリ
    タイムスライス レプリカ 1

    タイムスライスでは、ワークロード間で共有される GPU のレプリカのセットを定義します。

  6. NVIDIA AI エンタープライズ API キーを指定します。
  7. [送信] をクリックします。