セルフサービス Automation Service Broker カタログを使用する DevOps エンジニアである場合は、GPU 対応の Tanzu Kubernetes Grid RAG クラスタをプロビジョニングできます。ここで、ワーカー ノードは Llama2-13b-chat モデルを使用するリファレンス RAG ソリューションを実行できます。

展開には、スーパーバイザー名前空間と Tanzu Kubernetes Grid クラスタが含まれています。TKG クラスタには、NVIDIA GPU Operator と NVIDIA RAG LLM Operator 用の 2 つのスーパーバイザー名前空間が含まれています。両方とも TKG クラスタに事前にインストールされています。各オペレータの Carvel アプリケーションは、これら 2 つの名前空間内に展開されます。

手順

  1. Automation Service Broker[カタログ] ページで、[AI Kubernetes RAG クラスタ] カードを見つけて、[要求] をクリックします。
  2. プロジェクトを選択します。
  3. 展開の名前と説明を入力します。
  4. 制御ペイン ノードの数を選択します。
    設定 サンプル値
    ノード数 1
    仮想マシン クラス best-effort-2xlarge - 8 個の CPU と 64 GB のメモリ

    クラスの選択により、仮想マシン内で使用可能なリソースが定義されます。

  5. ワーク ノードの数を選択します。
    設定 説明
    ノード数 3
    仮想マシン クラス best-effort-4xlarge-a100-40c - 1 個の vGPU (40 GB)、16 個の CPU、120 GB のメモリ
    仮想マシン クラスの最小仕様:
    • CPU:10 個の vCPU
    • CPU RAM:64 GB
    • GPU:2xH100
    • GPU メモリ:50 GB
    タイム スライス レプリカ 1

    タイム スライスは、ワークロード間で共有される GPU のレプリカのセットを定義します。

  6. NVIDIA AI エンタープライズ API キーを指定します。
  7. [送信] をクリックします。