セルフサービス Automation Service Broker カタログを使用する DevOps エンジニアである場合は、GPU 対応の Tanzu Kubernetes Grid RAG クラスタをプロビジョニングできます。ここで、ワーカー ノードは Llama2-13b-chat モデルを使用するリファレンス RAG ソリューションを実行できます。
展開には、スーパーバイザー名前空間と Tanzu Kubernetes Grid クラスタが含まれています。TKG クラスタには、NVIDIA GPU Operator と NVIDIA RAG LLM Operator 用の 2 つのスーパーバイザー名前空間が含まれています。両方とも TKG クラスタに事前にインストールされています。各オペレータの Carvel アプリケーションは、これら 2 つの名前空間内に展開されます。
手順
- Automation Service Brokerの [カタログ] ページで、[AI Kubernetes RAG クラスタ] カードを見つけて、[要求] をクリックします。
- プロジェクトを選択します。
- 展開の名前と説明を入力します。
- 制御ペイン ノードの数を選択します。
設定 サンプル値 ノード数 1 仮想マシン クラス best-effort-2xlarge - 8 個の CPU と 64 GB のメモリ クラスの選択により、仮想マシン内で使用可能なリソースが定義されます。
- ワーク ノードの数を選択します。
設定 説明 ノード数 3 仮想マシン クラス best-effort-4xlarge-a100-40c - 1 個の vGPU (40 GB)、16 個の CPU、120 GB のメモリ 仮想マシン クラスの最小仕様:- CPU:10 個の vCPU
- CPU RAM:64 GB
- GPU:2xH100
- GPU メモリ:50 GB
タイム スライス レプリカ 1 タイム スライスは、ワークロード間で共有される GPU のレプリカのセットを定義します。
- NVIDIA AI エンタープライズ API キーを指定します。
- [送信] をクリックします。