データ サイエンティストや DevOps エンジニアは、Automation Service Broker を使用して NVIDIA RAG ワークロードを展開できます。
注: このドキュメントは、
VMware Aria Automation 8.18 に基づいています。
VMware Aria Automation 8.18.1 の
VMware Private AI Foundation 機能については、
VMware Private AI Foundation with
NVIDIA ドキュメントの「
Deploying RAG Workloads by Using Self-Service Catalog Items in VMware Aria Automation」を参照してください。
RAG Workstation の展開
データ サイエンティストは、取得拡張生成 (RAG) リファレンス ソリューションを持つ GPU 対応の Workstation をセルフサービス Automation Service Broker カタログから展開できます。
手順
- Automation Service Broker の [カタログ] 画面で、[AI RAG Workstation] カードを見つけて [申請] をクリックします。
- プロジェクトを選択します。
- 展開の名前と説明を入力します。
- RAG Workstation のパラメータを構成します。
設定 サンプル値 仮想マシン クラス A100 Small - 1 vGPU (16 GB)、8 CPU、16 GB のメモリ 仮想マシン クラスの最小仕様:- CPU:10 個の vCPU
- CPU RAM:64 GB
- GPU:2xH100
- GPU メモリ:50 GB
データ ディスク サイズ 3 Gi ユーザー パスワード 延期したユーザーのパスワードを入力します。初回ログイン時にパスワードのリセットを求められる場合があります。 SSH パブリック キー このフィールド値の指定は任意です。 - ソフトウェアのカスタマイズをインストールします。
- (オプション) RAG ソフトウェア バンドルに定義されている cloud-init に加えてカスタム cloud-init をインストールする場合は、チェックボックスをオンにして、構成パッケージの内容を貼り付けます。
VMware Aria Automation では、RAG ソフトウェア バンドルの cloud-init とカスタム cloud-init をマージします。
- NVIDIA NGC ポータルのアクセス キーを指定します。
- Docker Hub の認証情報を入力します。
- (オプション) RAG ソフトウェア バンドルに定義されている cloud-init に加えてカスタム cloud-init をインストールする場合は、チェックボックスをオンにして、構成パッケージの内容を貼り付けます。
- [送信] をクリックします。
結果
GPU アクセラレーション Tanzu Kubernetes Grid RAG クラスタの展開
セルフサービス Automation Service Broker カタログを使用する DevOps エンジニアは、ワーカー ノードが Llama2-13b-chat モデルを使用するリファレンス RAG ソリューションを実行できる GPU 対応の Tanzu Kubernetes Grid RAG クラスタをプロビジョニングできます。
展開には、スーパーバイザー名前空間と Tanzu Kubernetes Grid クラスタが含まれています。TKG クラスタには 2 つのスーパーバイザー名前空間が含まれています。1 つは NVIDIA GPU Operator 用、もう 1 つは NVIDIA RAG LLM Operator 用です。両方とも TKG クラスタに事前にインストールされています。各オペレータの Carvel アプリケーションは、これらの 2 つの名前空間内に展開されます。
手順
- Automation Service Broker の [カタログ] 画面で、[AI Kubernetes RAG クラスタ] カードを見つけて [申請] をクリックします。
- プロジェクトを選択します。
- 展開の名前と説明を入力します。
- コントロール ペイン ノードの数を選択します。
設定 サンプル値 ノード数 1 仮想マシン クラス best-effort-2xlarge - 8 個の CPU と 64 GB のメモリ 選択したクラスによって、仮想マシン内で使用可能なリソースが決まります。
- ワーカー ノードの数を選択します。
設定 説明 ノード数 3 仮想マシン クラス best-effort-4xlarge-a100-40c - 1 個の vGPU (40 GB)、16 個の CPU、120 GB のメモリ 仮想マシン クラスの最小仕様:- CPU:10 個の vCPU
- CPU RAM:64 GB
- GPU:2xH100
- GPU メモリ:50 GB
タイムスライス レプリカ 1 タイムスライスでは、ワークロード間で共有される GPU のレプリカのセットを定義します。
- NVIDIA AI エンタープライズ API キーを指定します。
- [送信] をクリックします。