RAG ワークロードの展開

データサイエンティストや DevOps エンジニアは、Automation Service Broker を使用して NVIDIA RAG ワークロードを展開できます。

注：このドキュメントは、 VMware Aria Automation 8.18 に基づいています。 VMware Aria Automation 8.18.1 の VMware Private AI Foundation 機能については、 VMware Private AI Foundation with NVIDIA ドキュメントの「 Deploying RAG Workloads by Using Self-Service Catalog Items in VMware Aria Automation」を参照してください。

RAG Workstation の展開

データサイエンティストは、取得拡張生成 (RAG) リファレンスソリューションを持つ GPU 対応の Workstation をセルフサービス Automation Service Broker カタログから展開できます。

RAG リファレンスソリューションは、既存の基本的な LLM をビジネスユースケースに合わせて拡張することで、生成 AI でビジネス価値を見つける方法を示します。これは、企業のビジネスデータを含むエンタープライズナレッジベースから事実を取得する、取得拡張生成 (RAG) を使用して行われます。ドメイン固有のビジネスデータを使用して LLM を拡張し、俊敏で新しい開発に応答性の高い AI アプリケーションを作成する方法に特に注意してください。

手順

Automation Service Broker の [カタログ] 画面で、[AI RAG Workstation] カードを見つけて [申請] をクリックします。
プロジェクトを選択します。
展開の名前と説明を入力します。

RAG Workstation のパラメータを構成します。

設定	サンプル値
仮想マシンクラス	`A100 Small - 1 vGPU (16 GB)、8 CPU、16 GB のメモリ` 仮想マシンクラスの最小仕様： CPU：10 個の vCPU CPU RAM：64 GB GPU：2xH100 GPU メモリ：50 GB
データディスクサイズ	`3 Gi`
ユーザーパスワード	延期したユーザーのパスワードを入力します。初回ログイン時にパスワードのリセットを求められる場合があります。
SSH パブリックキー	このフィールド値の指定は任意です。

ソフトウェアのカスタマイズをインストールします。
1. （オプション） RAG ソフトウェアバンドルに定義されている cloud-init に加えてカスタム cloud-init をインストールする場合は、チェックボックスをオンにして、構成パッケージの内容を貼り付けます。
  VMware Aria Automation では、RAG ソフトウェアバンドルの cloud-init とカスタム cloud-init をマージします。
2. NVIDIA NGC ポータルのアクセスキーを指定します。
3. Docker Hub の認証情報を入力します。
[送信] をクリックします。

結果

Workstation には、Ubuntu 22.04、NVIDIA vGPU ドライバ、Docker Engine、NVIDIA Container Toolkit、Llama-2-13b-chat モデルを使用するリファレンス RAG ソリューションが含まれます。

GPU アクセラレーション Tanzu Kubernetes Grid RAG クラスタの展開

セルフサービス Automation Service Broker カタログを使用する DevOps エンジニアは、ワーカーノードが Llama2-13b-chat モデルを使用するリファレンス RAG ソリューションを実行できる GPU 対応の Tanzu Kubernetes Grid RAG クラスタをプロビジョニングできます。

展開には、スーパーバイザー名前空間と Tanzu Kubernetes Grid クラスタが含まれています。TKG クラスタには 2 つのスーパーバイザー名前空間が含まれています。1 つは NVIDIA GPU Operator 用、もう 1 つは NVIDIA RAG LLM Operator 用です。両方とも TKG クラスタに事前にインストールされています。各オペレータの Carvel アプリケーションは、これらの 2 つの名前空間内に展開されます。

手順

Automation Service Broker の [カタログ] 画面で、[AI Kubernetes RAG クラスタ] カードを見つけて [申請] をクリックします。
プロジェクトを選択します。
展開の名前と説明を入力します。

コントロールペインノードの数を選択します。

設定	サンプル値
ノード数	`1`
仮想マシンクラス	`best-effort-2xlarge - 8 個の CPU と 64 GB のメモリ` 選択したクラスによって、仮想マシン内で使用可能なリソースが決まります。

ワーカーノードの数を選択します。

設定	説明
ノード数	`3`
仮想マシンクラス	`best-effort-4xlarge-a100-40c - 1 個の vGPU (40 GB)、16 個の CPU、120 GB のメモリ` 仮想マシンクラスの最小仕様： CPU：10 個の vCPU CPU RAM：64 GB GPU：2xH100 GPU メモリ：50 GB
タイムスライスレプリカ	`1` タイムスライスでは、ワークロード間で共有される GPU のレプリカのセットを定義します。

NVIDIA AI エンタープライズ API キーを指定します。
[送信] をクリックします。