データ サイエンティストや DevOps エンジニアは、Automation Service Broker を使用して NVIDIA RAG ワークロードを展開できます。

RAG Workstation の展開

データ サイエンティストは、取得拡張生成 (RAG) リファレンス ソリューションを持つ GPU 対応の Workstation をセルフサービス Automation Service Broker カタログから展開できます。

RAG リファレンス ソリューションは、既存の基本的な LLM をビジネス ユースケースに合わせて拡張することで、生成 AI でビジネス価値を見つける方法を示します。これは、企業のビジネス データを含むエンタープライズ ナレッジベースから事実を取得する、取得拡張生成 (RAG) を使用して行われます。ドメイン固有のビジネス データを使用して LLM を拡張し、俊敏で新しい開発に応答性の高い AI アプリケーションを作成する方法に特に注意してください。

手順

  1. Automation Service Broker[カタログ] 画面で、[AI RAG Workstation] カードを見つけて [申請] をクリックします。
  2. プロジェクトを選択します。
  3. 展開の名前と説明を入力します。
  4. RAG Workstation のパラメータを構成します。
    設定 サンプル値
    仮想マシン クラス A100 Small - 1 vGPU (16 GB)、8 CPU、16 GB のメモリ
    仮想マシン クラスの最小仕様:
    • CPU:10 個の vCPU
    • CPU RAM:64 GB
    • GPU:2xH100
    • GPU メモリ:50 GB
    データ ディスク サイズ 3 Gi
    ユーザー パスワード 延期したユーザーのパスワードを入力します。初回ログイン時にパスワードのリセットを求められる場合があります。
    SSH パブリック キー このフィールド値の指定は任意です。
  5. ソフトウェアのカスタマイズをインストールします。
    1. (オプション) RAG ソフトウェア バンドルに定義されている cloud-init に加えてカスタム cloud-init をインストールする場合は、チェックボックスをオンにして、構成パッケージの内容を貼り付けます。
      VMware Aria Automation では、RAG ソフトウェア バンドルの cloud-init とカスタム cloud-init をマージします。
    2. NVIDIA NGC ポータルのアクセス キーを指定します。
    3. Docker Hub の認証情報を入力します。
  6. [送信] をクリックします。

結果

Workstation には、Ubuntu 22.04、NVIDIA vGPU ドライバ、Docker Engine、NVIDIA Container Toolkit、Llama-2-13b-chat モデルを使用するリファレンス RAG ソリューションが含まれます。

GPU アクセラレーション Tanzu Kubernetes Grid RAG クラスタの展開

セルフサービス Automation Service Broker カタログを使用する DevOps エンジニアは、ワーカー ノードが Llama2-13b-chat モデルを使用するリファレンス RAG ソリューションを実行できる GPU 対応の Tanzu Kubernetes Grid RAG クラスタをプロビジョニングできます。

展開には、スーパーバイザー名前空間と Tanzu Kubernetes Grid クラスタが含まれています。TKG クラスタには 2 つのスーパーバイザー名前空間が含まれています。1 つは NVIDIA GPU Operator 用、もう 1 つは NVIDIA RAG LLM Operator 用です。両方とも TKG クラスタに事前にインストールされています。各オペレータの Carvel アプリケーションは、これらの 2 つの名前空間内に展開されます。

手順

  1. Automation Service Broker[カタログ] 画面で、[AI Kubernetes RAG クラスタ] カードを見つけて [申請] をクリックします。
  2. プロジェクトを選択します。
  3. 展開の名前と説明を入力します。
  4. コントロール ペイン ノードの数を選択します。
    設定 サンプル値
    ノード数 1
    仮想マシン クラス best-effort-2xlarge - 8 個の CPU と 64 GB のメモリ

    選択したクラスによって、仮想マシン内で使用可能なリソースが決まります。

  5. ワーカー ノードの数を選択します。
    設定 説明
    ノード数 3
    仮想マシン クラス best-effort-4xlarge-a100-40c - 1 個の vGPU (40 GB)、16 個の CPU、120 GB のメモリ
    仮想マシン クラスの最小仕様:
    • CPU:10 個の vCPU
    • CPU RAM:64 GB
    • GPU:2xH100
    • GPU メモリ:50 GB
    タイムスライス レプリカ 1

    タイムスライスでは、ワークロード間で共有される GPU のレプリカのセットを定義します。

  6. NVIDIA AI エンタープライズ API キーを指定します。
  7. [送信] をクリックします。