身為資料科學家或 DevOps 工程師,您可以使用 Automation Service Broker 部署 NVIDIA RAG 工作負載。

備註: 本說明文件依據 VMware Aria Automation 8.18。如需 VMware Aria Automation 8.18.1 中 VMware Private AI Foundation 功能的相關資訊,請參閱 VMware Private AI Foundation with NVIDIA 說明文件中的 〈使用 VMware Aria Automation 中的自助服務目錄項目部署 RAG 工作負載〉

部署 RAG Workstation

身為資料科學家,您可以從自助 Automation Service Broker 目錄部署具有擷取增強產生 (RAG) 參考解決方案且已啟用 GPU 的 Workstation。

RAG 參考解決方案示範了如何透過擴充現有的基礎 LLM 來符合您的業務使用案例,在衍生式 AI 中尋找業務價值。這是使用從包含公司業務資料的企業知識庫中擷取事實的擷取增強產生 (RAG) 來完成的。請特別注意如何透過網域特定業務數據來擴充 LLM,以建立敏捷且能回應新發展的 AI 應用程式。

程序

  1. Automation Service Broker目錄頁面上,找到 AI RAG Workstation 卡,然後按一下請求
  2. 選取專案。
  3. 輸入部署的名稱和說明。
  4. 設定 RAG Workstation 參數。
    設定 範例值
    虛擬機器類別 A100 Small - 1 個 vGPU (16 GB),8 個 CPU 和 16 GB 記憶體
    最低虛擬機器類別規格:
    • CPU:10 個 vCPU
    • CPU RAM:64 GB
    • GPU:2 個 H100
    • GPU 記憶體:50 GB
    數據磁碟大小 3 Gi
    使用者密碼 輸入預設用戶的密碼。當您第一次登入時,系統可能會提示您重設密碼。
    SSH 公開金鑰 此設定為選擇性。
  5. 安裝軟體自訂設定。
    1. (選擇性) 如果除了為 RAG 軟體服務包定義的 cloud-init 之外,還需要安裝自訂 cloud-init,請選取該核取方塊並貼上組態套件的內容。
      VMware Aria Automation 將合併 RAG 軟體服務包中的 cloud-init 和自訂 cloud-init。
    2. 提供您的 NVIDIA NGC 入口網站存取金鑰。
    3. 輸入 Docker Hub 認證。
  6. 按一下提交

結果

您的 Workstation 包括 Ubuntu 22.04、NVIDIA vGPU 驅動程式、Docker Engine、NVIDIA Container Toolkit 以及使用 Llama-2-13b-chat 模型的參考 RAG 解決方案。

部署 GPU 加速的 Tanzu Kubernetes Grid RAG 叢集

身為使用自助 Automation Service Broker 目錄的 DevOps 工程師,您可以佈建已啟用 GPU 的 Tanzu Kubernetes Grid RAG 叢集,其中 Worker 節點可以執行使用 Llama2-13b-chat 模型的參考 RAG 解決方案。

部署包含一個主管命名空間和一個 Tanzu Kubernetes Grid 叢集。TKG 叢集包含兩個主管命名空間 - 一個用於 NVIDIA GPU Operator,另一個用於 NVIDIA RAG LLM Operator,這兩個命名空間都預先安裝在 TKG 叢集上。每個 Operator 的 Carvel 應用程式都部署在這兩個命名空間中。

程序

  1. Automation Service Broker目錄頁面上,找到 AI Kubernetes RAG 叢集卡,然後按一下請求
  2. 選取專案。
  3. 輸入部署的名稱和說明。
  4. 選取控制窗格節點的數目。
    設定 範例值
    節點計數 1
    虛擬機器類別 best-effort-2xlarge - 8 個 CPU 和 64 GB 記憶體

    選取的類別將定義虛擬機器中的可用資源。

  5. 選取工作節點的數目。
    設定 說明
    節點計數 3
    虛擬機器類別 best-effort-4xlarge-a100-40c - 1 個 vGPU (40 GB)、16 個 CPU 和 120 GB 記憶體
    最低虛擬機器類別規格:
    • CPU:10 個 vCPU
    • CPU RAM:64 GB
    • GPU:2 個 H100
    • GPU 記憶體:50 GB
    時間截分複本 1

    時間截分為工作負載之間共用的 GPU 定義一組複本。

  6. 提供 NVIDIA AI 企業 API 金鑰。
  7. 按一下提交