身為資料科學家或 DevOps 工程師,您可以使用 Automation Service Broker 部署 NVIDIA RAG 工作負載。
備註: 本說明文件依據
VMware Aria Automation 8.18。如需
VMware Aria Automation 8.18.1 中
VMware Private AI Foundation 功能的相關資訊,請參閱
VMware Private AI Foundation with
NVIDIA 說明文件中的
〈使用 VMware Aria Automation 中的自助服務目錄項目部署 RAG 工作負載〉。
部署 RAG Workstation
身為資料科學家,您可以從自助 Automation Service Broker 目錄部署具有擷取增強產生 (RAG) 參考解決方案且已啟用 GPU 的 Workstation。
程序
- 在 Automation Service Broker 的目錄頁面上,找到 AI RAG Workstation 卡,然後按一下請求。
- 選取專案。
- 輸入部署的名稱和說明。
- 設定 RAG Workstation 參數。
設定 範例值 虛擬機器類別 A100 Small - 1 個 vGPU (16 GB),8 個 CPU 和 16 GB 記憶體 最低虛擬機器類別規格:- CPU:10 個 vCPU
- CPU RAM:64 GB
- GPU:2 個 H100
- GPU 記憶體:50 GB
數據磁碟大小 3 Gi 使用者密碼 輸入預設用戶的密碼。當您第一次登入時,系統可能會提示您重設密碼。 SSH 公開金鑰 此設定為選擇性。 - 安裝軟體自訂設定。
- (選擇性) 如果除了為 RAG 軟體服務包定義的 cloud-init 之外,還需要安裝自訂 cloud-init,請選取該核取方塊並貼上組態套件的內容。
VMware Aria Automation 將合併 RAG 軟體服務包中的 cloud-init 和自訂 cloud-init。
- 提供您的 NVIDIA NGC 入口網站存取金鑰。
- 輸入 Docker Hub 認證。
- (選擇性) 如果除了為 RAG 軟體服務包定義的 cloud-init 之外,還需要安裝自訂 cloud-init,請選取該核取方塊並貼上組態套件的內容。
- 按一下提交。
結果
部署 GPU 加速的 Tanzu Kubernetes Grid RAG 叢集
身為使用自助 Automation Service Broker 目錄的 DevOps 工程師,您可以佈建已啟用 GPU 的 Tanzu Kubernetes Grid RAG 叢集,其中 Worker 節點可以執行使用 Llama2-13b-chat 模型的參考 RAG 解決方案。
部署包含一個主管命名空間和一個 Tanzu Kubernetes Grid 叢集。TKG 叢集包含兩個主管命名空間 - 一個用於 NVIDIA GPU Operator,另一個用於 NVIDIA RAG LLM Operator,這兩個命名空間都預先安裝在 TKG 叢集上。每個 Operator 的 Carvel 應用程式都部署在這兩個命名空間中。
程序
- 在 Automation Service Broker 的目錄頁面上,找到 AI Kubernetes RAG 叢集卡,然後按一下請求。
- 選取專案。
- 輸入部署的名稱和說明。
- 選取控制窗格節點的數目。
設定 範例值 節點計數 1 虛擬機器類別 best-effort-2xlarge - 8 個 CPU 和 64 GB 記憶體 選取的類別將定義虛擬機器中的可用資源。
- 選取工作節點的數目。
設定 說明 節點計數 3 虛擬機器類別 best-effort-4xlarge-a100-40c - 1 個 vGPU (40 GB)、16 個 CPU 和 120 GB 記憶體 最低虛擬機器類別規格:- CPU:10 個 vCPU
- CPU RAM:64 GB
- GPU:2 個 H100
- GPU 記憶體:50 GB
時間截分複本 1 時間截分為工作負載之間共用的 GPU 定義一組複本。
- 提供 NVIDIA AI 企業 API 金鑰。
- 按一下提交。