身為 DevOps 工程師,您可以從自助 Automation Service Broker 目錄請求 GPU 加速的 Tanzu Kubernetes Grid (TKG) 叢集,其中 Worker 節點可以執行 AI/ML 工作負載。
TKG 叢集包含一個 NVIDIA GPU Operator,它是 Kubernetes Operator,負責為 TKG 叢集節點上的 NVIDIA GPU 硬體設定正確的 NVIDIA 驅動程式。部署的叢集可用於 AI/ML 工作負載,而無需進行額外的 GPU 相關設定。
部署中包含一個主管命名空間、一個具有三個 Worker 節點的 TKG 叢集、TKG 叢集內的多個資源以及一個用於部署 GPU Operator 應用程式的 Carvel 應用程式。
程序
- 在 Automation Service Broker 的目錄頁面上,找到 AI Kubernetes 叢集卡,然後按一下請求。
- 選取專案。
- 輸入部署的名稱和說明。
- 選取控制窗格節點的數目。
設定 範例值 節點計數 1 虛擬機器類別 best-effort-4xlarge - 16 個 CPU 和 128 GB 記憶體 選取的類別將定義虛擬機器中的可用資源。
- 選取工作節點的數目。
設定 說明 節點計數 3 虛擬機器類別 best-effort-4xlarge-a100-40c - 1 個 vGPU (40 GB)、16 個 CPU 和 120 GB 記憶體 時間截分複本 1 時間截分為工作負載之間共用的 GPU 定義一組複本。
- 提供 NVIDIA AI 企業 API 金鑰。
- 按一下提交。