身為 DevOps 工程師,您可以從自助 Automation Service Broker 目錄請求 GPU 加速的 Tanzu Kubernetes Grid (TKG) 叢集,其中 Worker 節點可以執行 AI/ML 工作負載。

TKG 叢集包含一個 NVIDIA GPU Operator,它是 Kubernetes Operator,負責為 TKG 叢集節點上的 NVIDIA GPU 硬體設定正確的 NVIDIA 驅動程式。部署的叢集可用於 AI/ML 工作負載,而無需進行額外的 GPU 相關設定。

部署中包含一個主管命名空間、一個具有三個 Worker 節點的 TKG 叢集、TKG 叢集內的多個資源以及一個用於部署 GPU Operator 應用程式的 Carvel 應用程式。

程序

  1. Automation Service Broker目錄頁面上,找到 AI Kubernetes 叢集卡,然後按一下請求
  2. 選取專案。
  3. 輸入部署的名稱和說明。
  4. 選取控制窗格節點的數目。
    設定 範例值
    節點計數 1
    虛擬機器類別 best-effort-4xlarge - 16 個 CPU 和 128 GB 記憶體

    選取的類別將定義虛擬機器中的可用資源。

  5. 選取工作節點的數目。
    設定 說明
    節點計數 3
    虛擬機器類別 best-effort-4xlarge-a100-40c - 1 個 vGPU (40 GB)、16 個 CPU 和 120 GB 記憶體
    時間截分複本 1

    時間截分為工作負載之間共用的 GPU 定義一組複本。

  6. 提供 NVIDIA AI 企業 API 金鑰。
  7. 按一下提交