可以在 Tanzu Kubernetes Grid 佈建的叢集上部署人工智慧和機器學習工作負載。部署人工智慧和機器學習工作負載需要服務提供者執行一些初始設定,並且組織管理員和承租人使用者需要在叢集建立工作流程中執行一些設定。
若要準備 VMware Cloud Director 環境以佈建可處理人工智慧和機器學習工作負載的叢集,服務提供者必須建立 vGPU 原則並將 vGPU 原則新增至組織 VDC。如需如何執行這些工作的相關指示,請參閱〈建立和管理 vGPU 原則〉。服務提供者執行這些步驟後,承租人使用者可以將人工智慧和機器學習工作負載部署到其 Tanzu Kubernetes Grid 叢集。
若要建立具有 vGPU 功能的 Tanzu Kubernetes Grid 叢集,請參閱建立 Tanzu Kubernetes Grid 叢集。如果使用的是可與 VMware Cloud Director Container Service Extension 互通的 Tanzu Kubernetes Grid 2.1 及更高版本,則以下部分不適用,您可以繼續執行叢集建立工作流程。
BIOS 韌體限制
VMware Cloud Director Container Service Extension Tanzu Kubernetes Grid 範本使用 BIOS 韌體建置,且無法變更此韌體組態。此韌體上的 BAR1 記憶體不能超過 256 MB。BAR1 記憶體超過 256 MB 的 NVIDIA Grid 顯卡需要 EFI 韌體。如需有關韌體限制的詳細資訊,請參閱 VMware vSphere:NVIDIA 虛擬 GPU 軟體說明文件。
使用 EFI 韌體建立自訂映像
若要克服 Tanzu Kubernetes Grid 範本上存在的 BIOS 韌體限制,可以在 vSphere 中使用 EFI 韌體建立自訂映像。如需相關指示,請參閱已封存的 Tanzu Kubernetes Grid 1.6 說明文件中的〈Linux 自訂機器映像〉部分。若要存取已封存的說明文件,請參閱 VMware Tanzu Kubernetes Grid 說明文件 > 不支援的版本。
輸入 | 描述 | ||||||
---|---|---|---|---|---|---|---|
customizations.json | 若要在 vSphere 中為已啟用 vGPU 的叢集建置映像,請建立名為 customizations.json 的檔案,並新增以下內容:{ "vmx_version": "17" } |
||||||
metadata.json | VERSION 必須與已建立的 Tanzu Kubernetes Grid 範本版本完全相符,因為如果版本號碼不同於範本的版本號碼,Kubernetes Container Clusters UI 外掛程式無法識別 OVA 檔案。
以下範例概述了建議的檔案命名慣例:
|
||||||
build-node-ova-vsphere-ubuntu-2004-efi |
使用以下命令可以針對已啟用 vGPU 的叢集執行 Image Builder。此命令指定使用 EFI 韌體建置自訂映像。 |