可以在 Tanzu Kubernetes Grid 佈建的叢集上部署人工智慧和機器學習工作負載。部署人工智慧和機器學習工作負載需要服務提供者執行一些初始設定,並且組織管理員和承租人使用者需要在叢集建立工作流程中執行一些設定。

若要準備 VMware Cloud Director 環境以佈建可處理人工智慧和機器學習工作負載的叢集,服務提供者必須建立 vGPU 原則並將 vGPU 原則新增至組織 VDC。如需如何執行這些工作的相關指示,請參閱〈建立和管理 vGPU 原則〉。服務提供者執行這些步驟後,承租人使用者可以將人工智慧和機器學習工作負載部署到其 Tanzu Kubernetes Grid 叢集。

若要建立具有 vGPU 功能的 Tanzu Kubernetes Grid 叢集,請參閱建立 Tanzu Kubernetes Grid 叢集。如果使用的是可與 VMware Cloud Director Container Service Extension 互通的 Tanzu Kubernetes Grid 2.1 及更高版本,則以下部分不適用,您可以繼續執行叢集建立工作流程。

備註: 以下部分僅適用於 Tanzu Kubernetes Grid 1.6.1,VMware 不再支援該版本。若要利用 vGPU 功能,請使用可與 VMware Cloud Director Container Service Extension 互通的 Tanzu Kubernetes Grid 版本 2.1 及更高版本。

BIOS 韌體限制

VMware Cloud Director Container Service Extension Tanzu Kubernetes Grid 範本使用 BIOS 韌體建置,且無法變更此韌體組態。此韌體上的 BAR1 記憶體不能超過 256 MB。BAR1 記憶體超過 256 MB 的 NVIDIA Grid 顯卡需要 EFI 韌體。如需有關韌體限制的詳細資訊,請參閱 VMware vSphere:NVIDIA 虛擬 GPU 軟體說明文件

使用 EFI 韌體建立自訂映像

若要克服 Tanzu Kubernetes Grid 範本上存在的 BIOS 韌體限制,可以在 vSphere 中使用 EFI 韌體建立自訂映像。如需相關指示,請參閱已封存的 Tanzu Kubernetes Grid 1.6 說明文件中的〈Linux 自訂機器映像〉部分。若要存取已封存的說明文件,請參閱 VMware Tanzu Kubernetes Grid 說明文件 > 不支援的版本

若要在 GPU 範本上成功建立 Linux 自訂機器映像 ( Tanzu Kubernetes Grid 1.6),還必須在建置自訂映像時包含以下輸入:
輸入 描述
customizations.json 若要在 vSphere 中為已啟用 vGPU 的叢集建置映像,請建立名為 customizations.json 的檔案,並新增以下內容:
{
"vmx_version": "17"
}
metadata.json VERSION 必須與已建立的 Tanzu Kubernetes Grid 範本版本完全相符,因為如果版本號碼不同於範本的版本號碼,Kubernetes Container Clusters UI 外掛程式無法識別 OVA 檔案。
以下範例概述了建議的檔案命名慣例:
範本和版本 中繼資料
適用於 TKG 1.6 的 Kubernetes 範本 ubuntu-2004-kube-v1.23.10+vmware.1-tkg.2-b53d41690f8742e7388f2c553fd9a181.ova
版本 v1.23.10+vmware.1-tkg.2-b53d41690f8742e7388f2c553fd9a181
build-node-ova-vsphere-ubuntu-2004-efi 使用以下命令可以針對已啟用 vGPU 的叢集執行 Image Builder。此命令指定使用 EFI 韌體建置自訂映像。
服務提供者必須在 VMware Cloud Director 中為 vGPU 範本設定新目錄,並將範本上傳到此目錄。當使用者要建立已啟用 vGPU 的叢集時,他們可以在叢集建立過程中選取此範本,然後該範本將利用該叢集中的 vGPU。如需詳細資訊,請參閱 〈建立目錄並上傳 OVA 檔案〉