vSphere Distributed Services Engine® 是一項核心 vSphere 功能,使客戶能夠將 DPU 與 vSphere 和 VMware Cloud Foundation 搭配使用。

vSphere 8.0 實現了突破性的工作負載效能,可滿足不斷提高的輸送量和延遲需求。憑藉 vSphere Distributed Services Engine,基礎結構服務分佈在 ESXi 主機上可用的不同計算資源上,網路功能卸載到 DPU。此類功能非常適合現代應用程式,現代應用程式是使用微服務架構方法開發的,該方法旨在將應用程式細分為多個獨立但相互協作的服務。這種增加的複雜性對 CPU 提出了新的需求。例如,針對這些微服務處理儲存請求或傳輸網路流量會減少實際工作負載的 CPU 週期。在這種情況下,專用加速器 (如 DPU) 可以承擔新的計算負擔,並協助您提高基礎結構的效能和效率。

憑藉 vSphere Distributed Services Engine,DPU 可以提高網路效能並增加資料輸送量,同時不會增加管理 DPU 生命週期的營運負擔,因為現有 0 天、第 1 天和第 2 天 vSphere 體驗沒有變化。NVIDIA 和 AMD 的 DPU 以及 Dell、HPE、Lenovo 和 Fujitsu 的伺服器設計支援 vSphere Distributed Services Engine。vSphere Distributed Services Engine 在預先安裝了 DPU 的伺服器上可用。

從 vSphere 8.0 開始,您可以將核心 CPU 上執行的功能卸載到 DPU,從而顯著提高網路和安全性效能。如「演化式 vSphere 架構」圖中所示,DPU 還可以處理儲存卸載和裸機管理等其他功能,但目前不支援這些附加功能。

圖 1. vSphere 架構不斷演化。
VMware 將在核心 CPU 複合體上執行的功能移至 DPU CPU 複合體以實現網路加速。

vSphere Distributed Services Engine 透過引入 DPU 上的 VMware vSphere Distributed Switch 和 VMware NSX Networking and Observability 來卸載和加速 DPU 上的基礎結構功能,從而無需使用複雜的網路分接頭即可主動監控、識別和緩解網路基礎結構瓶頸。DPU 成為擴展基礎結構功能的新控制點,並支援與工作負載網域分離的無代理程式安全控制。

憑藉 vSphere Distributed Services Engine,您可以:

vSphere Distributed Services Engine 無需單獨的 ESXi 授權。與其他網路隔離的內部網路將 DPU 與 ESXi 主機連線在一起。ESXi 8.0 伺服器組建版本是包含 x86 和 DPU 內容的統一映像。在 vSphere 系統中,可以在安裝和升級期間以及在網路、儲存區和主機設定檔工作流程中將 DPU 視為新物件。

具有 VMware vSphere Distributed Services Engine 的高可用性

在 ESXi 8.0 Update 3 中,您可以選擇使用具有 2 個資料處理裝置 (DPU) 的 VMware vSphere Distributed Services Engine 安裝以實現高可用性。

在具有單一 DPU 的 vSphere 系統中,裝置可能會成為卸載到 DPU 的工作負載 (例如網路功能) 的單一故障點,並影響資料和工作效率。在 ESXi 8.0 Update 3 中,還可以在預先安裝了 2 個 DPU 的伺服器上使用 vSphere Distributed Services Engine,可提供硬體備援和彈性。

您可以在作用中/待命模式下利用兩個 DPU 來提供高可用性。此類組態可在其中一個 DPU 發生故障時提供備援。在高可用性組態中,兩個 DPU 指派給同一個支援 NSX 的 vSphere Distributed Switch。例如,DPU-1 連結至 vSphere Distributed Switch 的 vmnic0 和 vmnic1,DPU-2 連結至同一 vSphere Distributed Switch 的 vmnic2 和 vmnic3。

您還可以將兩個 DPU 用作獨立裝置,以增加每個 ESXi 主機的卸載容量。每個 DPU 都連結至單獨的 vSphere Distributed Switch 並且此類組態中的 DPU 之間沒有容錯移轉。

雙 DPU 系統可以使用 NVIDIA 或 Pensando 裝置。在 ESXi 8.0 Update 3 中,Lenovo 伺服器設計支援雙 DPU 系統。雙 DPU 伺服器上的 DPU 裝置在各方面都必須相同:相同的廠商、相同的硬體版本和相同的韌體。如需 VMware vSphere Distributed Services Engine 的目前廠商和伺服器設計清單,請參閱《VMware 相容性指南》

安裝具有 2 個 DPU 的 VMware vSphere Distributed Services Engine

vSphere Distributed Services Engine 無需單獨的 ESXi 授權。ESXi 8.0 Update 3 伺服器組建版本是包含 x86 和 DPU 內容的統一映像,您無法單獨安裝 x86 和 DPU 內容。兩個 DPU 上的安裝程序 (互動式或指令碼式) 也會並行執行,並且與單 DPU 系統相比,效能損失最小。

在 vSphere 8.0 Update 3 中,您可以從 Dell 或 Lenovo 取得預先安裝的具有 2 個 DPU 的伺服器組態,也可以從 Dell 或 Lenovo 向支援的雙 DPU 伺服器上的單一 DPU 系統新增第二個 DPU。
備註: 在任何情況下,您都需要在系統上執行全新的 ESXi 8.0 Update 3 安裝,而不僅僅是在新增的 DPU 上執行。

如需有關安裝的詳細資訊,請參閱以互動方式安裝 ESXi用於 ESXi 安裝的安裝和升級指令碼

處理、故障轉移和復原VMware vSphere Distributed Services Engine時發生錯誤

安裝VMware vSphere Distributed Services Engine之前,請參閱錯誤處理、故障轉移和復原選項。

錯誤處理

如果在 ESXi 主機上安裝 x86 和 DPU 內容失敗,會將整個安裝程序標記為失敗。

雖然預期 DPU 的軟體狀態始終保持相同,但在生命週期作業 (例如安裝或升級元件) 期間發生錯誤的可能性不大的情況下,作業可能會在一個 DPU 上傳遞,但在另一個 DPU 上失敗。由於每個生命週期作業發生在每個 DPU 的界限內,因此錯誤不會影響其他 DPU 的狀態,但安裝的整體結果仍標記為失敗。

在互動式安裝期間,在 vSphere Lifecycle Manager 工作流程中,以及當您使用 ESXCLI 時,會收到作業失敗之 DPU 的相關信息。

成功安裝后,如果發生 DPU 錯誤,建議的動作是重新啟動受影響的ESXi主機。如果仍可從主機存取 DPU,則一般記錄服務包收集足以進行疑難解答。如果無法從主機存取 DPU,則從 BMC、iLO 或 iDRAC 介面登入 DPU 可以提供疑難解答記錄。

容錯移轉

vSphere 8.0 Update 3 中的故障轉移支援僅限於其中一個 DPU 因 DPU 中的軟體錯誤或其中一個 DPU 實體中斷連線 (例如纜線中斷連線) 而變得無法運作的 DPU。由於周邊元件互連 (PCI) 層級錯誤而導致故障轉移不受支援。

回復

復原是在ESXi開機之前發生故障時,將系統還原到先前工作狀態的最佳機制。如果開機期間發生錯誤,則會自動在 x86 伺服器和鏈接的支援 DPU 上復原。您也可以選擇手動復原,方法是在開機載入器啟動之前按 Shift+R 以恢復到先前的正常狀態。

Jumpstart 階段啟動后的任何失敗不會導致復原。

表 1. VMware vSphere Distributed Services Engine 安裝的復原案例
方案 需要重新啟動的次數
兩個 DPU 均正確開機。ESXi無法正確開機。 2
兩個 DPU 均未正確開機。ESXi正確開機。 1
其中一個 DPU 開機的版本低於另一個 DPU,ESXi。 2
其中一個 DPU 開機的版本低於另一個 DPU,且ESXi未正確開機。 2