vSphere Distributed Services Engine® 是一項核心 vSphere 功能,使客戶能夠將 DPU 與 vSphere 和 VMware Cloud Foundation 搭配使用。
vSphere 8.0 實現了突破性的工作負載效能,可滿足不斷提高的輸送量和延遲需求。憑藉 vSphere Distributed Services Engine,基礎結構服務分佈在 ESXi 主機上可用的不同計算資源上,網路功能卸載到 DPU。此類功能非常適合現代應用程式,現代應用程式是使用微服務架構方法開發的,該方法旨在將應用程式細分為多個獨立但相互協作的服務。這種增加的複雜性對 CPU 提出了新的需求。例如,針對這些微服務處理儲存請求或傳輸網路流量會減少實際工作負載的 CPU 週期。在這種情況下,專用加速器 (如 DPU) 可以承擔新的計算負擔,並協助您提高基礎結構的效能和效率。
憑藉 vSphere Distributed Services Engine,DPU 可以提高網路效能並增加資料輸送量,同時不會增加管理 DPU 生命週期的營運負擔,因為現有 0 天、第 1 天和第 2 天 vSphere 體驗沒有變化。NVIDIA 和 AMD 的 DPU 以及 Dell、HPE、Lenovo 和 Fujitsu 的伺服器設計支援 vSphere Distributed Services Engine。vSphere Distributed Services Engine 在預先安裝了 DPU 的伺服器上可用。
從 vSphere 8.0 開始,您可以將核心 CPU 上執行的功能卸載到 DPU,從而顯著提高網路和安全性效能。如「演化式 vSphere 架構」圖中所示,DPU 還可以處理儲存卸載和裸機管理等其他功能,但目前不支援這些附加功能。
vSphere Distributed Services Engine 透過引入 DPU 上的 VMware vSphere Distributed Switch 和 VMware NSX Networking and Observability 來卸載和加速 DPU 上的基礎結構功能,從而無需使用複雜的網路分接頭即可主動監控、識別和緩解網路基礎結構瓶頸。DPU 成為擴展基礎結構功能的新控制點,並支援與工作負載網域分離的無代理程式安全控制。
憑藉 vSphere Distributed Services Engine,您可以:
- 在 x86 伺服器和連結的支援 DPU 上同時安裝和更新ESXi映射,以透過整合的vSphere工作流程減少 DPU 生命週期管理的運作額外負荷。如需詳細資訊,請參閱將 vSphere Lifecycle Manager 與 VMware vSphere Distributed Services Engine 結合使用。
- 透過熟悉的 vCenter 介面為 DPU 硬體提醒設定警示並監控有關核心、記憶體和網路輸送量的效能度量,而無需使用新工具。如需詳細資訊,請參閱 CPU (DPU) 和記憶體 (DPU)。
- 加速 DPU 上的 vSphere Distributed Switch 以提高網路效能,並利用可用的 CPU 週期實現每個 ESXi 主機的更高工作負載整合。如需詳細資訊,請參閱什麼是網路卸載功能和建立 vSphere Distributed Switch。
- 為在連結了 DPU 的主機上執行的虛擬機器取得 vSphere DRS 和 vSphere vMotion 支援,以在不犧牲虛擬機器可攜性的情況下獲得傳遞優勢。如需詳細資訊,請參閱 DPU 的同質叢集。
- 透過零信任安全性提高基礎結構的安全性。如需詳細資訊,請參閱 vSphere Distributed Services Engine 安全性最佳做法。
vSphere Distributed Services Engine 無需單獨的 ESXi 授權。與其他網路隔離的內部網路將 DPU 與 ESXi 主機連線在一起。ESXi 8.0 伺服器組建版本是包含 x86 和 DPU 內容的統一映像。在 vSphere 系統中,可以在安裝和升級期間以及在網路、儲存區和主機設定檔工作流程中將 DPU 視為新物件。
具有 VMware vSphere Distributed Services Engine 的高可用性
在 ESXi 8.0 Update 3 中,您可以選擇使用具有 2 個資料處理裝置 (DPU) 的 VMware vSphere Distributed Services Engine 安裝以實現高可用性。
在具有單一 DPU 的 vSphere 系統中,裝置可能會成為卸載到 DPU 的工作負載 (例如網路功能) 的單一故障點,並影響資料和工作效率。在 ESXi 8.0 Update 3 中,還可以在預先安裝了 2 個 DPU 的伺服器上使用 vSphere Distributed Services Engine,可提供硬體備援和彈性。
您可以在作用中/待命模式下利用兩個 DPU 來提供高可用性。此類組態可在其中一個 DPU 發生故障時提供備援。在高可用性組態中,兩個 DPU 指派給同一個支援 NSX 的 vSphere Distributed Switch。例如,DPU-1 連結至 vSphere Distributed Switch 的 vmnic0 和 vmnic1,DPU-2 連結至同一 vSphere Distributed Switch 的 vmnic2 和 vmnic3。
您還可以將兩個 DPU 用作獨立裝置,以增加每個 ESXi 主機的卸載容量。每個 DPU 都連結至單獨的 vSphere Distributed Switch 並且此類組態中的 DPU 之間沒有容錯移轉。
雙 DPU 系統可以使用 NVIDIA 或 Pensando 裝置。在 ESXi 8.0 Update 3 中,Lenovo 伺服器設計支援雙 DPU 系統。雙 DPU 伺服器上的 DPU 裝置在各方面都必須相同:相同的廠商、相同的硬體版本和相同的韌體。如需 VMware vSphere Distributed Services Engine 的目前廠商和伺服器設計清單,請參閱《VMware 相容性指南》。
安裝具有 2 個 DPU 的 VMware vSphere Distributed Services Engine
vSphere Distributed Services Engine 無需單獨的 ESXi 授權。ESXi 8.0 Update 3 伺服器組建版本是包含 x86 和 DPU 內容的統一映像,您無法單獨安裝 x86 和 DPU 內容。兩個 DPU 上的安裝程序 (互動式或指令碼式) 也會並行執行,並且與單 DPU 系統相比,效能損失最小。
如需有關安裝的詳細資訊,請參閱以互動方式安裝 ESXi和用於 ESXi 安裝的安裝和升級指令碼。
處理、故障轉移和復原VMware vSphere Distributed Services Engine時發生錯誤
安裝VMware vSphere Distributed Services Engine之前,請參閱錯誤處理、故障轉移和復原選項。
錯誤處理
如果在 ESXi 主機上安裝 x86 和 DPU 內容失敗,會將整個安裝程序標記為失敗。
雖然預期 DPU 的軟體狀態始終保持相同,但在生命週期作業 (例如安裝或升級元件) 期間發生錯誤的可能性不大的情況下,作業可能會在一個 DPU 上傳遞,但在另一個 DPU 上失敗。由於每個生命週期作業發生在每個 DPU 的界限內,因此錯誤不會影響其他 DPU 的狀態,但安裝的整體結果仍標記為失敗。
在互動式安裝期間,在 vSphere Lifecycle Manager 工作流程中,以及當您使用 ESXCLI 時,會收到作業失敗之 DPU 的相關信息。
成功安裝后,如果發生 DPU 錯誤,建議的動作是重新啟動受影響的ESXi主機。如果仍可從主機存取 DPU,則一般記錄服務包收集足以進行疑難解答。如果無法從主機存取 DPU,則從 BMC、iLO 或 iDRAC 介面登入 DPU 可以提供疑難解答記錄。
容錯移轉
vSphere 8.0 Update 3 中的故障轉移支援僅限於其中一個 DPU 因 DPU 中的軟體錯誤或其中一個 DPU 實體中斷連線 (例如纜線中斷連線) 而變得無法運作的 DPU。由於周邊元件互連 (PCI) 層級錯誤而導致故障轉移不受支援。
回復
復原是在ESXi開機之前發生故障時,將系統還原到先前工作狀態的最佳機制。如果開機期間發生錯誤,則會自動在 x86 伺服器和鏈接的支援 DPU 上復原。您也可以選擇手動復原,方法是在開機載入器啟動之前按 Shift+R 以恢復到先前的正常狀態。
Jumpstart 階段啟動后的任何失敗不會導致復原。
方案 | 需要重新啟動的次數 |
---|---|
兩個 DPU 均正確開機。ESXi無法正確開機。 | 2 |
兩個 DPU 均未正確開機。ESXi正確開機。 | 1 |
其中一個 DPU 開機的版本低於另一個 DPU,ESXi。 | 2 |
其中一個 DPU 開機的版本低於另一個 DPU,且ESXi未正確開機。 | 2 |