vSphere Distributed Services Engine® 是一项核心 vSphere 功能,使客户能够将 DPU 与 vSphere 和 VMware Cloud Foundation 结合使用。
vSphere 8.0 实现了突破性的工作负载性能,可满足不断提高的吞吐量和延迟需求。借助 vSphere Distributed Services Engine,基础架构服务分布在 ESXi 主机上可用的不同计算资源上,网络功能卸载到 DPU。此类功能非常适合现代应用程序,现代应用程序是使用微服务架构方法开发的,该方法旨在将应用程序分解为多个独立但相互协作的服务。这种增加的复杂性对 CPU 提出了新的要求。例如,处理这些微服务的存储请求或传输网络流量会为实际工作负载留下更少的 CPU 周期。在这种情况下,专用加速器(如 DPU)可以承担新的计算负担,并帮助您提高基础架构的性能和效率。
借助 vSphere Distributed Services Engine,DPU 可以提高网络性能并提高数据吞吐量,同时不会增加管理 DPU 生命周期的运营负担,因为现有 0 天、第 1 天和第 2 天 vSphere 体验没有改变。NVIDIA 和 AMD 的 DPU 以及 Dell、HPE、Lenovo 和 Fujitsu 的服务器设计支持vSphere Distributed Services Engine。vSphere Distributed Services Engine 在预安装了 DPU 的服务器上可用。
从 vSphere 8.0 开始,您可以将核心 CPU 上运行的功能卸载到 DPU,从而显著提高网络和安全性能。如“演进vSphere架构”图中所示,DPU 还可以处理存储卸载和裸机管理等其他功能,但当前不支持这些附加功能。
vSphere Distributed Services Engine通过在 DPU 上引入VMware vSphere Distributed Switch和VMware NSX网络和可观察性来卸载和加速 DPU 上的基础架构功能,从而使您能够主动监控、识别和缓解网络基础架构瓶颈,而无需使用复杂的网络。DPU 成为扩展基础架构功能的新控制点,并支持与工作负载域分离的无代理安全控制。
借助 vSphere Distributed Services Engine,您可以:
- 在 x86 服务器和附加的受支持 DPU 上同时安装和更新 ESXi 映像,以便通过集成的vSphere工作流减少 DPU 生命周期管理的运维开销。有关详细信息,请参见将 vSphere Lifecycle Manager 与 VMware vSphere Distributed Services Engine 结合使用。
- 通过熟悉的 vCenter 界面为 DPU 硬件提醒设置警报并监控有关内核、内存和网络吞吐量的性能指标,而无需使用新工具。有关详细信息,请参见 CPU (DPU) 和内存 (DPU)。
- 加速 DPU 上的 vSphere Distributed Switch 以提高网络性能,并利用可用 CPU 周期实现每个 ESXi 主机的更高工作负载整合。有关详细信息,请参见什么是网络卸载能力和 创建 vSphere Distributed Switch。
- 为在连接了 DPU 的主机上运行的虚拟机获取 vSphere DRS 和 vSphere vMotion 支持,以在不牺牲虚拟机可移植性的情况下获得直通优势。有关详细信息,请参见 DPU 的同类集群。
- 通过零信任安全性提高基础架构的安全性。有关详细信息,请参见 vSphere Distributed Services Engine 安全最佳实践。
vSphere Distributed Services Engine 无需单独的 ESXi 许可证。与其他网络隔离的内部网络将 DPU 与 ESXi 主机连接在一起。ESXi 8.0 服务器内部版本是包含 x86 和 DPU 内容的统一映像。在 vSphere 系统中,可以在安装和升级期间以及在网络、存储和主机配置文件工作流中将 DPU 视为新对象。
具有VMware vSphere Distributed Services Engine的高可用性
在 ESXi 8.0 Update 3 中,您可以选择使用具有 2 个数据处理单元 (DPU) 的 VMware vSphere Distributed Services Engine 安装以实现高可用性。
在具有单个 DPU 的 vSphere 系统中,设备可能会成为卸载到 DPU 的工作负载(例如网络功能)的单一故障点,并影响数据和工作效率。在 ESXi 8.0 Update 3 中,还可以在预安装了 2 个 DPU 的服务器上使用 vSphere Distributed Services Engine,可提供硬件冗余和弹性。
您可以在活动/备用模式下利用两个 DPU 来提供高可用性。此类配置可在其中一个 DPU 发生故障时提供冗余。在高可用性配置中,两个 DPU 分配给同一个支持NSX的vSphere Distributed Switch。例如,DPU-1 连接到vSphere Distributed Switch的 vmnic0 和 vmnic1,DPU-2 连接到同一vSphere Distributed Switch的 vmnic2 和 vmnic3。
您还可以将两个 DPU 用作独立设备,以增加每个ESXi主机的卸载容量。每个 DPU 都连接到单独的vSphere Distributed Switch并且此类配置中的 DPU 之间没有故障切换。
双 DPU 系统可以使用 NVIDIA 或 Pensando 设备。在 ESXi 8.0 Update 3 中,Lenovo 服务器设计支持双 DPU 系统。双 DPU 服务器上的 DPU 设备在各方面都必须相同:相同的供应商、相同的硬件版本和相同的固件。有关 VMware vSphere Distributed Services Engine 的当前供应商和服务器设计列表,请参见 VMware 兼容性指南。
安装具有 2 个 DPU 的 VMware vSphere Distributed Services Engine
vSphere Distributed Services Engine 无需单独的 ESXi 许可证。ESXi 8.0 Update 3 服务器内部版本是统一映像,其中包含 x86 和 DPU 内容,您无法单独安装 x86 和 DPU 内容。两个 DPU 上的安装过程(交互式或脚本式)也会并行执行,并且与单 DPU 系统相比,性能损失最小。
有关安装的详细信息,请参见以交互方式安装 ESXi和用于 ESXi 安装的安装和升级脚本。
VMware vSphere Distributed Services Engine 的错误处理、故障切换和回滚
在安装 VMware vSphere Distributed Services Engine 之前,请参见错误处理、故障切换和回滚选项。
错误处理
如果在 ESXi 主机上安装 x86 和 DPU 内容失败,会将整个安装过程标记为失败。
虽然预期 DPU 的软件状态始终保持不变,但在生命周期操作(例如安装或升级组件)期间发生错误(这种情况不太可能发生)时,该操作所涉及的一个 DPU 可能会通过,而另一个 DPU 失败。由于每个生命周期操作都发生在每个 DPU 的边界内,因此错误不会影响其他 DPU 的状态,但安装的总体结果仍标记为失败。
在进行交互式安装、运行 vSphere Lifecycle Manager 工作流以及使用 ESXCLI 时,您会收到有关相关操作失败的 DPU 的信息。
成功安装后,如果发生 DPU 错误,建议的操作是重新启动受影响的 ESXi 主机。如果仍可从主机访问该 DPU,则收集常规日志包便足以进行故障排除。如果无法从主机访问该 DPU,则从 BMC、iLO 或 iDRAC 接口登录到 DPU 可以提供故障排除日志。
故障切换
vSphere 8.0 Update 3 仅支持在下列情况下进行故障切换,某个 DPU 由于自身内的软件错误而无法正常工作,或某个 DPU 在物理上断开连接(例如电缆断开连接)。不支持由于外围组件互连 (PCI) 级别错误而进行故障切换。
回滚
回滚是一种最大努力机制,用于在 ESXi 引导的快速启动阶段之前出现故障时将系统还原到以前的工作状态。如果引导期间发生错误,将自动在 x86 服务器和连接的受支持 DPU 上回滚。您也可以选择手动回滚,方法是在引导加载程序启动之前按 Shift+R 以恢复到以前的正常状态。
快速启动阶段开始后出现的任何故障都不会触发回滚。
方案 | 所需的重新引导次数 |
---|---|
两个 DPU 均正确引导。ESXi 无法正确引导。 | 2 |
两个 DPU 均无法正确引导。ESXi 正确引导。 | 1 |
其中一个 DPU 使用低于另一个 DPU 和 ESXi 的版本引导 | 2 |
其中一个 DPU 使用低于另一个 DPU 的版本引导,且 ESXi 无法正确引导。 | 2 |