可以使用 vMotion 实时迁移由 NVIDIA vGPU 提供技术支持的虚拟机,且不会导致数据丢失。

要为 vGPU 虚拟机启用 vMotion,需要将 vgpu.hotmigrate.enabled 高级设置设定为 true。有关如何配置 vCenter Server 高级设置的详细信息,请参见《vCenter Server 配置》文档中的配置高级设置

在 vSphere 6.7 Update 1 和 vSphere 6.7 Update 2 中,通过 vMotion 迁移 vGPU 虚拟机且 vMotion 关闭时间超过 100 秒时,对于具有 24 GB 帧缓冲区或更大大小的 vGPU 配置文件,迁移过程可能会失败。要避免 vMotion 超时,请升级到 vSphere 6.7 Update 3 或更高版本。

在关闭时间内,无法访问虚拟机、桌面或应用程序。迁移完成后,将恢复对虚拟机的访问,并且所有应用程序将从以前的状态继续运行。有关 vGPU 配置文件中帧缓冲区大小的信息,请参阅 NVIDIA 虚拟 GPU 文档

下表列出了预期的虚拟机关闭时间(即在 vMotion 期间用户无法访问虚拟机的时间)以及预计最坏情况关闭时间。使用 NVIDIA Tesla V100 PCIe 32 GB GPU 通过10 Gb 网络对这些预期的关闭时间进行了测试:

表 1. vGPU 虚拟机的 vMotion 所需的关闭时间
已使用的 vGPU 帧缓冲区 (GB) 虚拟机关闭时间(秒)
1 2
2 4
4 6
8 12
16 22
32 39
表 2. 预计的最坏情况关闭时间(秒)
vGPU 内存 虚拟机内存 4 GB 虚拟机内存 8 GB 虚拟机内存 16 GB 虚拟机内存 32 GB
1 GB 5 6 8 12
2 GB 7 9 11 15
4 GB 13 14 16 21
8 GB 24 25 28 32
16 GB 47 48 50 54
32 GB 91 92 95 99
注: 考虑预期和预计的最坏情况关闭时间时,请记住以下几点:
  • 配置的 vGPU 配置文件表示已使用的 vGPU 帧缓冲区的上限。在许多用例中,虚拟机在任意给定时间使用的 vGPU 帧缓冲区内存量均低于配置文件中分配的 vGPU 内存。
  • 预期和预计的最坏情况关闭时间仅在迁移单个虚拟机时均有效。如果同时迁移多个虚拟机,即对于 vSphere 手动修复过程,关闭时间将产生不利影响。
  • 上述预计值假设 CPU、内存、PCIe 和网络容量足以实现 10 Gbps 迁移吞吐量。

DRS 支持在没有负载均衡支持的情况下对运行 vSphere 6.7 Update 1 和更高版本的 vGPU 虚拟机进行初始放置。

VMware vSphere vMotion 仅在兼容的 NVIDIA GPU 设备型号和 NVIDIA GRID 主机驱动程序版本(由 NVIDIA 定义和支持)上和它们之间受支持。有关兼容性信息,请参阅《NVIDIA 虚拟 GPU 用户指南》

要检查 NVIDIA vGPU 主机驱动程序、vSphere 和 Horizon 之间的兼容性,请参阅 VMware 兼容性列表