- vCenter 升级/迁移预检查失败,并显示“意外错误 87 (Unexpected error 87)”
当 Security Token Service (STS) 证书不包含主体备用名称 (SAN) 字段时,vCenter Server 升级/迁移预检查将失败。如果已将 vCenter 5.5 Single Sign-on 证书替换为没有 SAN 字段的自定义证书,并且尝试升级到 vCenter Server 7.0,则会出现这种情况。此升级会将 STS 证书视为无效,并且预检查将阻止升级过程继续进行。
解决办法:将 STS 证书替换为包含 SAN 字段的有效证书,然后再执行 vCenter Server 7.0 升级/迁移。
- 使用预先存在的 CIM 提供程序升级到 vSphere 7.0 时出现问题
升级后,之前安装的 32 位 CIM 提供程序停止工作,因为 ESXi 需要 64 位 CIM 提供程序。客户可能会丢失与 CIMPDK、NDDK(本机 DDK)、HEXDK、VAIODK(IO 筛选器)相关的管理 API 功能,并看到与 uwglibc 依赖关系相关的错误。
Syslog 报告模块缺失,“未加载 32 位共享库 (32 bit shared libraries not loaded)。”
解决办法:没有解决办法。修复方法是从供应商下载新的 64 位 CIM 提供程序。
- 在 ESXi 7.0 主机上安装 7.0 Update 1 驱动程序可能会失败
无法在运行 ESXi 7.0 或 7.0b 的主机上安装适用于 ESXi 7.0 Update 1 的驱动程序。
操作失败并显示错误,例如:
VMW_bootbank_qedrntv_3.40.4.0-12vmw.701.0.0.xxxxxxx 需要 vmkapi_2_7_0_0,但 ImageProfile 无法满足要求。
请参考日志文件以了解更多详细信息 (VMW_bootbank_qedrntv_3.40.4.0-12vmw.701.0.0.xxxxxxx requires vmkapi_2_7_0_0, but the requirement cannot be satisfied within the ImageProfile. Please refer to the log file for more details)。
解决办法:请将 ESXi 主机更新到 7.0 Update 1。重试驱动程序安装。
- 从早期版本的 ESXi 7.0 更新到 ESXi 7.0 Update 2 期间,ESXi 主机的 UEFI 引导可能会停止并出现错误
如果尝试使用 vSphere Lifecycle Manager 修补程序基准将环境从早期版本的 ESXi 7.0 更新到 7.0 Update 2,则 ESXi 主机的 UEFI 引导可能会停止,并出现如下错误:
正在加载 /boot.cfg (Loading /boot.cfg)
无法加载 crypto64.efi (Failed to load crypto64.efi)
Fatal error: 15 (未找到) (file not found. Fatal error : 15 (Not found))
解决办法:有关详细信息,请参见 VMware 知识库文章 83063 和 83107。
- 如果旧版 VIB 正在 ESXi 主机上使用,则 vSphere Lifecycle Manager 无法提取所需的软件规范以植入到新集群
在 vCenter Server 7.0 Update 2 中,可以通过从单个引用主机导入所需的软件规范来创建新集群。 但是,如果旧版 VIB 正在 ESXi 主机上使用,则 vSphere Lifecycle Manager 无法在创建集群的 vCenter Server 实例中从此类主机提取引用软件规范。/var/log/lifecycle.log
中会显示类似以下内容的消息:
020-11-11T06:54:03Z lifecycle: 1000082644: HostSeeding:499 ERROR Extract depot failed: Checksum doesn't match.Calculated 5b404e28e83b1387841bb417da93c8c796ef2497c8af0f79583fd54e789d8826, expected: 0947542e30b794c721e21fb595f1851b247711d0619c55489a6a8cae6675e796 2020-11-11T06:54:04Z lifecycle: 1000082644: imagemanagerctl:366 ERROR Extract depot failed.2020-11-11T06:54:04Z lifecycle: 1000082644: imagemanagerctl:145 ERROR [VibChecksumError]
解决办法:按照 VMware 知识库文章 83042 中的步骤进行操作。
- 每次 ESXi 引导后,syslog.log 中都会显示一连串日志消息
更新到 ESXi 7.0 Update 2 后,每次 ESXi 引导后都可能会看到一连串日志消息。
此类日志并不表示 ESXi 有任何问题,可以忽略这些消息。例如:
2021-01-19T22:44:22Z watchdog-vaai-nasd: '/usr/lib/vmware/nfs/bin/vaai-nasd -f' exited after 0 seconds (quick failure 127) 1
2021-01-19T22:44:22Z watchdog-vaai-nasd: Executing '/usr/lib/vmware/nfs/bin/vaai-nasd -f'
2021-01-19T22:44:22.990Z aainasd[1000051135]: Log for VAAI-NAS Daemon for NFS version=1.0 build=build-00000 option=DEBUG
2021-01-19T22:44:22.990Z vaainasd[1000051135]: DictionaryLoadFile: No entries loaded by dictionary.
2021-01-19T22:44:22.990Z vaainasd[1000051135]: DictionaryLoad: Cannot open file "/usr/lib/vmware/config": No such file or directory.
2021-01-19T22:44:22.990Z vaainasd[1000051135]: DictionaryLoad: Cannot open file "//.vmware/config": No such file or directory.
2021-01-19T22:44:22.990Z vaainasd[1000051135]: DictionaryLoad: Cannot open file "//.vmware/preferences": No such file or directory.
2021-01-19T22:44:22.990Z vaainasd[1000051135]: Switching to VMware syslog extensions
2021-01-19T22:44:22.992Z vaainasd[1000051135]: Loading VAAI-NAS plugin(s).
2021-01-19T22:44:22.992Z vaainasd[1000051135]: DISKLIB-PLUGIN : Not loading plugin /usr/lib/vmware/nas_plugins/lib64: Not a shared library.
解决办法:无
- vSphere Quick Boot 兼容性检查报告中显示有关缺少 VIB 的警告消息
升级到 ESXi 7.0 Update 2 后,如果使用 /usr/lib/vmware/loadesx/bin/loadESXCheckCompat.py
命令检查环境的 vSphere Quick Boot 兼容性,可能会在 shell 中看到有关缺少 VIB 的一些警告消息。例如:
在给定的 VIB 集合中找不到 VIB... (Cannot find VIB(s) ... in the given VIB collection)。
正在忽略缺少的预留 VIB...,它们已从预留的 VIB ID 中移除 (Ignoring missing reserved VIB(s) ..., they are removed from reserved VIB IDs)。
此类警告并不表示存在兼容性问题。
解决办法:可以放心地忽略这些缺少 VIB 消息,不会影响 vSphere Quick Boot 兼容性报告。loadESXCheckCompat
命令的最终输出行会明确指示主机是否兼容。
- 自动引导使用 vSphere Lifecycle Manager 映像管理的集群失败并出现错误
如果尝试自动引导使用 vSphere Lifecycle Manager 映像管理的集群以执行有状态安装并覆盖 VMFS 分区,该操作将失败并出现错误。支持包中会显示类似以下内容的消息:
2021-02-11T19:37:43Z Host Profiles[265671 opID=MainThread]: 错误: EngineModule::ApplyHostConfig。异常: [Errno 30] Read-only file system
解决办法:按照供应商指导清理目标主机中的 VMFS 分区,然后重试该操作。或者,使用空磁盘。有关 ESXi 上磁盘分区实用程序的详细信息,请参见 VMware 知识库文章 1036609。
- 使用 ESXCLI 从 ESXi 6.5.x 和 6.7.0 升级到 7.x 时可能会由于空间限制而失败
通过使用 esxcli software profile update
或 esxcli software profile install
ESXCLI 命令从 ESXi 6.5.x 和 6.7.0 升级到 7.x 可能会失败,因为 ESXi 引导槽可能小于映像配置文件的大小。在 ESXi Shell 或 PowerCLI shell 中,您会看到类似以下内容的错误:
[安装错误]
待处理的事务需要 244 MB 可用空间,但支持的最大大小为 239 MB。
请参考日志文件以了解更多详细信息 ([InstallationError]
The pending transaction requires 244 MB free space, however the maximum supported size is 239 MB. Please refer to the log file for more details)。
尝试使用 ESXCLI 命令 esxcli software vib update
或 esxcli software vib install
升级 ESXi 主机时,也会出现该问题。
解决办法:您可以分两个步骤执行升级:使用 esxcli software profile update
命令将 ESXi 主机更新到 ESXi 6.7 Update 1 或更高版本,然后再更新到 7.0 Update 1c。或者,也可以使用 ISO 映像和 vSphere Lifecycle Manager 运行升级。
- 无法跨 vCenter Server 迁移链接克隆
如果跨 vCenter Server 迁移链接克隆,则源虚拟机的打开电源和删除等操作可能会失败,并显示虚拟机状态无效 (Invalid virtual machine state)
错误。
解决办法:将链接克隆保留在与源虚拟机相同的 vCenter Server 上。或者,在迁移之前将链接克隆提升为完整克隆。
- 如果虚拟机具有许多虚拟磁盘和快照级别,则跨 vCenter Server 将这些虚拟机迁移到 NVMe over TCP 存储上的数据存储可能会失败
如果虚拟机具有的虚拟磁盘超过 180 个,快照级别超过 32,则跨 vCenter Server 将这些虚拟机迁移到 NVMe over TCP 存储上的数据存储可能会失败。ESXi 主机主动出现故障并显示错误,例如迁移已超出最大为 100 秒的切换时间上限 (The migration has exceeded the maximum switchover time of 100 second(s))
。
解决办法:无
- 启用了虚拟性能监控计数器 (VPMC) 的虚拟机可能无法在 ESXi 主机之间迁移
尝试使用 vSphere vMotion 迁移启用了 VPMC 的虚拟机时,如果目标主机正在使用某些计数器计算内存或性能统计信息,则该操作可能会失败。操作失败并显示错误,例如客户机使用的性能计数器在主机 CPU 上不可用 (A performance counter used by the guest is not available on the host CPU)
。
解决办法:关闭虚拟机电源并使用冷迁移。有关详细信息,请参见 VMware 知识库文章 81191。
- 如果在使用安装程序 ISO 以交互方式或脚本方式升级到 ESXi 7.0 Update 3 之前执行实时 VIB 安装、升级或移除操作,则升级将失败
如果在使用安装程序 ISO 以交互方式或脚本方式升级到 ESXi 7.0 Update 3 之前执行实时 VIB 安装、升级或移除操作,则 ConfigStore 可能不会保留某些升级配置。因此,尽管升级似乎成功,但 ESXi 主机在升级操作后变得无法访问。为防止出现此问题,ESXi 7.0 Update 3 安装程序增加了一项临时检查以阻止此类情况。在 ESXi 安装程序控制台中,您会看到以下错误消息:使用 ISO 安装程序时,实时 VIB 安装、升级或移除可能会导致后续 ESXi 升级失败 (Live VIB installation, upgrade or removal may cause subsequent ESXi upgrade to fail when using the ISO installer)
。
解决办法:使用其他升级方法以避免此问题,例如使用 ESXCLI 或 vSphere Lifecycle Manager。
- 升级到 vCenter Server 7.0 后,智能卡和 RSA SecurID 身份验证可能停止工作
如果您已为智能卡或 RSA SecurID 身份验证配置 vCenter Server,请参见位于 https://kb.vmware.com/s/article/78057 的 VMware 知识库文章,然后再开始 vSphere 7.0 升级过程。如果未按照知识库文章所述采取解决办法,您可能会看到以下错误消息,并且智能卡或 RSA SecurID 身份验证无法工作。
“智能卡身份验证可能停止工作。可能不会保留智能卡设置,并且智能卡身份验证可能停止工作 (Smart card authentication may stop working. Smart card settings may not be preserved, and smart card authentication may stop working)。”
或
“RSA SecurID 身份验证可能停止工作。可能不会保留 RSA SecurID 设置,并且 RSA SecurID 身份验证可能停止工作 (RSA SecurID authentication may stop working. RSA SecurID settings may not be preserved, and RSA SecurID authentication may stop working)。”
解决办法:在升级到 vSphere 7.0 之前,请参见 VMware 知识库文章,网址为 https://kb.vmware.com/s/article/78057。
- 将具有外部 Platform Services Controller 部署的 vCenter Server 从 6.7u3 升级到 7.0 失败,并显示 VMAFD 错误
升级使用外部 Platform Services Controller 部署的 vCenter Server 部署时,将该 Platform Services Controller 融合为 vCenter Server Appliance。如果升级失败并显示错误 install.vmafd.vmdir_vdcpromo_error_21
,则 VMAFD 首次引导过程已失败。VMAFD 首次引导过程从源 Platform Services Controller 和复制合作伙伴 vCenter Server Appliance 中复制 VMware Directory Service 数据库 (data.mdb)。
解决办法:在升级具有外部 Platform Services Controller 部署的 vCenter Server 之前,在源 Platform Services Controller 或复制合作伙伴 vCenter Server Appliance 的以太网适配器上禁用 TCP 分段负载分流 (TSO) 和通用分段负载分流 (GSO)。请参见知识库文章:https://kb.vmware.com/s/article/74678
- 在 vCenter Server 升级期间,可能不会保留智能卡和 RSA SecurID 设置
升级到 vCenter Server 7.0 后,使用 RSA SecurID 的身份验证将不起作用。尝试使用 RSA SecurID 登录名登录时,将显示一条错误消息,提示您解决此问题。
解决办法:重新配置智能卡或 RSA SecureID。
- 将适用于 Windows 的 vCenter Server 迁移到 vCenter Server Appliance 7.0 失败,并显示网络错误消息
将适用于 Windows 的 vCenter Server 迁移到 vCenter Server Appliance 7.0 失败,并显示网络中已存在 IP (IP already exists in the network)
错误消息。这会导致迁移过程中无法在新的 vCenter Server Appliance 上配置网络参数。有关详细信息,请查看日志文件:/var/log/vmware/upgrade/UpgradeRunner.log
解决办法:
- 确认已在适用于 Windows 的源 vCenter Server 实例上完成所有 Windows 更新,或者禁用自动 Windows 更新,直到迁移完成后为止。
- 重新尝试将适用于 Windows 的 vCenter Server 迁移到 vCenter Server Appliance 7.0。
- 使用 max_vfs 模块参数为 SR-IOV 设备配置虚拟功能的数量时,所做更改可能不会生效
在 vSphere 7.0 中,可以使用 Virtual Infrastructure Management (VIM) API(例如,通过 vSphere Client)为 SR-IOV 设备配置虚拟功能的数量。该任务不需要重新引导 ESXi 主机。使用 VIM API 配置后,如果尝试使用 max_vfs
模块参数配置 SR-IOV 虚拟功能的数量,则所做更改可能不会生效,因为 VIM API 配置会覆盖这些更改。
解决办法:无。要为 SR-IOV 设备配置虚拟功能的数量,请每次使用相同的方法。使用 VIM API 或使用 max_vfs
模块参数,然后重新引导 ESXi 主机。
- 升级后的 vCenter Server Appliance 实例不会保留源实例中的所有辅助网络(网卡)
在主要升级过程中,如果为 vCenter Server Appliance 的源实例配置了不同于 VCHA 网卡的多个辅助网络,目标 vCenter Server 实例不会保留除 VCHA 网卡以外的辅助网络。如果源实例配置有多个属于 DVS 端口组的网卡,在升级过程中不会保留网卡配置。将保留属于标准端口组的 vCenter Server Appliance 实例配置。
解决办法:无。在目标 vCenter Server Appliance 实例中手动配置辅助网络。
- 升级或迁移具有外部 Platform Services Controller 部署的 vCenter Server 后,使用 Active Directory 进行身份验证的用户失去对新升级的 vCenter Server 实例的访问权限
升级或迁移具有外部 Platform Services Controller 部署的 vCenter Server 后,如果新升级的 vCenter Server 未加入 Active Directory 域,则使用 Active Directory 进行身份验证的用户将失去对该 vCenter Server 实例的访问权限。
解决办法:确认新的 vCenter Server 实例已加入 Active Directory 域。请参见知识库文章:https://kb.vmware.com/s/article/2118543
- 使用 Oracle 数据库迁移具有外部 Platform Services Controller 部署的适用于 Windows 的 vCenter Server 失败
如果 Oracle 事件和任务表中存在非 ASCII 字符串,则迁移过程会在导出事件和任务数据时失败。将显示以下错误消息:UnicodeDecodeError
解决办法:无。
- ESXi 主机升级后,主机配置文件合规性检查显示不合规状态,并且主机修复任务失败
不合规状态表示配置文件与主机之间存在不一致。
出现此不一致的原因可能是 ESXi 7.0 不允许使用重复的声明规则,但您使用的配置文件包含重复规则。例如,如果在将 ESXi 6.5 或 ESXi 6.7 升级到版本 7.0 之前尝试使用从主机提取的主机配置文件,并且该主机配置文件包含系统默认规则的任何重复声明规则,则可能会遇到这些问题。
解决办法:
- 从主机配置文件文档中移除系统默认规则的任何重复声明规则。
- 检查合规性状态。
- 修复主机。
- 如果上述步骤无法解决此问题,请重新引导主机。
- vCenter Server 管理界面中显示错误消息
安装或升级到 vCenter Server 7.0 后,导航到 vCenter Server 管理界面中的“更新”面板时,将显示错误消息“请检查 URL,然后重试 (Check the URL and try again)”。该错误消息不会阻止您使用“更新”面板中的功能,您可以查看、转储和安装任何可用更新。
解决办法:无。
- 在具有 SmartPQI 控制器的 HPE Gen10 服务器上执行磁盘热移除和热插入后,未自动挂载 VMFS 数据存储
在没有扩展器的情况下将具有 SmartPQI 控制器的 HPE Gen10 服务器上的 SATA 磁盘热移除并热插回同一台计算机的不同磁盘托架时,或者在以不同的顺序热移除并热插回多个磁盘时,有时会向这种磁盘分配新本地名称。这种磁盘上的 VMFS 数据存储显示为快照,并且不会自动重新挂载,因为设备名称已更改。
解决办法:无。SmartPQI 控制器不支持未排序的热移除和热插入操作。
- ESXi 可能会因所有活动路径上的错误而终止 NVMeOF 设备的 I/O
有时,由于链路问题或控制器状态,NVMeOF 设备的所有活动路径都会注册 I/O 错误。如果其中一个路径的状态更改为“不活动”,高性能插件 (HPP) 可能不会选择其他路径(如果显示大量错误)。因此,I/O 会失败。
解决办法:禁用配置选项 /Misc/HppManageDegradedPaths 以取消阻止 I/O。
- 基于 NVMe 的 VMFS 数据存储的 VOMA 检查失败并显示错误
基于 NVMe 的 VMFS 数据存储不支持 VOMA 检查,该检查将失败并显示以下错误:
错误: 无法保留设备。功能未实现 (ERROR: Failed to reserve device. Function not implemented)
例如:
# voma -m vmfs -f check -d /vmfs/devices/disks/: <partition#>
Running VMFS Checker version 2.1 in check mode
Initializing LVM metadata, Basic Checks will be done
Checking for filesystem activity
Performing filesystem liveness check..|Scanning for VMFS-6 host activity (4096 bytes/HB, 1024 HBs).
错误: 无法保留设备。Function not implemented
Aborting VMFS volume check
VOMA failed to check device : General Error
解决办法:无。如果需要分析 VMFS 元数据,请使用 -l
选项收集这些数据,并将其传递给 VMware 客户支持。用于收集转储的命令为:
voma -l -f dump -d /vmfs/devices/disks/:<partition#>
- 使用虚拟机重新配置 API 将加密的第一类磁盘附加到加密虚拟机可能失败并显示错误
如果使用不同的加密密钥对 FCD 和虚拟机进行加密,则尝试使用虚拟机重新配置 API
将加密的 FCD 附加到加密虚拟机可能会失败,并显示以下错误消息:
无法对磁盘进行解密,因为密钥或密码错误 (Cannot decrypt disk because key or password is incorrect)。
解决办法:使用 attachDisk API
,而不是虚拟机重新配置 API
,以将加密的 FCD 附加到加密虚拟机。
- 如果 ESXi 主机的跨区 VMFS 数据存储的非主数据区进入永久设备丢失 (PDL) 状态,该主机可能进入无响应状态
如果跨区的 VMFS 数据存储的非主数据区与主数据区都发生故障,则不会出现此问题。在这种情况下,整个数据存储将变得无法访问,并且不再允许 I/O。
相反,如果只有非主数据区发生故障,但主数据区仍可访问,则数据存储检测信号显示正常。主机与数据存储之间的 I/O 将继续。但是,任何依赖发生故障的非主数据区的 I/O 也开始发生故障。其他 I/O 事务可能会在等待故障 I/O 修复时累积,并导致主机进入无响应状态。
解决办法:修复非主数据区的 PDL 情况以解决此问题。
- 虚拟 NVMe 控制器是 Windows 10 客户机操作系统的默认磁盘控制器
使用硬件版本 15 或更高版本时,虚拟 NVMe 控制器是以下客户机操作系统的默认磁盘控制器:
Windows 10
Windows Server 2016
Windows Server 2019
使用虚拟 NVMe 控制器时,某些功能可能不可用。有关详细信息,请参见 https://kb.vmware.com/s/article/2147714
注意:某些客户端使用之前默认的 LSI Logic SAS。这包括 ESXi Host Client 和 PowerCLI。
解决办法:如果需要虚拟 NVMe 上未提供的功能,请切换到 VMware 准虚拟 SCSI (PVSCSI) 或 LSI Logic SAS。有关使用 VMware 准虚拟 SCSI (PVSCSI) 的信息,请参见 https://kb.vmware.com/s/article/1010398
- ESXi 主机升级到 vSphere 7.0 后,存在重复的核心声明规则可能会导致意外行为
声明规则确定哪个多路径插件(如 NMP、HPP 等)拥有通往特定存储设备的路径。ESXi 7.0 不支持重复声明规则。但是,如果将重复规则添加到通过自旧版的升级继承的现有声明规则,则 ESXi 7.0 主机不会发出警示。由于使用重复规则,存储设备可能由意外插件声明,这可能会导致意外的结果。
解决办法:不要使用重复的核心声明规则。在添加新声明规则之前,请删除任何现有的匹配声明规则。
- 已设置合规性状态筛选的 CNS 查询可能需要非常长的时间才能完成
CNS QueryVolume API 可用于获取有关 CNS 卷的信息,如卷运行状况和合规性状态。检查单个卷的合规性状态时,可快速获取结果。但是,当调用 CNS QueryVolume API 检查多个卷(数十个或几百个)的合规性状态时,查询的运行速度可能很慢。
解决办法:避免使用批量查询。当需要获取合规性状态时,一次查询一个卷或将查询 API 中的卷数限制为 20 个或更少。使用查询时,避免运行其他 CNS 操作才可获得最佳性能。
- 从 APD 或 PDL 故障恢复后,NVMe over Fabric 命名空间或设备支持的 VMFS 数据存储可能会变得永久不可访问
如果 ESXi 主机上的 VMFS 数据存储由 NVMe over Fabric 命名空间或设备支持,则在发生全部路径异常 (APD) 或永久设备丢失 (PDL) 故障后,数据存储可能不可访问,即使恢复后也是如此。从 ESXi 主机或 vCenter Server 系统均无法访问数据存储。
解决办法:要从该状态恢复,请在主机或集群级别执行重新扫描。有关详细信息,请参见执行存储重新扫描。
- 已删除的 CNS 卷可能会在 CNS UI 中暂时显示为存在
删除支持 CNS 卷的 FCD 磁盘后,该卷可能仍在 CNS UI 中显示为存在。但是,尝试删除该卷会失败。您可能会看到类似于以下内容的错误消息:
找不到引用的对象或项目 (The object or item referred to could not be found)
。
解决办法:下一次完全同步将解决不一致性并正确更新 CNS UI。
- 尝试将多个 CNS 卷附加到同一个 pod 时,有时可能会失败并显示错误
同时将多个卷附加到同一个 pod 时,附加操作有时可能会选择同一个控制器插槽。因此,只有其中一个操作成功,而其他卷挂载会失败。
解决办法:Kubernetes 重新尝试执行失败的操作后,如果节点虚拟机上有可用的控制器插槽,则操作将成功。
- 在某些情况下,CNS 操作失败时,任务状态在 vSphere Client 中显示为成功
例如,当您使用不合规的存储策略创建 CNS 卷时,可能会出现这种情况。操作失败,而 vSphere Client 显示任务状态为成功。
解决办法:vSphere Client 中成功的任务状态不保证 CNS 操作已成功。要确保操作已成功,请验证其结果。
- CNS 持久卷删除操作失败可能会使该卷仍驻留 vSphere 数据存储中
当 CNS Delete API 尝试删除连接到容器的持久卷时,可能会出现此问题。例如,删除运行 Pod 的 Kubernetes 命名空间时。因此,将从 CNS 中清除该卷,并且 CNS 查询操作不会返回该卷。但是,该卷仍驻留在数据存储中,并且无法通过重复的 CNS Delete API 操作进行删除。
解决办法:无。
- Intel 82599/X540/X550 网卡上的网络性能存在吞吐量降低问题
与 vSphere 6.7 相比,在 vSphere 7.0 的某些工作负载下,为了提高 Intel 82599EB/X540/X550 系列网卡上的网络性能而将新队列对功能添加到 ixgben 驱动程序时,可能会降低吞吐量。
解决办法:要实现与 vSphere 6.7 相同的网络性能,可以使用模块参数禁用队列对。要禁用队列对,请运行以下命令:
# esxcli system module parameters set -p "QPair=0,0,0,0..."-m ixgben
运行命令后,请重新引导。
- 在使用 AMD IOMMU 时,一个或多个 I/O 设备不会生成中断
如果 ESXi 主机上的 I/O 设备提供的不同中断源总数超过 512 个,则会在 AMD IOMMU 中错误地向某些源分配超过最大值的中断重新映射表条目 (IRTE) 索引。来自此类源的中断将丢失,因此对应的 I/O 设备会表现得像已禁用中断一样。
解决办法:使用 ESXCLI 命令 esxcli system settings kernel set -s iovDisableIR -v true
禁用 AMD IOMMU 中断重新映射程序。重新引导 ESXi 主机,使命令生效。
- 在网络适配器上设置自动协商时,设备可能会失败
在某些环境中,如果使用命令 esxcli network nic set -a -n vmmicx
将网络适配器的链路速度设置为自动协商,则设备可能会失败且重新引导不会恢复连接。该问题特定于不支持自动协商速度/双工场景的某些 Intel X710/X722 网络适配器、SFP+ 模块和物理交换机的组合。
解决办法:请确保使用 Intel 品牌的 SFP+ 模块。或者,使用直接连接铜缆 (Direct Attach Copper, DAC)。
- 在 1x100G 端口模式下配置的 Solarflare x2542 和 x2541 网络适配器在 vSphere 环境中实现高达 70 Gbps 的吞吐量
vSphere 7.0 Update 2 支持在 1x100G 端口模式下配置的 Solarflare x2542 和 x2541 网络适配器。但是,您可能会发现设备中的硬件限制导致 vSphere 环境中的实际吞吐量高达约 70 Gbps。
解决办法:无
- 网卡重置后,VLAN 流量传输可能会失败
具有 PCI 设备 ID 8086:1537 的网卡在重置(例如,使用命令 vsish -e set /net/pNics/vmnic0/reset 1
)后可能会停止发送和接收 VLAN 标记的数据包。
解决办法:避免重置网卡。如果已遇到此问题,请使用以下命令还原 VLAN 功能(例如,在 vmnic0 上:
# esxcli network nic software set --tagging=1 -n vmnic0
# esxcli network nic software set --tagging=0 -n vmnic0
- NetQueue 均衡器设置中的任何更改都会导致在 ESXi 主机重新引导后禁用 NetQueue
使用命令 esxcli/localcli network nic queue loadbalancer set -n <nicname> --<lb_setting>
执行的任何 NetQueue 均衡器设置更改都会导致在 ESXi 主机重新引导后禁用 NetQueue(默认处于启用状态)。
解决办法:更改 NetQueue 均衡器设置且主机重新引导后,使用命令 configstorecli config current get -c esx -g network -k nics
检索 ConfigStore 数据,以验证 /esx/network/nics/net_queue/load_balancer/enable
是否按预期运行。
运行该命令后,您将看到类似以下内容的输出:
{
"mac": "02:00:0e:6d:14:3e",
"name": "vmnic1",
"net_queue": {
"load_balancer": {
"dynamic_pool": true,
"enable": true
}
},
"virtual_mac": "00:50:56:5a:21:11"
}
如果输出不符合预期,例如 "load_balancer": "enable": false"
,则运行以下命令:
esxcli/localcli network nic queue loadbalancer state set -n <nicname> -e true
- 准虚拟 RDMA (PVRDMA) 网络适配器不支持 NSX 网络策略
如果配置 NSX 分布式虚拟端口用于 PVRDMA 流量,则通过 PVRDMA 网络适配器的 RDMA 协议流量将不符合 NSX 网络策略。
解决办法:不要配置 NSX 分布式虚拟端口用于 PVRDMA 流量。
- vSphere 7.0 Update 3 不支持从融合 vSphere Distributed Switch (VDS) 回滚到 NSX-T VDS
在 vSphere 7.0 Update 3 中,不支持从在同一 VDS 上同时支持 vSphere 7 流量和 NSX-T 3 流量的融合 VDS 回滚到支持 NSX-T 流量的一个 N-VDS。
解决办法:无
- 如果未设置 nmlx5 网络驱动程序模块参数,网络连接或 ESXi 主机可能会失败
如果在具有多个版本为 Mellanox ConnectX-4、Mellanox ConnectX-5 和 Mellanox ConnectX-6 的网络适配器的 ESXi 主机上没有为 nmlx5_core
驱动程序设置 supported_num_ports
模块参数,则驱动程序可能无法分配足够的内存以运行主机的所有网卡端口。因此,您可能会遇到网络中断和/或 ESXi 主机出现故障并显示紫色诊断屏幕的情况。
解决办法:将 nmlx5_core
网络驱动程序中的 supported_num_ports
模块参数值设置为 ESXi 主机上 Mellanox ConnectX-4、Mellanox ConnectX-5 和 Mellanox ConnectX-6 网络适配器端口的总数。
- 在启用 Network I/O Control (NetIOC) 时,高吞吐量虚拟机可能出现网络性能下降问题
在启用 NetIOC 的情况下,从 vSphere 6.7 升级到 vSphere 7.0 时,需要高网络吞吐量的虚拟机可能出现吞吐量下降问题。
解决办法:调整 ethernetx.ctxPerDev
设置以启用多个环境。
- IPv6 流量无法通过使用 IPsec 的 VMkernel 端口
将 VMkernel 端口从一个端口组迁移到另一个端口组时,IPv6 流量不会通过使用 IPsec 的 VMkernel 端口。
解决办法:从受影响的服务器中移除 IPsec 安全关联 (SA),然后重新应用 SA。要了解如何设置和移除 IPsec SA,请参见《vSphere 安全性》文档。
- 更高的 ESX 网络性能使 CPU 使用情况值增大
ESX 网络性能提高时可能增大 CPU 使用情况值。
解决办法:移除和添加仅包含 1 个 rx 分派队列的网络接口。例如:
esxcli network ip interface remove --interface-name=vmk1
esxcli network ip interface add --interface-name=vmk1 --num-rxqueue=1
- 热添加、热移除或 Storage vMotion 后,虚拟机可能丢失以太网流量
热添加、热移除或 Storage vMotion 后,虚拟机可能停止接收以太网流量。此问题会影响 VNIC 的上行链路已启用 SR-IOV 的虚拟机。当虚拟网络的上行链路为 Mellanox 支持 RDMA 的网卡并且已配置 RDMA 命名空间时,PVRDMA 虚拟网卡出现此问题。
解决办法:可以热移除和热添加受影响的虚拟机以太网网卡以还原流量。在 Linux 客户机操作系统上,重新启动网络也可能会解决该问题。如果这些解决办法不起作用,可以重新引导虚拟机以还原网络连接。
- 为使用静态 IP 地址部署的 VCSA 更改 IP 地址时,需要提前创建 DNS 记录
在引入 DDNS 的过程中,DNS 记录更新仅适用于使用 DHCP 配置的网络部署的 VCSA。通过 VAMI 更改 vCenter Server 的 IP 地址时,显示以下错误:
指定的 IP 地址未解析为指定的主机名 (The specified IP address does not resolve to the specified hostname)。
解决办法:有两种可行的解决办法。
- 创建一个具有相同 FQDN 和所需 IP 地址的其他 DNS 条目。登录到 VAMI,然后执行用于更改 IP 地址的步骤。
- 使用 SSH 登录到 VCSA。执行以下脚本:
./opt/vmware/share/vami/vami_config_net
使用选项 6 更改 eth0 的 IP 地址。更改后,请执行以下脚本:
./opt/likewise/bin/lw-update-dns
重新启动 VCSA 上的所有服务,以更新 DNS 服务器上的 IP 信息。
- 在 NSX Manager 中删除相应的逻辑交换机后,可能需要几秒钟时间才能移除 NSX 分布式虚拟端口组 (NSX DVPG)。
随着逻辑交换机数量的增加,在 NSX Manager 中删除相应的逻辑交换机后,可能需要更长时间才能移除 vCenter Server 中的 NSX DVPG。在具有 12000 个逻辑交换机的环境中,从 vCenter Server 中删除 NSX DVPG 大约需要 10 秒的时间。
解决办法:无。
- 如果创建了大量 NSX 分布式虚拟端口组,Hostd 将耗尽内存并失败。
在 vSphere 7.0 中,NSX 分布式虚拟端口组消耗的内存量远大于含糊网络。因此,在给定相同内存量的情况下,NSX 分布式虚拟端口组无法支持与含糊网络相同的规模。
解决办法:要支持使用 NSX 分布式虚拟端口组,请增加 ESXi 主机中的内存量。如果您确认系统具有足够的内存来支持虚拟机,则可以使用以下命令直接增加 hostd
的内存。
localcli --plugin-dir /usr/lib/vmware/esxcli/int/ sched group setmemconfig --group-path host/vim/vmvisor/hostd --units mb --min 2048 --max 2048
请注意,这会导致 hostd
使用通常为环境的虚拟机预留的内存。这可能会导致 ESXi 主机可支持的虚拟机数量减少。
- 如果在虚拟机上配置网络预留,DRS 可能会错误地启动 vMotion
如果在虚拟机上配置网络预留,则 DRS 会认定仅将虚拟机迁移到满足指定要求的主机。在具有 NSX 传输节点的集群中,如果某些传输节点通过 NSX-T 虚拟分布式交换机 (N-VDS) 加入传输区域,而其他传输节点通过 vSphere Distributed Switch (VDS) 7.0 加入传输区域,则 DRS 可能会错误地启动 vMotion。在以下情况下,您可能会遇到此问题:
- 虚拟机连接到已配置网络预留的 NSX 逻辑交换机。
- 某些传输节点使用 N-VDS 加入传输区域,而其他传输节点使用 VDS 7.0 加入传输区域,或者传输节点通过不同的 VDS 7.0 实例加入传输区域。
解决办法:使所有传输节点都通过 N-VDS 或同一 VDS 7.0 实例加入传输区域。
- 将 VMkernel 网卡 (vmknic) 添加到 NSX 端口组时,vCenter Server 会报告错误“不支持将 VMKernel 适配器连接到无状态主机上的 NSX 端口组。请改用分布式端口组 (Connecting VMKernel adapter to a NSX Portgroup on a Stateless host is not a supported operation. Please use Distributed Port Group instead)。”
- 对于 vSphere Distributed Switch (VDS) 上的无状态 ESXi,将阻止 NSX 端口组上的 vmknic。您必须改为使用分布式端口组。
- 对于 DVS 上的有状态 ESXi,支持 NSX 端口组上的 vmknic,但如果 vSAN 在 NSX 端口组上使用 vmknic,则 vSAN 可能会遇到问题。
解决办法:在同一 DVS 上使用分布式端口组。
- 从 vCenter for QLogic 4x10GE QL41164HFCU CNA 启用 SRIOV 可能会失败
如果导航到物理网络适配器的编辑设置对话框,并尝试启用 SR-IOV,则在使用 QLogic 4x10GE QL41164HFCU CNA 时,该操作可能会失败。尝试启用 SR-IOV 可能会导致 ESXi 主机的网络中断。
解决办法:在 ESXi 主机上使用以下命令来启用 SRIOV:
esxcfg-module
- 如果使用 Distributed Resource Scheduler (DRS) 的集群中的主机通过不同的虚拟分布式交换机 (VDS) 或 NSX-T 虚拟分布式交换机 (NVDS) 与 VDS 的组合加入 NSX-T 网络,则 vCenter Server 会失败
在 vSphere 7.0 中,将 vSphere VDS 上的 NSX-T 网络与 DRS 集群配合使用时,如果主机未通过相同的 VDS 或 NVDS 加入 NSX 传输区域,则可能会导致 vCenter Server 失败。
解决办法:让 DRS 集群中的主机使用相同的 VDS 或 NVDS 加入 NSX 传输区域。
- 如果已为集群启用集中管理所有主机上的映像设置和更新的功能,无法在该集群上启用 NSX-T
NSX-T 与 vSphere Lifecycle Manager 的映像管理功能不兼容。在为集群启用集中管理其所有主机上的映像设置和更新的功能时,无法在该集群上启用 NSX-T。但是,可以将 NSX Edge 部署到此集群。
解决办法:将主机移至可使用基准管理的新集群,并且在该新集群上启用 NSX-T。
- 在 vSphere 7.0 版本中,无法在 vSAN 集群上同时启用 vSphere Lifecycle Manager 和 vSAN 文件服务
如果在集群上启用了 vSphere Lifecycle Manager,则无法在同一集群上启用 vSAN 文件服务,反之亦然。要在已启用 vSAN 文件服务的集群上启用 vSphere Lifecycle Manager,请先禁用 vSAN 文件服务,然后重试操作。请注意,如果转换到由单个映像管理的集群,则无法在该集群上禁用 vSphere Lifecycle Manager。
解决办法:无。
- 硬件支持管理器不可用时,vSphere High Availability (HA) 功能会受到影响
如果集群由单个映像管理并且已从中选择固件和驱动程序加载项并启用 vSphere HA,则硬件支持管理器不可用于该集群时,vSphere HA 功能会受到影响。您可能会遇到以下错误。
- 在集群上配置 vSphere HA 失败。
- 无法在主机上完成 vSphere HA 代理配置:
在集群上应用 HA VIB 时遇到故障 (Applying HA VIBs on the cluster encountered a failure)。
- 修复 vSphere HA 失败:
出现了常规系统错误: 无法获取有效的组件映射 (A general system error occurred: Failed to get Effective Component map)。
- 禁用 vSphere HA 失败:删除解决方案任务失败。
出现了常规系统错误: 在库中或硬件支持管理器中找不到硬件支持软件包 (A general system error occurred: Cannot find hardware support package from depot or hardware support manager)。
解决办法:
- 将硬件支持管理器重新连接到 vCenter Server。
- 从“主机和集群”菜单中选择集群。
- 选择“配置”选项卡。
- 在“服务”下,单击“vSphere 可用性”。
- 重新启用 vSphere HA。
- 从映像规范中移除硬件支持管理器和硬件支持包。
- 重新启用 vSphere HA。
- 从“主机和集群”菜单中选择集群。
- 选择“更新”选项卡。
- 单击“编辑”。
- 移除固件和驱动程序加载项,然后单击“保存”。
- 选择“配置”选项卡。
- 在“服务”下,单击“vSphere 可用性”。
- 重新启用 vSphere HA。
- vSphere Lifecycle Manager 中的修复过程完成后,未从集群中移除 I/O 筛选器
通过在 vSphere Lifecycle Manager 中修复集群来从集群中移除 I/O 筛选器失败,并显示以下错误消息:iofilter XXX 已存在 (iofilter XXX already exists)
。IO 筛选器仍列为“已安装”。
解决办法:
- 从 vCenter Server 受管对象 (IoFilterManager) 调用 IOFilter API
UninstallIoFilter_Task
。
- 在 vSphere Lifecycle Manager 中修复集群。
- 从 vCenter Server 受管对象 (IoFilterManager) 中调用 IOFilter API
ResolveInstallationErrorsOnCluster_Task
以更新数据库。
- 在 vSphere Lifecycle Manager 中修复已启用 vSphere HA 的集群时,添加主机会导致出现 vSphere HA 错误状态
在已启用 vSphere HA 的集群的修复过程中添加一个或多个 ESXi 主机时,会导致出现以下错误消息:在集群上应用 HA VIB 时遇到故障 (Applying HA VIBs on the cluster encountered a failure)。
解决办法:集群修复操作完成后,请执行以下任务之一。
- 右键单击出现故障的 ESXi 主机,然后选择“重新配置 vSphere HA”。
- 为集群禁用并重新启用 vSphere HA。
- 在 vSphere Lifecycle Manager 中修复已启用的 vSphere HA 的集群时,禁用并重新启用 vSphere HA 会导致出现 vSphere HA 错误状态
在集群修复过程中禁用并重新启用 vSphere HA 时,可能会由于 vSphere HA 运行状况检查报告主机未安装 vSphere HA VIB 而导致修复过程失败。您可能会看到以下错误消息:为集群设置所需的映像规范失败 (Setting desired image spec for cluster failed)
。
解决办法:在集群修复操作完成后,为集群禁用并重新启用 vSphere HA。
- 在 vSphere Lifecycle Manager 中检查大型集群中的建议映像时存在性能缓慢问题
在具有超过 16 个主机的大型集群中,建议生成任务可能需要超过一小时才能完成,或者可能显示为挂起。建议任务的完成时间取决于在每个主机上配置的设备的数量,以及在获取建议的有效映像之前 vSphere Lifecycle Manager 需要从库中处理的候选映像的数量。
解决办法:无。
- 在 vSphere Lifecycle Manager 中检查大型集群中的硬件兼容性时存在性能缓慢问题
在具有超过 16 个主机的大型集群中,验证报告生成任务可能需要长达 30 分钟的时间才能完成,或者可能显示为挂起。完成时间取决于在每个主机上配置的设备的数量以及在集群中配置的主机的数量。
解决办法:无
- 修复 vSphere Lifecycle Manager 中的集群时,显示非英语语言的不完整错误消息
在 vCenter Server 用户界面中,您可能会遇到本地化语言的不完整错误消息。vSphere Lifecycle Manager 中的集群修复过程失败后,将显示这些消息。例如,您可能会看到以下错误消息。
英文语言的错误消息:Virtual machine 'VMC on DELL EMC -FileServer' that runs on cluster 'Cluster-1' reported an issue which prevents entering maintenance mode: Unable to access the virtual machine configuration: Unable to access file[local-0] VMC on Dell EMC - FileServer/VMC on Dell EMC - FileServer.vmx
法语语言的错误消息:La VM « VMC on DELL EMC -FileServer », située sur le cluster « {Cluster-1} », a signalé un problème empêchant le passage en mode de maintenance : Unable to access the virtual machine configuration: Unable to access file[local-0] VMC on Dell EMC - FileServer/VMC on Dell EMC - FileServer.vmx
解决办法:无。
- 将没有供应商加载项、组件或者固件和驱动程序加载项的映像导入到所含映像中包含此类元素的集群时,未移除现有映像的映像元素
只有 ESXi 基础映像替换为所导入映像中的映像。
解决办法:导入过程完成后,编辑映像,并根据需要移除供应商加载项、组件以及固件和驱动程序加载项。
- 将使用基准的集群转换为使用单个映像的集群时,显示一条警告,指出将移除 vSphere HA VIB
将使用基准并且已启用 vSphere HA 的集群转换为使用单个映像的集群时,可能会出现一条警告消息,指出将移除 vmware-fdm
组件。
解决办法:可忽略此消息。转换过程中将安装 vmware-fdm
组件。
- 如果 vSphere Update Manager 配置为通过代理服务器从 Internet 下载修补程序更新,则在升级到将 Update Manager 转换为 vSphere Lifecycle Manager 的 vSphere 7.0 后,从 VMware 修补程序存储库下载修补程序可能失败
在早期版本的 vCenter Server 中,您可以为 vCenter Server 和 vSphere Update Manager 配置独立的代理设置。升级到 vSphere 7.0 后,vSphere Update Manager 服务将成为 vSphere Lifecycle Manager 服务的一部分。对于 vSphere Lifecycle Manager 服务,将从 vCenter Server Appliance 设置中配置代理设置。如果您已将 Update Manager 配置为通过代理服务器从 Internet 下载修补程序更新,但 vCenter Server Appliance 没有代理设置配置,则在 vCenter Server 升级到版本 7.0 后,vSphere Lifecycle Manager 无法连接到 VMware 库,并且无法下载修补程序或更新。
解决办法:登录到 vCenter Server Appliance 管理界面 https://vcenter-server-appliance-FQDN-or-IP-address:5480,为 vCenter Server Appliance 配置代理设置并将 vSphere Lifecycle Manager 启用为使用代理。
- VMkernel 可能会因 vCPU 定时器问题而关闭虚拟机
在极少数情况下,VMkernel 可能会因无法正确发送 PCPU 检测信号而认为虚拟机无响应,并且会关闭虚拟机。在 vmkernel.log
文件中,您会看到类似以下内容的消息:
2021-05-28T21:39:59.895Z cpu68:1001449770)ALERT: Heartbeat: HandleLockup:827: PCPU 8 didn't have a heartbeat for 5 seconds, timeout is 14, 1 IPIs sent; *may* be locked up.
2021-05-28T21:39:59.895Z cpu8:1001449713)WARNING: World: vm 1001449713: PanicWork:8430: vmm3:VM_NAME:vcpu-3:Received VMkernel NMI IPI, possible CPU lockup while executing HV VT VM
此问题是由于 vCPU 定时器中极少出现的争用情况所致。由于争用是针对每个 vCPU 的,因此较大的虚拟机更容易出现该问题。
解决办法:使用命令 vsish -e set /reliability/heartbeat/status 0
禁用 PCPU 检测信号。
- 将版本为 6.5 的主机配置文件应用于版本为 7.0 的 ESXi 主机时,合规性检查失败
将版本为 6.5 的主机配置文件应用于版本为 7.0 的 ESXi 主机时,会将 Coredump 文件配置文件报告为与主机不兼容。
解决办法:有两种可行的解决办法。
- 在创建版本为 6.5 的主机配置文件时,请在 ESXi 主机上将高级配置选项 VMkernel.Boot.autoCreateDumpFile 设置为 false。
- 应用版本为 6.5 的现有主机配置文件时,在主机配置文件中添加高级配置选项 VMkernel.Boot.autoCreateDumpFile,将该选项配置为固定策略,并将值设置为 false。
- 在打开动态接收方调整 (DYN_RSS) 或通用 RSS (GEN_RSS) 功能时,Mellanox ConnectX-4 或 ConnectX-5 本机 ESXi 驱动程序可能出现轻微的吞吐量下降
当 DYN_RSS 和 GEN_RSS 功能处于开启状态时,Mellanox ConnectX-4 或 ConnectX-5 本机 ESXi 驱动程序可能会出现低于 5% 的吞吐量下降,这很可能会影响正常工作负载。
解决办法:可以使用以下命令禁用 DYN_RSS 和 GEN_RSS 功能:
# esxcli system module parameters set -m nmlx5_core -p "DYN_RSS=0 GEN_RSS=0"
# reboot
- 在 PVRDMA 环境中,同一主机上两个虚拟机之间的 RDMA 通信可能失败
在 PVRDMA 环境的 vSphere 7.0 实施中,如果存在 HCA,虚拟机通过 HCA 传递流量以进行本地通信。但是,RDMA 流量环回在 qedrntv 驱动程序上不起作用。 例如,在同一上行链路端口下配置的虚拟机上运行的 RDMA 队列对无法相互通信。
在 vSphere 6.7 及更低版本中,如果已启用 SRQ,则 HCA 用于本地 RDMA 流量。如果虚拟机使用已启用 SRQ 的 PVRDMA 版本以及使用 RoCE v2 的硬件版本 14 及以上版本,vSphere 7.0 将对这些虚拟机使用 HCA 环回。
当前版本的 Marvell FastLinQ 适配器固件不支持同一 PF 或端口的 QP 之间的环回流量。
解决办法:已在针对 vSphere 7.0 认证的原生驱动程序中添加所需支持。如果您使用的是内置 qedrntv 驱动程序,则必须使用 3 主机配置并将虚拟机迁移到第三个主机。
- 在 qedrntv 驱动程序中不可靠的数据报流量 QP 存在限制
Marvell FastLinQ qedrntv RoCE 驱动程序与不可靠的数据报 (UD) 流量存在限制。涉及批量流量的 UD 应用程序可能会因 qedrntv 驱动程序而失败。此外,UD QP 只能使用 DMA 内存区域 (MR)。不支持物理 MR 或 FRMR。尝试将物理 MR 或 FRMR 与 UD QP 配合使用的应用程序在与 qedrntv 驱动程序一起使用时无法传递流量。此类测试应用程序的已知示例为 ibv_ud_pingpong
和 ib_send_bw
。
VMware ESXi 环境(如 iSER、NVMe-oF (RoCE) 和 PVRDMA)中的标准 RoCE 和 RoCEv2 用例不受此问题的影响。UD 流量的用例有限,此问题会影响需要批量 UD 流量的一小部分应用程序。
Marvell FastLinQ 硬件不支持 RDMA UD 流量卸载。为了满足关于支持 GSI QP 的 VMware PVRDMA 要求,qedrntv 驱动程序中添加了 UD QP 支持的受限仅软件实施。此实施的目标是提供对控制路径 GSI 通信的支持,而不是支持批量流量和高级功能的完整 UD QP 实施。
由于在软件中实施 UD 支持,此实施可能不适应大量流量,并且数据包可能会丢失。这可能会导致批量 UD 流量出现故障。
解决办法:qedrntv 驱动程序不支持批量 UD QP 流量,目前尚无解决办法。如 iSER、NVMe、RDMA 和 PVRDMA 等 VMware ESXi RDMA (RoCE) 用例不受此问题的影响。
- 在频繁连接或断开 iSCSI LUN 时,配备 QLogic 578xx 网卡的服务器可能失败
如果在短时间内频繁触发 QLogic 578xx 网卡 iSCSI 连接或断开连接,服务器可能会由于 qfle3 驱动程序问题而失败。这是设备固件中的一个已知缺陷所致。
解决办法:无。
- 在基于 FC 的 Broadcom NVMe 环境中,在执行驱动程序卸载或控制器断开连接操作期间,ESXi 可能失败
在基于 FC 的 Broadcom NVMe 环境中,在执行驱动程序卸载或控制器断开连接操作期间,ESXi 可能会失败,并且显示类似以下内容的错误消息:@BlueScreen: #PF Exception 14 in world 2098707:vmknvmeGener IP 0x4200225021cc addr 0x19
解决办法:无。
- 在某些 Dell 服务器上,ESXi 不显示 i350/X550 网卡的 OEM 固件版本号
内置 ixgben 驱动程序仅识别 i350/X550 网卡的固件数据版本或签名。在某些 Dell 服务器上,OEM 固件版本号已编程到 OEM 软件包版本区域,而内置 ixgben 驱动程序不会读取此信息。仅显示 8 位固件签名。
解决办法:要显示 OEM 固件版本号,请安装异步 ixgben 驱动程序版本 1.7.15 或更高版本。
- X710 或 XL710 网卡在 ESXi 中可能发生故障
在对 X710 或 XL710 网卡启动某些破坏性操作(例如重置网卡或操作 VMKernel 的内部设备树)时,网卡硬件可能会从非数据包内存中读取数据。
解决办法:请勿重置网卡或操作 VMkernel 内部设备状态。
- 系统重新引导后,NVMe-oF 不保证持久 VMHBA 名称
NVMe-oF 是 vSphere 7.0 中的新功能。如果服务器具有使用 vmhba30+ 的 USB 存储安装,并且还具有 NVMe over RDMA 配置,则在系统重新引导后,VMHBA 名称可能会发生变化。这是因为 NVMe over RDMA 的 VMHBA 名称分配不同于 PCIe 设备。ESXi 不保证持久性。
解决办法:无。
- vCenter 数据库大小为 300 GB 或更大时备份失败
如果 vCenter 数据库大小为 300 GB 或更大,基于文件的备份将失败,并显示超时。将显示以下错误消息:超时! 无法在 72000 秒内完成 (Timeout! Failed to complete in 72000 seconds)
解决办法:无。
- 还原从具有外部 Platform Services Controller 部署的 vCenter Server 6.x 升级到 vCenter Server 7.0 的 vCenter Server 7.0 可能会失败
还原从具有外部 Platform Services Controller 部署的 vCenter Server 6.x 升级到 vCenter Server 7.0 的 vCenter Server 7.0 时,还原可能会失败并显示以下错误:无法检索设备存储列表 (Failed to retrieve appliance storage list)
解决办法:在还原过程的第一阶段,提高 vCenter Server 7.0 的存储级别。例如,如果 vCenter Server 6.7 外部 Platform Services Controller 设置存储类型为“小型”,请选择存储类型“大型”以执行还原过程。
- 在主机配置文件修复过程中,未配置已启用的 SSL 协议配置参数
在主机配置文件修复期间未配置已启用的 SSL 协议 (Enabled SSL protocols)
配置参数,仅启用了系统默认协议 tlsv1.2
。在 vCenter Server 7.0 环境中,版本为 7.0 及更低版本的主机配置文件会出现此行为。
解决办法:要为 SFCB 启用 TLSV 1.0 或 TLSV 1.1 SSL 协议,请使用 SSH 登录到 ESXi 主机,然后运行以下 ESXCLI 命令:esxcli system wbem -P <protocol_name>
- 无法使用主机配置文件配置锁定模式设置
无法使用安全主机配置文件配置锁定模式,也无法将该模式同时应用于多个 ESXi 主机。必须手动配置每个主机。
解决办法:在 vCenter Server 7.0 中,可以使用安全主机配置文件配置锁定模式和管理锁定模式例外用户列表。
- 将主机配置文件应用于集群时,ESXi 主机中缺少增强型 vMotion 兼容性 (EVC) 设置
VMware 配置文件 /etc/vmware/config
中的某些设置不受主机配置文件管理,并且在修改该 VMware 配置文件时被阻止。因此,将主机配置文件应用于集群时,EVC 设置丢失,导致 EVC 功能丢失。例如,未屏蔽的 CPU 可能向工作负载公开。
解决办法:在集群上重新配置相关的 EVC 基准以恢复 EVC 设置。
- 使用主机配置文件在 vCenter Server 7.0 中定义核心转储分区时导致发生错误
在 vCenter Server 7.0 中,无法在主机配置文件中配置和管理核心转储分区。尝试应用主机配置文件来定义核心转储分区时,导致出现以下错误:未找到任何有效的 coredump 分区。
解决办法:无。在 vCenter Server 7.0 中,主机配置文件仅支持基于文件的核心转储。
- 如果运行 ESXCLI 命令卸载防火墙模块,hostd 服务将失败,并且主机 ESXi 会断开连接
如果在包含多个 ESXi 主机的环境中自动执行防火墙配置,并运行会破坏筛选器和卸载防火墙模块的 ESXCLI 命令 esxcli network firewall unload
,hostd 服务会失败,并且 ESXi 主机将断开连接。
解决办法:任何时候都不建议卸载防火墙模块。如果必须卸载防火墙模块,请使用以下步骤:
- 使用以下命令停止 hostd 服务:
/etc/init.d/hostd stop。
- 使用以下命令卸载防火墙模块:
esxcli network firewall unload。
- 执行所需的操作。
- 使用以下命令加载防火墙模块:
esxcli network firewall load。
- 使用以下命令启动 hostd 服务:
/etc/init.d/hostd start。
- 由于网络文件复制 (NFC) 管理器的会话未经身份验证,vSphere Storage vMotion 操作在 vSAN 环境中可能会失败
如果虚拟机至少具有一个快照和多个虚拟磁盘,但使用不同的存储策略,则使用 vSphere Storage vMotion 将这些虚拟机迁移到 vSAN 数据存储可能会失败。出现此问题的原因是,由于简单对象访问协议 (SOAP) 正文超出允许的大小,导致 NFC 管理器的会话未经身份验证。
解决办法:先迁移虚拟机主页命名空间,并且仅迁移其中一个虚拟磁盘。此操作完成后,对剩余的 2 个磁盘执行仅磁盘迁移。
- ESXi 主机上设备与存储的属性和特性更改在重新引导后可能不会保留
如果在重新引导 ESXi 主机的过程中设备发现例程超时,则 jumpstart 插件可能不会从主机上所有已注册的设备收到设备和存储的所有配置更改。因此,重新引导后,该过程可能会将某些设备或存储的属性还原到默认值。
解决办法:手动还原受影响设备或存储的属性更改。
- 如果使用的是 ESXi 7.0 的内部测试版本,则在某些生命周期操作期间,ESXi 主机可能会出现故障并显示紫色诊断屏幕
如果使用的是 ESXi 7.0 的内部测试版,在某些生命周期操作(例如卸载驱动程序或在 ENS 模式和本机驱动程序模式之间切换)期间,ESXi 主机可能会出现故障并显示紫色诊断屏幕。例如,如果您尝试更改 ENS 模式,在回溯追踪中,您会看到类似以下内容的错误消息:case ENS::INTERRUPT::NoVM_DeviceStateWithGracefulRemove hit BlueScreen: ASSERT bora/vmkernel/main/dlmalloc.c:2733
此问题特定于内部测试版本,不会影响 ESXi 7.0 等发行版。
解决办法:更新到 ESXi 7.0 GA。
- 由于摘要操作失败错误,无法创建虚拟机的快照
在更新基于内容的读缓存 (CBRC) 摘要文件期间出现全部路径异常 (APD) 状态时,罕见的争用情况可能会导致摘要文件中出现不一致问题。因此,无法创建虚拟机快照。您会在回溯追踪中看到诸如 An error occurred while saving the snapshot: A digest operation has failed
之类的错误。
解决办法:重新启动虚拟机以触发重新计算 CBRC 哈希,并清除摘要文件中的不一致问题。
- 如果将 ESXi 主机升级到版本 7.0 Update 3,但您的 vCenter Server 为早期版本,则 ESXi 主机的可信平台模块 (TPM) 证明将失败
如果将 ESXi 主机升级到版本 7.0 Update 3,但您的 vCenter Server 为早期版本,则启用 TPM 时,ESXi 主机将无法通过证明。在 vSphere Client 中,将显示警告“主机 TPM 证明警报 (Host TPM attestation alarm)”。ESXi 7.0 Update 3 中引入的椭圆曲线数字签名算法 (ECDSA) 会导致 vCenter Server 版本不是 7.0 Update 3 时出现该问题。
解决办法:将 vCenter Server 升级到 7.0 Update 3 或确认警报。
- 引导加载程序屏幕中显示有关 TPM 资产标记的警告
如果启用了 TPM 的 ESXi 主机上未设置资产标记,则引导加载程序屏幕中可能会显示闲置警告消息,例如:
无法确定 TPM 资产标记大小: 缓冲区太小 (Failed to determine TPM asset tag size: Buffer too small)
无法在 TPM 中衡量资产标记: 缓冲区太小 (Failed to determine TPM asset tag size: Buffer too small)
解决办法:忽略警告或使用命令 $ esxcli hardware tpm tag set -d
设置资产标记
- Sensord 守护进程无法报告 ESXi 主机硬件状态
IPMI SDR 验证中的逻辑错误可能会导致 sensord
无法识别电源信息的源。因此,在运行命令 vsish -e get /power/hostStats
时,可能看不到任何输出。
解决办法:无
- 如果 ESXi 主机出现故障并显示紫色诊断屏幕,则 netdump 服务可能会停止运行
在极少数情况下,如果 ESXi 主机出现故障并显示紫色诊断屏幕,则 netdump 服务可能会失败并显示错误,例如 NetDump 失败: 无法连接到 IP x.x.x.x 的转储服务器 (NetDump FAILED: Couldn't attach to dump server at IP x.x.x.x)
。
解决办法:将 VMkernel 核心转储配置为使用本地存储。
- 在多个 ESXi 主机上频繁看到 VMware 故障域管理器 (FDM) 核心转储
在某些环境中,数据存储的数量可能会超出 FDM 文件描述符限制。因此,您会在多个 ESXi 主机上频繁看到核心转储,这表明 FDM 出现故障。
解决办法:将 FDM 文件描述符限制增加到 2048。可以使用 vSphere Client 中 vSphere HA 高级选项的设置 das.config.fdm.maxFds
。有关详细信息,请参见设置高级选项。
- 在 VLAN 传输区域中启用了 NSX-T 和融合 vSphere Distributed Switch (CVDS) 的 vSAN 集群上的虚拟机在关闭电源后无法打开电源
如果辅助站点的磁盘已满 95%,并且在模拟辅助站点故障之前虚拟机关闭了电源,则在恢复期间,某些虚拟机将无法打开电源。因此,虚拟机变得无响应。无论站点恢复是否包括添加磁盘、ESXi 主机或 CPU 容量,都会出现此问题。
解决办法:选择未打开电源的虚拟机,然后从虚拟机上下文菜单上的“编辑设置”将网络更改为虚拟机网络。
- 如果修改 nmlx5_core 驱动程序的 netq_rss_ens 参数,ESXi 主机可能会出现故障并显示紫色诊断屏幕
如果在 nmlx5_core
驱动程序上配置增强型数据路径时尝试启用 netq_rss_ens
参数,ESXi 主机可能会出现故障并显示紫色诊断屏幕。用于启用 NetQ RSS 的 netq_rss_ens
参数默认处于禁用状态,值为 0
。
解决办法:保持 nmlx5_core
驱动程序中 netq_rss_ens
模块参数的默认值。
- 由于内置 i40enu 网络驱动程序名称已更改,升级到 ESXi 7.0 Update 3 可能会失败
从 vSphere 7.0 Update 3 开始,适用于 ESXi 的内置 i40enu 网络驱动程序将名称更改回 i40en。i40en 驱动程序在 vSphere 7.0 Update 2 中已重命名为 i40enu,但此项更名影响了某些升级路径。例如,将使用基准和基准组管理的 ESXi 主机从 7.0 Update 2 或 7.0 Update 2a 滚动升级到 7.0 Update 3 失败。在大多数情况下,i40enu 驱动程序无需执行任何其他步骤即可升级到 ESXi 7.0 Update 3。但是,如果驱动程序升级失败,则无法更新使用基准和基准组管理的 ESXi 主机。也无法使用主机种子设定或 vSphere Lifecycle Manager 单个映像管理 ESXi 主机。如果已对系统中的 i40enu 驱动程序和设备进行了更改,则在升级到 ESXi 7.0 Update 3 之前,必须先卸载 ESXi 上的 i40enu VIB 或组件,或者先将 ESXi 升级到 ESXi 7.0 Update 2c。
解决办法:有关详细信息,请参见 VMware 知识库文章 85982。
- 如果为虚拟机配置的 NVDIMM 大小小于 16 MB,则初始化新磁盘时,该虚拟机的 Windows 客户机操作系统可能会出现故障
如果为 Windows 虚拟机配置的 NVDIMM 大小小于 16 MB,则在尝试初始化新磁盘时,可能会看到客户机操作系统出现故障并显示蓝色诊断屏幕或在“磁盘管理”屏幕的弹出窗口中显示错误消息。在 Windows 10、Windows Server 2022 和 Windows 11 v21H2 客户机操作系统中出现蓝色诊断屏幕问题。
解决办法:将虚拟 NVDIMM 的大小增加到 16 MB 或更大。
- 如果使用版本低于 6.6 的 vSphere Distributed Switch (VDS),则更改 LAG 哈希算法时,ESXi 主机可能会出现故障并显示紫色诊断屏幕
如果在 vSphere 7.0 Update 1 或更高版本的系统上使用版本低于 6.6 的 VDS,则更改 LAG 哈希算法(例如从 L3 更改为 L2 哈希)时,ESXi 主机可能会出现故障并显示紫色诊断屏幕。
解决办法:将 VDS 升级到版本 6.6 或更高版本。
- 从某些库到 vSphere 的 HTTP 请求可能被拒绝
vSphere 7.0 中的 HTTP 反向代理强制实施比以前版本更严格的标准合规性。这可能导致在应用程序用于对 vSphere 执行 SOAP 调用的某些第三方库中出现预先存在的问题。
如果您开发使用此类库的 vSphere 应用程序,或者在 vSphere 堆栈中包含依赖于此类库的应用程序,那么当这些库向 VMOMI 发送 HTTP 请求时,可能会遇到连接问题。例如,从 vijava 库发出的 HTTP 请求可能采用以下形式:
POST /sdk HTTP/1.1
SOAPAction
Content-Type: text/xml; charset=utf-8
User-Agent: Java/1.8.0_221
此示例中的语法违反了在 SOAPAction 后必须使用冒号的 HTTP 协议标头字段要求。因此,请求在执行时被拒绝。
解决办法:在应用程序中利用不合规库的开发人员可以考虑改为使用遵循 HTTP 标准的库。例如,使用 vijava 库的开发人员可以考虑改为使用最新版本的 yavijava 库。
- 使用 Broadcom 驱动程序 lsi_msgpt3、lsi_msgpt35 和 lsi_mr3 时,可能会显示转储文件
使用 lsi_msgpt3、lsi_msgpt35 和 lsi_mr3 控制器时,存在显示转储文件 lsuv2-lsi-drivers-plugin-util-zdump 的潜在风险。退出此插件实用程序中使用的 storelib 时出现问题。对 ESXi 操作没有任何影响,可以忽略该转储文件。
解决办法:可放心地忽略此消息。可以使用以下命令移除 lsuv2-lsi-drivers-plugin:
esxcli software vib remove -n lsuv2-lsiv2-drivers-plugin
- 在 vCenter 中配置 PCI 设备的 SR-IOV 后,您可能会看到不需要重新引导,但第三方扩展执行的设备配置可能会丢失,需要重新引导才能重新应用。
在 ESXi 7.0 中,无需重新引导即可应用 SR-IOV 配置,并重新加载设备驱动程序。ESXi 主机可能让第三方扩展执行设备配置,这些配置需要在引导期间加载设备驱动程序后运行。要使这些第三方扩展重新应用设备配置,需要重新引导。
解决办法:在配置 SR-IOV 以应用第三方设备配置后,必须重新引导。