vCenter 适配器可提供警示定义,用于生成有关环境中的主机系统对象的警示。

基于运行状况/症状

这些警示定义具有以下影响和严重程度信息。

影响

运行状况

严重程度

基于症状

警示定义

症状

建议

主机存在由少数虚拟机导致的 CPU 争用。

症状包括以下所有内容:

  • ! 群集内的主机

  • 主机 CPU 争用处于警告/紧急/严重级别

  • > 0 个子虚拟机存在 [虚拟机 CPU 需求处于警告/紧急/严重级别] 的情况

  • <= 50% 的子虚拟机存在 [虚拟机 CPU 需求处于警告/紧急/严重级别] 的情况

使用 vSphere vMotion 将一些具有高 CPU 工作负载的虚拟机迁移至其他具有可用 CPU 容量的主机。

主机存在由多数虚拟机导致的 CPU 争用。

症状包括以下全部内容:

  • !群集内的主机

  • 主机 CPU 争用处于警告/紧急/严重级别

  • 主机 CPU 需求处于警告/紧急/严重级别

  • > 50% 的子虚拟机存在 [虚拟机 CPU 需求处于警告/紧急/严重级别] 的情况

  1. 使用 vSphere vMotion 将一些具有高 CPU 工作负载的虚拟机迁移至其他具有可用 CPU 容量的主机。

  2. 升级主机或使用具有更大 CPU 容量的主机。

由于虚拟机群过多,主机存在 CPU 争用。

症状包括以下全部内容:

  • !群集内的主机

  • 主机 CPU 争用处于警告/紧急/严重级别

  • 主机 CPU 需求处于警告/紧急/严重级别

  • 零个子虚拟机存在 [虚拟机 CPU 需求处于警告/紧急/严重级别] 的情况

  1. 使用 vSphere vMotion 将一些具有高 CPU 工作负载的虚拟机迁移至其他具有可用 CPU 容量的主机。

  2. 升级主机或使用具有更大 CPU 容量的主机。

非 DRS 群集中的主机存在由少数虚拟机导致的 CPU 争用。

症状包括以下全部内容:

  • 群集内的主机

  • [ ! 已启用 DRS 或 ! 全自动 DRS ]

  • 主机 CPU 争用处于警告/紧急/严重级别

  • > 0 个子虚拟机存在 [虚拟机 CPU 需求处于警告/紧急/严重级别] 的情况

  • <= 50% 的子虚拟机存在 [虚拟机 CPU 需求处于警告/紧急/严重级别] 的情况

使用 vSphere vMotion 将一些具有高 CPU 工作负载的虚拟机迁移至其他具有可用 CPU 容量的主机。

非 DRS 群集中的主机存在由多数虚拟机导致的 CPU 争用。

症状包括以下全部内容:

  • 群集内的主机

  • [ !已启用 DRS 或 !全自动 DRS ]

  • 主机 CPU 争用处于警告/紧急/严重级别

  • 主机 CPU 需求处于警告/紧急/严重级别

  • > 50% 的子虚拟机存在 [虚拟机 CPU 需求处于警告/紧急/严重级别] 的情况

  1. 使用 vSphere vMotion 将一些具有高 CPU 工作负载的虚拟机迁移至其他具有可用 CPU 容量的主机。

  2. 升级主机或使用具有更大 CPU 容量的主机。

由于虚拟机群过多,非 DRS 群集中的主机存在 CPU 争用。

症状包括以下全部内容:

  • 群集内的主机

  • [ !已启用 DRS 或 !全自动 DRS ]

  • 主机 CPU 争用处于警告/紧急/严重级别

  • 主机 CPU 需求处于警告/紧急/严重级别

  • 零个子虚拟机存在 [虚拟机 CPU 需求处于警告/紧急/严重级别] 的情况

  1. 使用 vSphere vMotion 将一些具有高 CPU 工作负载的虚拟机迁移至其他具有可用 CPU 容量的主机。

  2. 升级主机或使用具有更大 CPU 容量的主机。

主机存在由少数虚拟机导致的内存争用。

症状包括以下全部内容:

  • !群集内的主机

  • 主机内存争用处于警告/紧急/严重级别

  • > 0 个子虚拟机存在 [虚拟机内存工作负载处于警告/紧急/严重级别] 的情况

  • <= 50% 的子虚拟机存在 [虚拟机内存工作负载处于警告/紧急/严重级别] 的情况

使用 vSphere vMotion 将一些具有高内存工作负载的虚拟机迁移到具有可用内存容量的其他主机。

主机存在由多数虚拟机导致的内存争用。

症状包括以下全部内容:

  • !群集内的主机

  • 主机内存工作负载处于警告/紧急/严重级别

  • 主机内存争用处于警告/紧急/严重级别

  • > 50% 的子虚拟机存在 [虚拟机内存工作负载处于警告/紧急/严重级别] 的情况

  1. 使用 vSphere vMotion 将一些具有高内存工作负载的虚拟机迁移到具有可用内存容量的其他主机。

  2. 升级主机以使用具有更大内存容量的主机。

由于虚拟机群过多,主机存在内存争用。

症状包括以下全部内容:

  • !群集内的主机

  • 主机内存工作负载处于警告/紧急/严重级别

  • 主机内存争用处于警告/紧急/严重级别

  • 零个子虚拟机存在 [虚拟机内存工作负载处于警告/紧急/严重级别] 的情况

  1. 使用 vSphere vMotion 将一些具有高内存工作负载的虚拟机迁移到具有可用内存容量的其他主机。

  2. 升级主机或使用具有更大内存容量的主机。

非 DRS 群集中的主机存在由少数虚拟机导致的内存争用。

症状包括以下全部内容:

  • 群集内的主机

  • [ !已启用 DRS 或 !全自动 DRS ]

  • 主机内存争用处于警告/紧急/严重级别

  • > 0 个子虚拟机存在 [虚拟机内存工作负载处于警告/紧急/严重级别] 的情况

  • <= 50% 的子虚拟机存在 [虚拟机内存工作负载处于警告/紧急/严重级别] 的情况

使用 vSphere vMotion 将一些具有高内存工作负载的虚拟机迁移到具有可用内存容量的其他主机。

非 DRS 群集中的主机存在由多数虚拟机导致的内存争用。

症状包括以下全部内容:

  • 群集内的主机

  • [ !已启用 DRS 或 !全自动 DRS ]

  • 主机内存工作负载处于警告/紧急/严重级别

  • 主机内存争用处于警告/紧急/严重级别

  • > 50% 的子虚拟机存在 [虚拟机内存工作负载处于警告/紧急/严重级别] 的情况

  1. 使用 vSphere vMotion 将一些具有高内存工作负载的虚拟机迁移到具有可用内存容量的其他主机。

  2. 升级主机或使用具有更大内存容量的主机。

由于虚拟机群过多,非 DRS 群集中的主机存在内存争用。

症状包括以下全部内容:

  • 群集内的主机

  • [ !已启用 DRS 或 !全自动 DRS ]

  • 主机内存工作负载处于警告/紧急/严重级别

  • 主机内存争用处于警告/紧急/严重级别

  • 零个子虚拟机存在 [虚拟机内存工作负载处于警告/紧急/严重级别] 的情况

  1. 使用 vSphere vMotion 将一些具有高内存工作负载的虚拟机迁移到具有可用内存容量的其他主机。

  2. 升级主机或使用具有更大内存容量的主机。

主机出现丢弃大量已接收的数据包问题。

症状包括以下全部内容:

  • 主机网络丢弃的已接收数据包

  • 主机网络丢弃的已接收数据包高于 DT

  • 主机网络数据接收工作负载处于警告级别

  • 主机网络数据接收工作负载高于 DT

  • 主机 CPU 需求处于严重级别

  1. 如果主机具有 1 个 CPU,请升级主机或使用具有更大 CPU 容量的主机。

  2. 向主机添加其他网卡。

  3. 通过将部分网络流量转移到网络流量较低的主机来降低虚拟机生成的网络流量。

主机出现丢弃大量已传输的数据包问题。

症状包括以下全部内容:

  • 主机网络丢弃的已传输数据包

  • 主机网络丢弃的已传输数据包高于 DT

  • 主机网络数据传输工作负载处于警告级别

  • 主机网络数据传输工作负载高于 DT

  • 主机正在丢弃大量数据包

  1. 向主机添加其他网卡。

  2. 通过将部分网络流量转移到网络流量较低的主机来降低虚拟机生成的网络流量。

ESXi 主机检测到物理网卡上的链路状态“抖动”。

物理网卡链接状态不稳定(故障症状)。

ESXi 将禁用设备以避免链接不稳定状态。您可能需要更换此物理网卡。当修复网卡且网卡正常运行后,警示将被取消。如果更换物理网卡,您可能需要手动取消警示。

ESXi 主机检测到物理网卡上的链路状态关闭。

物理网卡链接状态关闭(故障症状)。

ESXi 将禁用设备以避免链接不稳定状态。您可能需要更换此物理网卡。当修复网卡且网卡正常运行后,警示将被取消。如果更换物理网卡,您可能需要手动取消警示。

电池传感器正在报告问题。

  • 电池传感器运行状况显示红色或

  • 电池传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

BMC 传感器正在报告问题。

  • BMC 传感器运行状况显示红色或

  • BMC 传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

风扇传感器正在报告问题。

  • 风扇传感器运行状况显示红色或

  • 风扇传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

硬件传感器正在报告问题。

  • 硬件传感器运行状况显示红色或

  • 硬件传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

内存传感器正在报告问题。

  • 内存传感器运行状况显示红色或

  • 内存传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

电源传感器正在报告问题。

  • 电源传感器运行状况显示红色或

  • 电源传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

处理器传感器正在报告问题。

  • 处理器传感器运行状况显示红色

  • 处理器传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

SEL 传感器正在报告问题。

  • SEL 传感器运行状况显示红色或

  • SEL 传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

存储传感器正在报告问题。

  • 存储传感器运行状况显示红色或

  • 存储传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

系统主板传感器正在报告问题。

  • 系统主板传感器运行状况显示红色或

  • 系统主板传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

温度传感器正在报告问题。

  • 温度传感器运行状况显示红色或

  • 温度传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

电压传感器正在报告问题。

  • 电压传感器运行状况显示红色或

  • 电压传感器运行状况显示黄色

如有必要,请更改或替换该硬件。请联系硬件供应商获取帮助。问题解决后,当报告该问题的传感器指示该问题不再存在时,警示将被取消。

运行状况/严重

这些警示定义具有以下影响和严重程度信息。

影响

运行状况

严重程度

严重

警示定义

症状

建议

主机已丢失与 vCenter 的连接。

  • 与主机的连接已丢失(故障症状)或

  • 主机已断开与 vCenter 的连接

登录到 vSphere ClientvSphere Web Client,手动将主机重新连接到 vCenter Server 服务器。当 vCenter Server 与主机的连接还原后,警示将取消。

vSphere High Availability (HA) 已检测到网络隔离的主机。

vSphere HA 已检测到网络隔离的主机(故障症状)。

解决阻止主机 Ping 其隔离地址并与其他主机通信的网络问题。请确保 vSphere HA 使用的管理网络包含冗余。存在冗余时,vSphere HA 可以通过多条路径进行通信,从而减少主机隔离的几率。

vSphere High Availability (HA) 已检测到可能的的主机故障。

vSphere HA 已检测到主机故障(故障症状)。

请找到 IP 地址重复的计算机,重新配置此计算机,使其具有不同的 IP 地址。当潜在问题解决后,此故障将清除且警示取消,vSphere HA 主代理能够连接到主机上的 HA 代理。

注:

您可以使用 /var/log/vmkernel 日志文件(位于 ESX 主机)或 /var/log/messages 日志文件(位于 ESXi 主机)中的“重复的 IP”警告,以确定 IP 地址重复的计算机。

由于流量过多,主机出现网络争用。

症状包括以下全部内容:

  • 主机出现网络数据包丢弃

  • 处于警告/紧急/严重级别的主机网络工作负载

  1. 查看端口组和 vSwitch 中的负载平衡策略。

  2. 向主机添加其他网卡。

  3. 通过将部分网络流量转移到网络流量较低的主机来降低虚拟机生成的网络流量。

主机已丢失与 dvPort 的连接。

与 dvPort 的网络连接丢失(故障症状)。

替换物理适配器或重置物理交换机。与 dvPort 的连接还原后,警示将被取消。

主机已丢失与物理网络的连接。

网络连接丢失(故障症状)。

要确定实际故障或消除可能出现的问题,请在 vSphere Client 中或通过 ESX 服务控制台检查 vmnic 的状态:

  • 要在 vSphere Client 中检查状态,请选择 ESX 主机,单击配置,然后单击网络。此时图表中将显示当前已分配给虚拟交换机的 vmnic。如果 vmnic 显示红色 X,则表示此链接当前已断开。

  • 从服务控制台运行以下命令:esxcfg-nics输出结果与下述类似:Name PCI Driver Link Speed Duplex Description ------------------------------------------------------------------ vmnic0 04:04.00 tg3 Up 1000Mbps Full Broadcom BCM5780 Gigabit Ethernet vmnic1 04:04.01 tg3 Up 1000Mbps Full Broadcom BCM5780 Gigabit Ethernet. “链接”列将显示网络适配器和物理交换机之间的链接的状态。此状态可能是“已连接”或“已断开”。如果部分网络适配器已连接而其他网络适配器处于断开状态,您可能需要验证适配器是否已连接到预期的物理交换机端口。要验证连接,请关闭物理交换机上的每个 ESX 主机端口,运行 esxcfg-nics -l",然后观察受影响的 vmnic。

验证警示中标识的 vmnic 是否仍然与交换机连接,并且是否已正确配置:

  • 确保网络电缆仍然与交换机和主机相连接。

  • 确保交换机与系统连接,仍然正常工作,并且没有无意地配置错误。有关详细信息,请参见交换机文档。

  • 检查物理交换机和 vmnic 之间的活动。您可以通过执行网络跟踪或观察活动 LED 来检查活动。

  • 检查物理交换机上的网络端口设置。

如果受影响的 vmnic 与服务控制台相关联并要重新配置服务控制台 IP 地址,请参见 http://kb.vmware.com/kb/1000258 如果问题由您的硬件引起,请联系硬件供应商进行更换。

主机丢失与网络文件系统 (NFS) 服务器的连接。

失去与 NFS 服务器的连接(故障症状)。

  1. 请确认 NFS 服务器是否正在运行。

  2. 检查网络连接以确保 ESX 主机可以连接到 NFS 服务器。

  3. 确定使用同一 NFS 挂载的其他主机是否存在相同的问题,并检查 NFS 服务器的状态和共享点。

  4. 请确保登录服务控制台并使用 vmkping 来 ping 该 NFS 服务器后,可以访问 NFS 服务器:“vmkping <nfs server>”。

  5. 有关高级故障排除的信息,请参见 http://kb.vmware.com/kb/1003967

在系统重新引导期间,PCIe 总线上出现严重错误。

出现了严重的 PCIe 错误。

检查并更换警示中确定为引起该问题原因的 PCIe 设备。请联系供应商获取帮助。

在系统引导时检测到一个严重的内存错误。

出现了严重的内存错误。

更换出现故障的内存或联系供应商。

运行状况/紧急

这些警示定义具有以下影响和严重程度信息。

影响

运行状况

严重程度

紧急

警示定义

症状

建议

主机已丢失与 dvPort 的冗余连接。

与 DVPort 的网络冗余丢失(故障症状)。

替换物理适配器或重置物理交换机。与 DVPort 的连接还原后,警示将被取消。

主机已丢失到网络的冗余上行链路。

网络连接冗余(故障症状)。

要确定实际故障或消除可能出现的问题,请先通过 SSH 或控制台连接到 ESX:

  1. 通过运行 esxcfg-nics -l 识别可用上行链路。

  2. 通过运行 esxcfg-vswitch -U &lt;affected vmnic#&gt 受影响的 vSwitch 从端口组中移除报告的 vmnic。

  3. 通过运行 esxcfg-vswitch -L &lt;available vmnic#&gt; 受影响的 vSwitch,将可用上行链路链接到受影响的端口组。

然后,在 vSphere Client 中或 ESX 服务控制台中检查 vmnic 的状态:

  1. vSphere Client 中,请选择 ESX 主机,单击配置,然后单击网络

    此时图表中将显示当前已分配给虚拟交换机的 vmnic。如果 vmnic 显示红色 X,则表示此链接当前不可用。

  2. 从服务控制台运行 esxcfg-nics -l。显示的输出与以下内容类似:Name PCI Driver Link Speed Duplex Description.

------------------------------------------------------------------ vmnic0 04:04.00 tg3 Up 1000Mbps Full Broadcom BCM5780 Gigabit Ethernet vmnic1 04:04.01 tg3 Up 1000Mbps Full Broadcom BCM5780 Gigabit Ethernet. “链接”列将显示网络适配器和物理交换机之间的链接的状态。此状态可能是“已连接”或“已断开”。如果部分网络适配器已连接而其他网络适配器处于断开状态,您可能需要验证适配器是否已连接到预期的物理交换机端口。要验证连接,请关闭物理交换机上的每个 ESX 主机端口,运行“esxcfg-nics -l”命令,然后观察受影响的 vmnic。验证警示中标识的 vmnic 是否仍然与交换机连接,并且是否已正确配置:

  1. 确保网络电缆仍然与交换机和主机相连接。

  2. 确保交换机与系统连接,仍然正常工作,并且没有无意地配置错误。(请参见交换机文档。)

  3. 执行网络跟踪或观察活动 LED 来检查物理交换机与 vmnic 之间的活动。

  4. 检查物理交换机上的网络端口设置。

    如果问题由硬件所致,请联系硬件供应商更换硬件。

系统引导期间出现 PCIe 错误,但该错误可恢复。

出现了可恢复的 PCIe 错误。

PCIe 错误是可恢复的,但系统行为取决于 OEM 供应商固件处理错误的方式。请联系供应商获取帮助。

主机上出现可恢复的内存错误。

出现了可恢复的内存错误。

由于可恢复的内存错误因供应商而异,因此请联系供应商以获取帮助。

基于风险/症状

这些警示定义具有以下影响和严重程度信息。

影响

风险

严重程度

基于症状

警示定义

症状

建议

ESXi 主机违反了《vSphere 5.5 强化指南》中的规定。

  • 已禁用 Active Directory 身份验证或

  • NTP 服务启动策略不合规或

  • SSH 服务正在运行或

  • NTP 服务已停止或

  • 自动禁用本地和远程 shell 访问权限的超时值不合规或

  • vSphere 添加 ESXi 主机时,不要使用 vSphere Authentication Proxy 保护密码或

  • 已禁用持久日志记录或

  • 已禁用对 iSCSI 流量的双向 CHAP 或

  • 限制对 NTP 客户端访问的防火墙设置不合规或

  • 未配置用于时间同步的 NTP 服务器或

  • ESXi Shell 服务启动策略不合规或

  • 限制对 SNMP 服务器访问的防火墙设置不合规或

  • ESXi Shell 服务正在运行或

  • DCUI 服务启动策略不合规或

  • Dvfilter 绑定 IP 地址已配置或

  • SSH 服务启动策略不合规或

  • DCUI 服务正在运行或

  • 交互式 shell 自动注销之前的闲置时间不合规或

  • DCUI 访问用户列表不合规或

  • 远程 syslog 未启用

根据《vSphere5 强化指南》中的建议解决《vSphere 5.5 强化指南》规则冲突。