为确保获得最佳 vSphere HA 群集性能,您应遵循某些最佳做法。本主题重点介绍适用于 vSphere HA 群集的一些主要的最佳做法。您也可以参考出版物《vSphere High Availability 部署最佳做法》了解更多信息。

将警报设置为监控群集更改

当 vSphere HA 或 Fault Tolerance 执行用于维护可用性的操作时(例如,虚拟机故障切换),可能会向您通知此类更改。将 vCenter Server 中的警报配置为在执行这些操作时触发,并向指定的一组管理员发送警示(如电子邮件)。

提供多个默认的 vSphere HA 警报。

  • 故障切换资源不足(群集警报)

  • 找不到主机(群集警报)

  • 正在进行故障切换(群集警报)

  • 主机 HA 状态(主机警报)

  • VM 监控错误(虚拟机警报)

  • 虚拟机监控操作(虚拟机警报)

  • 故障切换失败(虚拟机警报)

注:

默认的警报包括功能名称 vSphere HA。

监控群集有效性

有效群集是尚未违反接入控制策略的群集。

当已打开电源的虚拟机数超过了故障切换需求,即当前故障切换容量小于所配置的故障切换容量时,已启用 vSphere HA 的群集将会变为无效。如果禁用了接入控制,则群集不会变为无效。

vSphere Web Client 中,从群集的监控选项卡中选择 vSphere HA,然后选择配置问题。此时会显示当前 vSphere HA 问题的列表。

如果群集是由于 vSphere HA 问题而变为红色的,则 DRS 行为不会受到影响。

混合群集中的 vSphere HA 和 Storage vMotion 互操作性

在包含 ESXi 5.x 主机和 ESX/ESXi 4.1 或旧版主机,且广泛使用 Storage vMotion 或启用了 Storage DRS 的群集中,请勿部署 vSphere HA。vSphere HA 可能通过在某个 ESXi 版本(不同于出现故障前运行虚拟机的主机版本)的主机上重新启动虚拟机来响应主机故障。如果出现故障时虚拟机被卷进 ESXi 5.x 主机上的 Storage vMotion 操作,而且 vSphere HA 在低于 ESXi 5.0 版本的主机上重新启动虚拟机,则会出现问题。虽然虚拟机可能打开电源,但针对快照操作的任何后续尝试都可能会使 vdisk 状态遭到损坏并导致虚拟机不可用。

接入控制最佳做法

以下建议是 vSphere HA 接入控制的最佳做法。

  • 选择“预留的群集资源的百分比”接入控制策略。该策略在主机和虚拟机所需空间方面提供了极高的灵活性。配置此策略时,选择 CPU 和内存的百分比以反映要支持的主机故障数。例如,如果希望 vSphere HA 为两个主机故障留出资源,并且群集中包含十个具有相同容量的主机,则可以指定 20% (2/10)。

  • 确保设置的所有群集主机大小相等。对于“群集允许的主机故障数目”策略,不平衡的群集会导致预留过多容量来处理故障,因为 vSphere HA 为最大的主机预留容量。对于“群集资源的百分比”策略,不平衡的群集要求指定的百分比大于在平衡群集情况下为预期主机故障数预留足够容量所需的百分比。

  • 如果计划使用“群集允许的主机故障数目”策略,请尝试在所有配置的虚拟机间保持相似的虚拟机大小要求。该策略使用插槽大小来计算需要为每个虚拟机预留的容量。插槽大小取决于任一虚拟机需要的最大预留内存和 CPU。当混用 CPU 和内存要求不同的多个虚拟机时,插槽大小计算将默认为最大可能值(限制整合)。

  • 如果您计划使用“指定故障切换主机”策略,请确定要支持的主机故障数,然后将该主机数指定为故障切换主机数。如果群集不平衡,则指定的故障切换主机至少应与群集中的非故障切换主机具有相同的大小。这可确保在万一出现故障时有足够的容量。

将 Auto Deploy 与 vSphere HA 配合使用

可以将 vSphere HA 与 Auto Deploy 配合使用来提高虚拟机的可用性。Auto Deploy 可在打开主机电源时置备这些主机,您还可以将其配置为在引导过程中于这些主机上安装 vSphere HA 代理。有关详细信息,请参见《vSphere 安装和设置》中的 Auto Deploy 文档。

使用 Virtual SAN 升级群集中的主机

如果要将 vSphere HA 群集中的 ESXi 主机升级到版本 5.5 或更高版本,而且还计划使用 Virtual SAN,请按以下过程执行操作。

  1. 升级所有主机。

  2. 禁用 vSphere HA。

  3. 启用 Virtual SAN。

  4. 重新启用 vSphere HA。