请遵守以下针对主机网卡配置和 vSphere HA 的网络拓扑的最佳做法。最佳做法包括对 ESXi 主机的建议,以及对电缆、交换机、路由器和防火墙的建议。

网络配置和维护

下列网络维护建议可以帮助您避免对由于丢失 vSphere HA 检测信号而发生故障的主机和网络隔离的意外检测。

  • 更改集群 ESXi 主机所在网络时,请挂起主机监控功能。更改网络硬件或网络设置会中断 vSphere HA 用于检测主机故障的检测信号,这可能导致不必要的虚拟机故障切换尝试。
  • ESXi 主机上更改网络连接配置时(例如,添加端口组或移除 vSwitch),请挂起主机监控。在对网络连接配置进行更改之后,您必须在集群中的所有主机上重新配置 vSphere HA,从而能够重新检查网络信息。然后重新启用主机监控。
注: 由于网络是 vSphere HA 的一个重要组件,因此,如果必须执行网络维护,请通知 vSphere HA 管理员。

用于 vSphere HA 通信的网络

要标识哪些网络操作可能会中断 vSphere HA 的运行,必须了解哪些管理网络用于检测信号和其他 vSphere HA 通信。

  • 在集群中的旧版 ESX 主机上,vSphere HA 通信通过被指定为服务控制台网络的所有网络进行传输。这些主机没有将 VMkernel 网络用于 vSphere HA 通信。要在 ESX 控制台网络子集中包含 vSphere HA 流量,请使用 allowedNetworks 高级选项。
  • 在集群中的 ESXi 主机上,默认情况下,vSphere HA 通信通过 VMkernel 网络进行传输。在 ESXi 主机上,如果不使用 vCenter Server 所用的网络与 vSphere HA 主机进行通信,您必须明确启用管理流量复选框。

要保留已指定网络上的 vSphere HA 代理流量,请配置主机,以便 vSphere HA 所使用的 vmkNIC 不会与用于其他用途的 vmkNIC 共享子网。如果至少为 vSphere HA 管理流量配置了一个 vmkNIC,则 vSphere HA 代理将使用与给定子网关联的任一 pNIC 发送数据包。因此,要确保网络流量分离,vSphere HA 以及其他功能所使用的 vmkNIC 必须位于不同的子网上。

网络隔离地址

网络隔离地址是要 ping 的 IP 地址,以确定主机是否与网络隔离。只有当主机已停止从集群内的任何其他主机接收检测信号时才 ping 此地址。如果主机可以 ping 其网络隔离地址,则说明该主机并未与网络隔离,并且集群内的其他主机已出现故障或网络分区。但是,如果主机无法 ping 其隔离地址,则可能该主机已与网络隔离,并且不会执行故障切换操作。

默认情况下,网络隔离地址是主机的默认网关。无论已定义多少个管理网络,都只会指定一个默认网关。使用 das.isolationaddress[...] 高级选项为其他网络添加隔离地址。请参见vSphere HA 高级选项

网络路径冗余

集群节点之间的网络路径冗余对 vSphere HA 可靠性非常重要。单个管理网络会最终成为单一故障点,并且,尽管只有该网络出现故障,仍可能会导致故障切换。如果仅有一个管理网络,那么在网络连接故障期间未保留检测信号数据存储连接时主机和集群之间的任何故障都可能会导致不必要(或错误)的故障切换活动。可能的故障包括网卡故障、网络电缆故障、网络电缆移除和交换机重置。考虑主机可能导致故障的上述原因,然后尝试减少这些问题(通常通过提供网络冗余来实现此目的)。

实现网络冗余的首选方法是在网卡级别使用网卡绑定。如果用两个连接到不同物理交换机的网卡组成一个网卡组,则可以提高管理网络的可靠性。因为通过两个网卡(并且通过单独的交换机)连接的服务器具有两条独立的路径来发送和接收检测信号,所以集群具有更好的弹性。要为管理网络配置网卡组,请在活动或待机配置的 vSwitch 配置中配置 vNIC。推荐的 vNIC 参数设置如下:

  • 默认的负载均衡 = 基于源虚拟端口 ID 的路由
  • 故障恢复 = 否

在为 vSphere HA 集群中的一个主机添加网卡之后,必须在该主机上重新配置 vSphere HA。

在大多数实现中,网卡绑定可以提供足够的检测信号冗余,但是除此之外,您还可以创建一个连接到单独虚拟交换机的辅助管理网络连接。冗余管理网络连接能够可靠地检测故障并防止出现隔离或分区的情况,因为检测信号可以通过多个网络发送。原始管理网络连接用于网络和管理。辅助管理网络连接创建之后,vSphere HA 会同时通过两种管理网络连接发送检测信号。如果一条路径发生故障,vSphere HA 仍可通过另一条路径发送和接收检测信号。

注: 在集群内的服务器之间尽量少配置硬件分段,目的是为了限制单一故障点。此外,跃点过多的路由可能会导致检测信号的网络数据包延迟,并增加潜在的故障点数目。

使用 IPv6 网络配置

只能向 vSphere HA 集群使用的给定网络接口分配一个 IPv6 地址。分配多个 IP 地址会增加集群的首选主机发送的检测信号消息数量,这其实弊大于利。