了解如何为 vSAN 延伸集群上运行的 主管 配置 vSphere HA,以便为工作负载提供 HA。
前提条件
- 启用并配置 vSAN 延伸集群。
- 在配置为 vSAN 延伸集群的 vSphere 集群上激活 主管。
过程
- 在 vSAN 延伸集群上找到部署了 主管 的相应 vSphere 集群。
- 依次选择配置和 vSphere 可用性。
- 在已打开 vSphere HA 旁边,单击编辑。
- 配置故障和响应设置。
选项 值 描述 主机监控 已打开 使用网络检测信号确定加入集群的主机的状态,以及是否需要采取纠正措施,例如在集群中的其他主机上重新启动虚拟机。 针对主机隔离的响应 关闭虚拟机电源再重新启动虚拟机 确定隔离主机(既无法与集群中的其他主机通信也无法访问隔离响应 IP 地址的主机)上的虚拟机发生的情况。您可以将此设置配置为关闭电源再重新启动,因为在隔离主机上无法执行正常关机,并且无法访问 vSAN 数据存储,也无法写入到磁盘。 - 配置准入控制。
vSAN 延伸集群中的计算容量通常在集群中的两个站点之间平均分配。您需要确保在整个站点出现故障时,站点 1 上的所有虚拟机都可以在站点 2 上重新启动。为此,您需要预留 50% 的集群容量用于故障切换,以允许在出现站点故障期间重新启动所有虚拟机。
- 将主机故障切换容量的定义依据设置为集群资源百分比。
- 启用替代计算的故障切换容量,并将 CPU 预留和内存预留分别设置为 50%。
使用此设置时,vSphere HA 可确保预留集群 50% 的 CPU 和内存资源总量用于故障切换。
- 配置数据存储检测信号。
除了网络检测信号外,vSphere HA 还提供数据存储检测信号,用于确定集群中主机的状态。但是,vSAN 数据存储不能用于检测信号,您必须为 vSAN 数据存储停用此功能。注: 如果任何其他数据存储(vSAN 除外)可用,并且可通过独立于 vSAN 网络的备用网络路径访问该数据存储,则完全支持使用检测信号数据存储。如果不希望对 vSAN 数据存储使用数据存储检测信号,请选择 仅使用指定列表中的数据存储,并确保未选择 vSAN 数据存储。您仍将看到警示,指出数据存储数量少于所需的检测信号数据存储。您可以通过配置 das.ignoreInsufficientHbDatastore = true 来禁用该警报。
- 配置隔离响应地址。
在 vSAN 集群上启用 vSphere HA 后,HA 将使用网络检测信号来验证 ESXi 主机的状态。
在 vSAN 环境中,vSphere HA 使用 vSAN 流量网络进行通信。这与传统 vSphere 环境不同,在传统 vSphere 环境中,vSphere HA 使用管理网络进行通信。但是,即使在 vSAN 环境中,vSphere HA 仍将管理网络的默认网关用于隔离检测响应。因此,您必须配置位于 vSAN 网络上的隔离响应 IP 地址,以允许 HA 对 vSAN 网络故障做出响应并触发主机隔离响应。
建议您额外指定两个隔离响应地址,这两个地址都应特定于站点,一个隔离地址位于站点 1 中,另一个位于站点 2 中。这使得 vSphere HA 即使在站点之间发生网络故障时也能够验证主机隔离。对于其他隔离响应地址,请使用以下设置:- das.isolationaddress0。将值设置为位于站点 1 上的 vSAN 网络上的 IP 地址。
- das.isolationaddress1。将值设置为位于站点 2 上的 vSAN 网络上的 IP 地址。
- das.usedefaultisolationaddress。设置为 false。
- 保存设置。
- 为各个虚拟机配置 HA 重新启动优先级。
当出现主机故障或站点故障,资源可能不足以重新启动 vSAN 集群中的所有虚拟机。因此,您必须确保优先重新启动某些重要性较高的虚拟机,例如 主管 控制平面虚拟机。为此,请按如下所示为各个虚拟机配置 vSphere HA 重新启动优先级:
- 最高 - 主管 控制平面虚拟机、NSX Edge 虚拟机和 NSX Advanced Load Balancer 服务引擎虚拟机。
- 高 - 所有 TKG 集群控制平面虚拟机。
- 中 - 所有 TKG 集群工作节点虚拟机。
- 在已启用 主管 的集群上,转到配置 > 虚拟机替代项。
- 从列表中选择虚拟机,例如选择所有 主管 控制平面虚拟机,然后单击下一步。
- 在 vSphere HA 下,选中虚拟机重新启动优先级旁边的替代,然后选择优先级,例如最高。
- 重复执行以上步骤,直到为上述所有虚拟机设置了重新启动优先级。
下一步做什么
配置 vSphere DRS 虚拟机和主机组及规则,以关联 主管 控制平面虚拟机、TKG 集群控制平面和工作节点。