延伸集群可将 vSAN 集群从单个数据站点扩展到两个站点,实现更快速的可用性和站点间负载均衡。通常,延伸集群部署在数据中心之间距离受限制的环境中,如城市或校园环境。
可以使用延伸集群来管理计划的维护并避免灾难场景,因为维护或丢失某个站点不会影响集群的整体运行。在延伸集群配置中,两个数据站点均为活动站点。如果其中一个站点出现故障,vSAN 会使用另一个站点上的存储。vSphere HA 会在另一个活动的站点上重新启动任何必须重新启动的虚拟机。
您必须将一个站点指定为首选站点。另一个站点成为辅助或非首选站点。如果两个活动站点之间的网络连接丢失,vSAN 将使用首选站点继续运行。指定为首选站点的站点通常是保持运行的站点,除非该站点正在重新同步或存在其他问题。可获得最大数据可用性的站点是保持运行的站点。
vSAN 延伸集群一次可以允许一个链路故障,期间仍可以访问数据。链路故障指的是两个站点之间或某个站点与见证主机之间的网络连接丢失。发生站点故障或网络连接丢失过程中,vSAN 会自动切换到完全正常的站点。
vSAN 7.0 Update 3 及更高版本的延伸集群允许在一个站点不可用时出现见证主机故障。将存储策略站点容灾规则配置为“站点镜像 - 延伸集群”。如果一个站点由于维护或故障而关闭,并且见证主机出现故障,则对象将变得不合规,但仍可访问。
有关使用延伸集群的详细信息,请参见《vSAN 延伸集群指南》。
见证主机
每个延伸集群由两个数据站点和一个见证主机组成。见证主机位于第三个站点上且包含虚拟机对象的见证组件。见证主机不存储客户数据,仅存储元数据,例如 vSAN 对象和组件的大小和 UUID。
两个站点之间的网络连接丢失时,需要针对数据存储组件的可用性作出决定时,会将见证主机用作 Tie Breaker。在这种情况下,见证主机通常会与首选站点形成一个 vSAN 集群。但如果首选站点与辅助站点及见证主机隔离,见证主机会使用辅助站点形成一个集群。首选站点重新联机后,会重新同步数据以确保两个站点均具有所有数据的最新副本。
如果见证主机出现故障,所有相应的对象均将不再合规但仍可完全访问。
见证主机具有以下特性:
- 见证主机可以使用低带宽/高延迟链路。
- 见证主机无法运行虚拟机。
- 单个见证主机只支持一个 vSAN 延伸集群。双节点 vSAN 集群可以共享一个见证主机。
- 见证主机必须有一个 VMkernel 适配器已启用 vSAN 流量且连接到集群中所有主机。见证主机将一个 VMkernel 适配器用于管理,一个 VMkernel 适配器用于 vSAN 数据流量。见证主机只能有一个专用于 vSAN 的 VMkernel 适配器。
- 见证主机必须是专用于延伸集群的独立主机。无法将见证主机添加到任何其他集群或通过 vCenter Server 移动到清单。
见证主机可以是物理主机或虚拟机中运行的 ESXi 主机。虚拟机见证主机不提供其他类型的功能(如存储或运行虚拟机)。多个见证主机可以作为虚拟机在单个物理服务器上运行。对于修补、基本网络连接和监控配置,虚拟机见证主机的运行方式与典型的 ESXi 主机相同。可以通过 vCenter Server 对其进行管理,使用 esxcli 或 vSphere Lifecycle Manager 对其进行修补和更新,且可以利用与 ESXi 主机交互的标准工具对其进行监控。
可以将见证虚拟设备用作延伸集群中的见证主机。见证虚拟设备是虚拟机中的 ESXi 主机,打包为 OVF 或 OVA。根据部署的大小,此设备在不同的选项下可用。
延伸集群和故障域
延伸集群使用故障域提供跨站点冗余和故障保护。延伸集群中的每个站点均位于单独的故障域中。
延伸集群需要三个故障域:分别用于首选站点、辅助站点和见证主机。每个故障域表示一个单独的站点。当见证主机出现故障或进入维护模式时,vSAN 会将其视为站点故障。
- 站点容灾。对于延伸集群,此规则可定义容错方法。选择站点镜像 - 延伸集群。
- 允许的故障数 (FTT)。对于延伸集群,FTT 定义了虚拟机对象可允许的其他主机故障数量。
- 无。可以将此数据局部性规则设置为“无”、“首选”或“辅助”。此规则使您能够将虚拟机对象限制到延伸集群中的选定站点。
在具有本地故障保护的延伸集群中,即使某个站点不可用,集群也可以对可用站点中缺少或损坏的组件进行修复。
如果一个站点上的任何磁盘的使用率达到 96% 或剩余不到 5 GB 可用容量(以较小者为准),而另一个站点上的磁盘还有可用空间,则 vSAN 7.0 和更高版本将继续为 I/O 提供服务。受影响站点上的组件会标记为“不存在”,并且 vSAN 继续对另一个站点上的正常对象副本执行 I/O 操作。如果受影响站点上的磁盘的使用率达到 94% 或剩余不到 10 GB 可用容量(以较小者为准),则不存在的组件将变为可用。vSAN 会重新同步可用组件,并且所有对象都会变为符合策略的对象。