NSX 支持多站点部署,您可以管理一个 NSX Manager 集群中的所有站点。
- 灾难恢复
- 活动-活动
下图显示了灾难恢复部署。
在灾难恢复部署中,主站点的 NSX 处理企业网络连接。辅助站点处于待机状态,可在主站点出现灾难性故障时进行接管。
下图显示了活动-活动部署。
您可以部署两个站点,以实现管理平面和数据平面的自动或手动/脚本式恢复。
管理平面的自动恢复
- 配置了跨站点高可用性 (HA) 的延伸 vCenter 集群。
- 延伸的管理 VLAN。
NSX Manager 集群部署在管理 VLAN 上,其物理位置在主站点中。如果主站点出现故障,vSphere HA 会重新启动辅助站点中的 NSX Manager。所有传输节点将自动重新连接到重新启动的 NSX Manager。此过程大约需要 10 分钟。在此期间,管理平面将不可用,但这对数据平面没有任何影响。
下图说明了管理平面的自动恢复。
灾难发生前:
灾难恢复后:
数据平面的自动恢复
要实现数据平面的自动恢复,您可以为 Edge 节点配置故障域。您可以将 Edge 集群中的 Edge 节点分组到不同的故障域中。NSX Manager 会自动将任何新的活动 Tier-1 网关放置在首选故障域中,并将备用 Tier-1 网关放置在其他域中。在创建故障域之前部署的 Tier-1 网关会保留其原始 Edge 节点放置位置,因而可能不会在所需位置运行。如果要修改其放置位置,请编辑 T1 并手动为 T1 活动网关和 T1 备用网关选择 Edge 节点。
- Edge 节点之间的最大延迟为 10 毫秒。
- 如果无法实现非对称南北向路由(例如,在 NSX Edge 节点的北向使用物理防火墙),则 Tier-0 网关的 HA 模式必须为活动-备用,且故障切换模式必须为主动。
- 如果可以进行非对称南北向路由(例如,两个位置是两个建筑物,它们之间没有任何物理防火墙),则 Tier-0 网关的 HA 模式可以为活动-活动状态。
Edge 节点可以是虚拟机或裸机。Tier-1 网关的故障切换模式可以是主动和非主动的,但建议设置为主动,以确保 Tier-0 和 Tier-1 网关位于同一位置。
- 使用 API 为两个站点创建故障域,例如,FD1A-Preferred_Site1 和 FD2A-Preferred_Site1。对于主站点,将 preferred_active_edge_services 参数设置为
true
;对于辅助站点,将该参数设置为false
。POST /api/v1/failure-domains { "display_name": "FD1A-Preferred_Site1", "preferred_active_edge_services": "true" } POST /api/v1/failure-domains { "display_name": "FD2A-Preferred_Site1", "preferred_active_edge_services": "false" }
- 使用 API 配置跨两个站点延伸的 Edge 集群。例如,该集群在主站点中具有 Edge 节点 EdgeNode1A 和 EdgeNode1B,在辅助站点中具有 Edge 节点 EdgeNode2A 和 EdgeNode2B。活动 Tier-0 网关和活动 Tier-1 网关在 EdgeNode1A 和 EdgeNode1B 上运行。备用 Tier-0 网关和备用 Tier-1 网关在 EdgeNode2A 和 EdgeNode2B 上运行。
- 使用 API 将每个 Edge 节点与该站点的故障域相关联。要获取有关 Edge 节点的数据,请运行
GET /api/v1/transport-nodes/<transport-node-id>
API。使用 GET API 结果作为PUT /api/v1/transport-nodes/<transport-node-id>
API 的输入,并正确设置属性 failure_domain_id。例如,GET /api/v1/transport-nodes/<transport-node-id> Response: "resource_type": "TransportNode", "description": "Updated NSX configured Test Transport Node", "id": "77816de2-39c3-436c-b891-54d31f580961", ... } PUT /api/v1/transport-nodes/<transport-node-id> { "resource_type": "TransportNode", "description": "Updated NSX configured Test Transport Node", "id": "77816de2-39c3-436c-b891-54d31f580961", ... "failure_domain_id": "<UUID>", }
- 使用 API 将 Edge 集群配置为根据故障域分配节点。要获取有关 Edge 集群的数据,请运行
GET /api/v1/edge-clusters/<edge-cluster-id>
API。使用 GET API 结果作为PUT /api/v1/edge-clusters/<edge-cluster-id>
API 的输入,并正确设置附加属性 allocation_rules。例如,GET /api/v1/edge-clusters/<edge-cluster-id> Response: { "_revision": 0, "id": "bf8d4daf-93f6-4c23-af38-63f6d372e14e", "resource_type": "EdgeCluster", ... } PUT /api/v1/edge-clusters/<edge-cluster-id> { "_revision": 0, "id": "bf8d4daf-93f6-4c23-af38-63f6d372e14e", "resource_type": "EdgeCluster", ... "allocation_rules": [ { "action": { "enabled": true, "action_type": "AllocationBasedOnFailureDomain" } } ], }
- 使用 API 或 NSX Manager UI 创建 Tier-0 网关和 Tier-1 网关。
如果整个主站点出现故障,则辅助站点中的 Tier-0 备用网关和 Tier-1 备用网关将自动接管并成为新的活动网关。
下图说明了数据平面的自动恢复。
灾难发生前:
灾难恢复后:
如果主站点中的一个 Edge 节点而非整个站点出现故障,请务必注意,上述原则同样适用。例如,在“灾难发生前”图中,假定 Edge 节点 1B 托管 Tier-1 蓝色活动网关,Edge 节点 2B 托管 Tier-1 蓝色备用网关。如果 Edge 节点 1B 出现故障,Edge 节点 2B 上的 Tier-1 蓝色备用网关将对其进行接管并成为新的 Tier-1 蓝色活动网关。
管理平面的手动/脚本式恢复
- 用于 NSX Manager 且具有短 TTL(例如,5 分钟)的 DNS。
- 连续 NSX Manager 备份。
不需要 vSphere HA 和延伸的管理 VLAN。NSX 管理器必须与具有短 TTL 的 DNS 名称相关联。所有传输节点(Edge 节点和 Hypervisor)必须使用其 DNS 名称连接到 NSX Manager。为节省时间,可以选择在辅助站点中预先安装 NSX Manager 集群。
- 更改 DNS 记录,以便 NSX Manager 集群具有不同 IP 地址。
- 从备份还原 NSX Manager 集群。
- 将传输节点连接到新的 NSX Manager 集群。
下图说明了管理平面的手动/脚本式恢复。
灾难发生前:
灾难发生后:
数据平面的手动/脚本式恢复
要求:Edge 节点之间的最大延迟为 150 毫秒。
Edge 节点可以是虚拟机或裸机。每个位置中的 Tier-0 网关可以是活动-备用或活动-活动。您可以在不同的 vCenter Server 中安装 Edge 节点虚拟机。不需要 vSphere HA。
- 对于主站点(蓝色)中的所有 Tier-1,更新其 Edge 集群配置以成为 Edge 集群辅助站点。
- 对于主站点(蓝色)中的所有 Tier-1,将其重新连接到 T0 辅助站点(绿色)。
下图通过逻辑和物理网络视图,说明了数据平面的手动/脚本式恢复。
灾难发生前(逻辑视图和物理视图):
灾难发生后(逻辑视图和物理视图):
多站点部署的要求
- 带宽必须至少 1 Gbps,延迟 (RTT) 必须低于 150 毫秒。
- 将 MTU 设置为 9000。必须至少为 1600。
- 通过自动恢复管理平面且在站点之间延伸 VLAN 管理。vSphere HA 跨 NSX Manager 虚拟机站点。
- 通过手动/脚本式恢复管理平面且在站点之间延伸 VLAN 管理。用于 NSX Manager 虚拟机的 VMware SRM。
- 通过手动/脚本式恢复管理平面,而不在站点之间延伸 VLAN 管理。
- 连续 NSX Manager 备份。
- NSX Manager 必须设置为使用 FQDN。
- 如果通过 NAT 或负载均衡器等服务显示公用 IP 地址,则必须使用同一个 Internet 提供商。
- 管理平面的自动恢复
- 位置之间的最大延迟为 10 毫秒。
- Tier-0 网关的 HA 模式必须为活动-备用,且故障切换模式必须为主动,以保证无非对称路由。
- 如果可接受非对称路由(例如,都会区域中的不同建筑物),则 Tier-0 网关的 HA 模式可以为活动-活动。
- 管理平面的手动/脚本式恢复
- 位置之间的最大延迟为 150 毫秒。
- CMS 必须支持 NSX 插件。在此版本中,VMware Integrated OpenStack (VIO) 和 vRealize Automation (vRA) 满足此要求。
限制
- 没有本地输出功能。所有南北向流量必须在一个站点内。
- 计算灾难恢复软件必须支持 NSX,例如 VMware Site Recovery Manager 8.1.2 或更高版本。
- 在多站点环境中还原 NSX Manager 时,请在辅助/主站点上执行以下操作:
- 还原过程在将节点添加到集群步骤暂停后,必须先从 UI 页面中移除现有 VIP 并设置新的虚拟 IP,然后再添加管理器节点。
- 更新 VIP 后,将新节点添加到还原的单节点集群中。