NSX-T Data Center 支持多站点部署,您可以管理一个 NSX Manager 集群中的所有站点。
- 灾难恢复
- 活动-活动
下图显示了灾难恢复部署。
在活动-活动部署中,所有站点都处于活动状态,第 2 层流量跨越站点边界。在灾难恢复部署中,主站点的 NSX-T Data Center 处理企业网络连接。辅助站点处于待机状态,可在主站点出现灾难性故障时进行接管。
下图显示了活动-活动部署。
您可以部署两个站点,以实现管理平面和数据平面的自动或手动/脚本式恢复。
管理平面的自动恢复
- 配置了跨站点 HA 的延伸 vCenter 集群。
- 延伸的管理 VLAN。
NSX Manager 集群部署在管理 VLAN 上,其物理位置在主站点中。如果主站点出现故障,vSphere HA 将重新启动辅助站点中的 NSX Manager。所有传输节点将自动重新连接到重新启动的 NSX Manager。此过程大约需要 10 分钟。在这段时间内,管理平面不可用,但数据平面不受影响。
下图说明了管理平面的自动恢复。
灾难发生前:
灾难恢复后:
数据平面的自动恢复
您可以为 Edge 节点配置故障域,以实现数据平面的自动恢复。您可以将 Edge 集群中的 Edge 节点分组到不同的故障域中。NSX Manager 会自动将任何新的活动 Tier-1 网关放置在首选故障域中,并将备用 Tier-1 网关放置在其他域中。
- Edge 节点之间的最大延迟为 10 毫秒。
- Tier-0 网关的 HA 模式必须为活动-备用,且故障切换模式必须为主动。
- 如果可以进行非对称路由(例如,两个位置是两个建筑物,它们之间没有任何物理防火墙),则 Tier-0 网关的 HA 模式可以为活动-活动状态。
注意:Tier-1 网关的故障切换模式可以是主动和非主动的,但建议设置为主动,以确保 Tier-0 和 Tier-1 网关位于同一位置。
- 使用 API 为两个站点创建故障域,例如,FD1A-Preferred_Site1 和 FD2A-Preferred_Site1。对于主站点,将 preferred_active_edge_services 参数设置为
true
;对于辅助站点,将该参数设置为false
。POST /api/v1/failure-domains { "display_name": "FD1A-Preferred_Site1", "preferred_active_edge_services": "true" } POST /api/v1/failure-domains { "display_name": "FD2A-Preferred_Site1", "preferred_active_edge_services": "false" }
- 使用 API 配置在两个站点之间延伸的 Edge 集群。例如,该集群在主站点中具有 Edge 节点 EdgeNode1A 和 EdgeNode1B,在辅助站点中具有 Edge 节点 EdgeNode2A 和 EdgeNode2B。活动 Tier-0 和 Tier-1 网关将在 EdgeNode1A 和 EdgeNode1B 上运行。备用 Tier-0 和 Tier-1 网关将在 EdgeNode2A 和 EdgeNode2B 上运行。
- 使用 API 将每个 Edge 节点与该站点的故障域相关联。首先调用
GET /api/v1/transport-nodes/<transport-node-id>
API 以获取有关 Edge 节点的数据。使用 GET API 的结果作为PUT /api/v1/transport-nodes/<transport-node-id>
API 的输入,并正确设置附加属性 failure_domain_id。例如,GET /api/v1/transport-nodes/<transport-node-id> Response: { "resource_type": "TransportNode", "description": "Updated NSX configured Test Transport Node", "id": "77816de2-39c3-436c-b891-54d31f580961", ... } PUT /api/v1/transport-nodes/<transport-node-id> { "resource_type": "TransportNode", "description": "Updated NSX configured Test Transport Node", "id": "77816de2-39c3-436c-b891-54d31f580961", ... "failure_domain_id": "<UUID>", }
- 使用 API 将 Edge 集群配置为根据故障域分配节点。首先调用
GET /api/v1/edge-clusters/<edge-cluster-id>
API 以获取有关 Edge 集群的数据。使用 GET API 的结果作为PUT /api/v1/edge-clusters/<edge-cluster-id>
API 的输入,并正确设置附加属性 allocation_rules。例如,GET /api/v1/edge-clusters/<edge-cluster-id> Response: { "_revision": 0, "id": "bf8d4daf-93f6-4c23-af38-63f6d372e14e", "resource_type": "EdgeCluster", ... } PUT /api/v1/edge-clusters/<edge-cluster-id> { "_revision": 0, "id": "bf8d4daf-93f6-4c23-af38-63f6d372e14e", "resource_type": "EdgeCluster", ... "allocation_rules": [ { "action": { "enabled": true, "action_type": "AllocationBasedOnFailureDomain" } } ], }
- 使用 API 或 NSX Manager UI 创建 Tier-0 和 Tier-1 网关。
如果整个主站点出现故障,则辅助站点中的 Tier-0 备用网关和 Tier-1 备用网关将自动接管并成为新的活动网关。如果主站点中的其中一个 Edge 节点出现故障,上述原则同样适用。例如,在下图中,假定 Edge 节点 1B 托管 Tier-0-Test 和 Tier-1-Test 网关,Edge 节点 2A 托管 Tier-0-Test 备用网关,Edge 节点 2B 托管 Tier-1-Test 备用网关。如果 Edge 节点 1B 出现故障,则 Edge 节点 2A 上的 Tier-0-Test 备用网关和 Edge 节点 2B 上的 Tier-1-Test 备用网关将接管并成为新的活动网关。
下图说明了数据平面的自动恢复。
灾难发生前:
灾难恢复后:
管理平面的手动/脚本式恢复
- 用于 NSX Manager 且具有短 TTL(例如,5 分钟)的 DNS。
- 连续备份。
不需要 vSphere HA 和延伸的管理 VLAN。NSX-T Manager 必须与具有短 TTL 的 DNS 名称相关联。所有传输节点(Edge 节点和 Hypervisor)必须使用其 DNS 名称连接到 NSX Manager。为节省时间,可以选择在辅助站点中预先安装 NSX Manager 集群。
- 更改 DNS 记录,以便 NSX Manager 集群具有不同 IP 地址。
- 从备份还原 NSX Manager 集群。
- 将传输节点连接到新的 NSX Manager 集群。
下图说明了管理平面的手动/脚本式恢复。
数据平面的手动/脚本式恢复
- Edge 节点之间的最大延迟为 150 毫秒。
Edge 节点可以是虚拟机或裸机。每个位置中的 Tier-0 网关可以是活动-备用或活动-活动。Edge 节点虚拟机可以安装在不同的 vCenter Server 中。不需要 vSphere HA。
- 使用 API 将连接到主 Tier-0 网关的 Tier-1 网关(下图中蓝色部分)移动到辅助 Tier-0 网关(绿色)。
- 使用 API 将独立 Tier-1 网关移至辅助站点。
- 使用 API 将第 2 层网桥移至辅助站点。
下图说明了数据平面的手动/脚本式恢复。
多站点部署的要求
- 带宽必须至少 1 Gbps,延迟 (RTT) 必须低于 150 毫秒。
- MTU 必须至少为 1600。建议 9000。
- 对于管理平面自动恢复
- 在站点之间延伸 VLAN 管理。
- vSphere HA 跨 NSX Manager 虚拟机站点。
- 对于管理平面的手动/脚本式恢复
- 连续备份。
- NSX Manager 必须设置为使用 FQDN。
- 如果通过 NAT 或负载均衡器等服务显示公用 IP 地址,则必须使用同一个 Internet 提供商。
- 对于管理平面自动恢复
- 位置之间的最大延迟为 10 毫秒。
- Tier-0 网关的 HA 模式必须为活动-备用,且故障切换模式必须为主动,以保证无非对称路由。
- 如果可接受非对称路由(例如,都会区域中的不同建筑物),则 Tier-0 网关的 HA 模式可以为活动-活动。
- 对于管理平面的手动/脚本式恢复
- 位置之间的最大延迟为 150 毫秒。
- 云计算管理系统 (CMS) 必须支持一个 NSX-T Data Center 插件。在此版本中,VMware Integrated OpenStack (VIO) 和 vRealize Automation (vRA) 满足此要求。
限制
- 没有本地输出功能。所有南北向流量必须在一个站点内。
- 计算灾难恢复软件必须支持 NSX-T Data Center,例如 VMware SRM 8.1.2 或更高版本。