NSX-T Data Center 支持多站点部署,您可以管理一个 NSX Manager 集群中的所有站点。

支持两种类型的多站点部署:
  • 灾难恢复
  • 活动-活动

下图显示了灾难恢复部署。


多站点灾难恢复部署

在活动-活动部署中,所有站点都处于活动状态,第 2 层流量跨越站点边界。在灾难恢复部署中,主站点的 NSX-T Data Center 处理企业网络连接。辅助站点处于待机状态,可在主站点出现灾难性故障时进行接管。

下图显示了活动-活动部署。


多站点活动-活动部署

您可以部署两个站点,以实现管理平面和数据平面的自动或手动/脚本式恢复。

管理平面的自动恢复

要求:
  • 配置了跨站点 HA 的延伸 vCenter 集群。
  • 延伸的管理 VLAN。

NSX Manager 集群部署在管理 VLAN 上,其物理位置在主站点中。如果主站点出现故障,vSphere HA 将重新启动辅助站点中的 NSX Manager。所有传输节点将自动重新连接到重新启动的 NSX Manager。此过程大约需要 10 分钟。在这段时间内,管理平面不可用,但数据平面不受影响。

下图说明了管理平面的自动恢复。

灾难发生前:

自动恢复管理平面 - 在灾难恢复之前

灾难恢复后:

自动恢复管理平面 - 在灾难恢复之后

数据平面的自动恢复

您可以为 Edge 节点配置故障域,以实现数据平面的自动恢复。您可以将 Edge 集群中的 Edge 节点分组到不同的故障域中。NSX Manager 会自动将任何新的活动 Tier-1 网关放置在首选故障域中,并将备用 Tier-1 网关放置在其他域中。

要求:
  • Edge 节点之间的最大延迟为 10 毫秒。
  • Tier-0 网关的 HA 模式必须为活动-备用,且故障切换模式必须为主动。
  • 如果可以进行非对称路由(例如,两个位置是两个建筑物,它们之间没有任何物理防火墙),则 Tier-0 网关的 HA 模式可以为活动-活动状态。

注意:Tier-1 网关的故障切换模式可以是主动和非主动的,但建议设置为主动,以确保 Tier-0 和 Tier-1 网关位于同一位置。

配置步骤:
  • 使用 API 为两个站点创建故障域,例如,FD1A-Preferred_Site1FD2A-Preferred_Site1。对于主站点,将 preferred_active_edge_services 参数设置为 true;对于辅助站点,将该参数设置为 false
    POST /api/v1/failure-domains
    {
    "display_name": "FD1A-Preferred_Site1",
    "preferred_active_edge_services": "true"
    }
    
    POST /api/v1/failure-domains
    {
    "display_name": "FD2A-Preferred_Site1",
    "preferred_active_edge_services": "false"
    }
  • 使用 API 配置在两个站点之间延伸的 Edge 集群。例如,该集群在主站点中具有 Edge 节点 EdgeNode1AEdgeNode1B,在辅助站点中具有 Edge 节点 EdgeNode2AEdgeNode2B。活动 Tier-0 和 Tier-1 网关将在 EdgeNode1AEdgeNode1B 上运行。备用 Tier-0 和 Tier-1 网关将在 EdgeNode2AEdgeNode2B 上运行。
  • 使用 API 将每个 Edge 节点与该站点的故障域相关联。首先调用 GET /api/v1/transport-nodes/<transport-node-id> API 以获取有关 Edge 节点的数据。使用 GET API 的结果作为 PUT /api/v1/transport-nodes/<transport-node-id> API 的输入,并正确设置附加属性 failure_domain_id。例如,
    GET /api/v1/transport-nodes/<transport-node-id>
    Response:
    {
        "resource_type": "TransportNode",
        "description": "Updated NSX configured Test Transport Node",
        "id": "77816de2-39c3-436c-b891-54d31f580961",
        ...
    }
    
    PUT /api/v1/transport-nodes/<transport-node-id>
    {
        "resource_type": "TransportNode",
        "description": "Updated NSX configured Test Transport Node",
        "id": "77816de2-39c3-436c-b891-54d31f580961",
        ...
        "failure_domain_id": "<UUID>",
    }
  • 使用 API 将 Edge 集群配置为根据故障域分配节点。首先调用 GET /api/v1/edge-clusters/<edge-cluster-id> API 以获取有关 Edge 集群的数据。使用 GET API 的结果作为 PUT /api/v1/edge-clusters/<edge-cluster-id> API 的输入,并正确设置附加属性 allocation_rules。例如,
    GET /api/v1/edge-clusters/<edge-cluster-id>
    Response:
    {
        "_revision": 0,
        "id": "bf8d4daf-93f6-4c23-af38-63f6d372e14e",
        "resource_type": "EdgeCluster",
        ...
    }
    
    PUT /api/v1/edge-clusters/<edge-cluster-id>
    {
        "_revision": 0,
        "id": "bf8d4daf-93f6-4c23-af38-63f6d372e14e",
        "resource_type": "EdgeCluster",
        ...
        "allocation_rules": [
            {
                "action": {
                          "enabled": true,
                          "action_type": "AllocationBasedOnFailureDomain"
                          }
            }
        ],
    }
  • 使用 API 或 NSX Manager UI 创建 Tier-0 和 Tier-1 网关。

如果整个主站点出现故障,则辅助站点中的 Tier-0 备用网关和 Tier-1 备用网关将自动接管并成为新的活动网关。如果主站点中的其中一个 Edge 节点出现故障,上述原则同样适用。例如,在下图中,假定 Edge 节点 1B 托管 Tier-0-Test 和 Tier-1-Test 网关,Edge 节点 2A 托管 Tier-0-Test 备用网关,Edge 节点 2B 托管 Tier-1-Test 备用网关。如果 Edge 节点 1B 出现故障,则 Edge 节点 2A 上的 Tier-0-Test 备用网关和 Edge 节点 2B 上的 Tier-1-Test 备用网关将接管并成为新的活动网关。

下图说明了数据平面的自动恢复。

灾难发生前:

自动恢复数据平面 - 在灾难恢复之前

灾难恢复后:

自动恢复数据平面 - 在灾难恢复之后

管理平面的手动/脚本式恢复

要求:
  • 用于 NSX Manager 且具有短 TTL(例如,5 分钟)的 DNS。
  • 连续备份。

不需要 vSphere HA 和延伸的管理 VLAN。NSX-T Manager 必须与具有短 TTL 的 DNS 名称相关联。所有传输节点(Edge 节点和 Hypervisor)必须使用其 DNS 名称连接到 NSX Manager。为节省时间,可以选择在辅助站点中预先安装 NSX Manager 集群。

恢复步骤是:
  1. 更改 DNS 记录,以便 NSX Manager 集群具有不同 IP 地址。
  2. 从备份还原 NSX Manager 集群。
  3. 将传输节点连接到新的 NSX Manager 集群。

下图说明了管理平面的手动/脚本式恢复。

手动恢复管理平面

数据平面的手动/脚本式恢复

要求:
  • Edge 节点之间的最大延迟为 150 毫秒。

Edge 节点可以是虚拟机或裸机。每个位置中的 Tier-0 网关可以是活动-备用或活动-活动。Edge 节点虚拟机可以安装在不同的 vCenter Server 中。不需要 vSphere HA。

恢复步骤是:
  1. 使用 API 将连接到主 Tier-0 网关的 Tier-1 网关(下图中蓝色部分)移动到辅助 Tier-0 网关(绿色)。
  2. 使用 API 将独立 Tier-1 网关移至辅助站点。
  3. 使用 API 将第 2 层网桥移至辅助站点。

下图说明了数据平面的手动/脚本式恢复。

手动恢复数据平面

多站点部署的要求

站点间通信
  • 带宽必须至少 1 Gbps,延迟 (RTT) 必须低于 150 毫秒。
  • MTU 必须至少为 1600。建议 9000。
NSX Manager
  • 对于管理平面自动恢复
    • 在站点之间延伸 VLAN 管理。
    • vSphere HA 跨 NSX Manager 虚拟机站点。
  • 对于管理平面的手动/脚本式恢复
    • 连续备份。
    • NSX Manager 必须设置为使用 FQDN。
数据平面
  • 如果通过 NAT 或负载均衡器等服务显示公用 IP 地址,则必须使用同一个 Internet 提供商。
  • 对于管理平面自动恢复
    • 位置之间的最大延迟为 10 毫秒。
    • Tier-0 网关的 HA 模式必须为活动-备用,且故障切换模式必须为主动,以保证无非对称路由。
    • 如果可接受非对称路由(例如,都会区域中的不同建筑物),则 Tier-0 网关的 HA 模式可以为活动-活动。
  • 对于管理平面的手动/脚本式恢复
    • 位置之间的最大延迟为 150 毫秒。
云计算管理系统
  • 云计算管理系统 (CMS) 必须支持一个 NSX-T Data Center 插件。在此版本中,VMware Integrated OpenStack (VIO) 和 vRealize Automation (vRA) 满足此要求。

限制

  • 没有本地输出功能。所有南北向流量必须在一个站点内。
  • 计算灾难恢复软件必须支持 NSX-T Data Center,例如 VMware SRM 8.1.2 或更高版本。