NSX 支持多站点部署,您可以管理一个 NSX Manager 集群中的所有站点。

支持两种类型的多站点部署:
  • 灾难恢复
  • 活动-活动

下图显示了灾难恢复部署。


显示了多站点灾难恢复部署,其中包含一个主站点及一个具有 SRM 复制虚拟机的辅助站点

在灾难恢复部署中,主站点的 NSX 处理企业网络连接。辅助站点处于待机状态,可在主站点出现灾难性故障时进行接管。

下图显示了活动-活动部署。


显示了跨两个站点延伸并与 T0 网关通信的 L2

您可以部署两个站点,以实现管理平面和数据平面的自动或手动/脚本式恢复。

管理平面的自动恢复

要求:
  • 配置了跨站点高可用性 (HA) 的延伸 vCenter 集群。
  • 延伸的管理 VLAN。

NSX Manager 集群部署在管理 VLAN 上,其物理位置在主站点中。如果主站点出现故障,vSphere HA 会重新启动辅助站点中的 NSX Manager。所有传输节点将自动重新连接到重新启动的 NSX Manager。此过程大约需要 10 分钟。在此期间,管理平面将不可用,但这对数据平面没有任何影响。

下图说明了管理平面的自动恢复。

灾难发生前:

显示了在自动恢复管理平面之后,辅助站点节点重新连接到主站点中的 NSX Manager

灾难恢复后:

显示了在灾难恢复之后,辅助站点已恢复 NSX Manager 并且已重新连接传输节点

数据平面的自动恢复

要实现数据平面的自动恢复,您可以为 Edge 节点配置故障域。您可以将 Edge 集群中的 Edge 节点分组到不同的故障域中。NSX Manager 会自动将任何新的活动 Tier-1 网关放置在首选故障域中,并将备用 Tier-1 网关放置在其他域中。在创建故障域之前部署的 Tier-1 网关会保留其原始 Edge 节点放置位置,因而可能不会在所需位置运行。如果要修改其放置位置,请编辑 T1 并手动为 T1 活动网关和 T1 备用网关选择 Edge 节点。

要求:
  • Edge 节点之间的最大延迟为 10 毫秒。
  • 如果无法实现非对称南北向路由(例如,在 NSX Edge 节点的北向使用物理防火墙),则 Tier-0 网关的 HA 模式必须为活动-备用,且故障切换模式必须为主动。
  • 如果可以进行非对称南北向路由(例如,两个位置是两个建筑物,它们之间没有任何物理防火墙),则 Tier-0 网关的 HA 模式可以为活动-活动状态。

Edge 节点可以是虚拟机或裸机。Tier-1 网关的故障切换模式可以是主动和非主动的,但建议设置为主动,以确保 Tier-0 和 Tier-1 网关位于同一位置。

配置步骤:
  • 使用 API 为两个站点创建故障域,例如,FD1A-Preferred_Site1FD2A-Preferred_Site1。对于主站点,将 preferred_active_edge_services 参数设置为 true;对于辅助站点,将该参数设置为 false
    POST /api/v1/failure-domains
    {
    "display_name": "FD1A-Preferred_Site1",
    "preferred_active_edge_services": "true"
    }
    
    POST /api/v1/failure-domains
    {
    "display_name": "FD2A-Preferred_Site1",
    "preferred_active_edge_services": "false"
    }
  • 使用 API 配置跨两个站点延伸的 Edge 集群。例如,该集群在主站点中具有 Edge 节点 EdgeNode1AEdgeNode1B,在辅助站点中具有 Edge 节点 EdgeNode2AEdgeNode2B。活动 Tier-0 网关和活动 Tier-1 网关在 EdgeNode1AEdgeNode1B 上运行。备用 Tier-0 网关和备用 Tier-1 网关在 EdgeNode2AEdgeNode2B 上运行。
  • 使用 API 将每个 Edge 节点与该站点的故障域相关联。要获取有关 Edge 节点的数据,请运行 GET /api/v1/transport-nodes/<transport-node-id> API。使用 GET API 结果作为 PUT /api/v1/transport-nodes/<transport-node-id> API 的输入,并正确设置属性 failure_domain_id。例如,
    GET /api/v1/transport-nodes/<transport-node-id>
    Response:
    
        "resource_type": "TransportNode", 
        "description": "Updated NSX configured Test Transport Node",
        "id": "77816de2-39c3-436c-b891-54d31f580961",
        ...
    }
    
    PUT /api/v1/transport-nodes/<transport-node-id>
    {
        "resource_type": "TransportNode",
        "description": "Updated NSX configured Test Transport Node",
        "id": "77816de2-39c3-436c-b891-54d31f580961",
        ...
        "failure_domain_id": "<UUID>",
    }
  • 使用 API 将 Edge 集群配置为根据故障域分配节点。要获取有关 Edge 集群的数据,请运行 GET /api/v1/edge-clusters/<edge-cluster-id> API。使用 GET API 结果作为 PUT /api/v1/edge-clusters/<edge-cluster-id> API 的输入,并正确设置附加属性 allocation_rules。例如,
    GET /api/v1/edge-clusters/<edge-cluster-id>
    Response:
    {
        "_revision": 0,
        "id": "bf8d4daf-93f6-4c23-af38-63f6d372e14e",
        "resource_type": "EdgeCluster",
        ...
    }
    
    PUT /api/v1/edge-clusters/<edge-cluster-id>
    {
        "_revision": 0,
        "id": "bf8d4daf-93f6-4c23-af38-63f6d372e14e",
        "resource_type": "EdgeCluster",
        ...
        "allocation_rules": [
            {
                "action": {
                          "enabled": true,
                          "action_type": "AllocationBasedOnFailureDomain"
                          }
            }
        ],
    }
  • 使用 API 或 NSX Manager UI 创建 Tier-0 网关和 Tier-1 网关。

如果整个主站点出现故障,则辅助站点中的 Tier-0 备用网关和 Tier-1 备用网关将自动接管并成为新的活动网关。

下图说明了数据平面的自动恢复。

灾难发生前:

在灾难恢复之前自动恢复数据平面

灾难恢复后:

在灾难恢复之后自动恢复数据平面

如果主站点中的一个 Edge 节点而非整个站点出现故障,请务必注意,上述原则同样适用。例如,在“灾难发生前”图中,假定 Edge 节点 1B 托管 Tier-1 蓝色活动网关,Edge 节点 2B 托管 Tier-1 蓝色备用网关。如果 Edge 节点 1B 出现故障,Edge 节点 2B 上的 Tier-1 蓝色备用网关将对其进行接管并成为新的 Tier-1 蓝色活动网关。

管理平面的手动/脚本式恢复

要求:
  • 用于 NSX Manager 且具有短 TTL(例如,5 分钟)的 DNS。
  • 连续 NSX Manager 备份。

不需要 vSphere HA 和延伸的管理 VLAN。NSX 管理器必须与具有短 TTL 的 DNS 名称相关联。所有传输节点(Edge 节点和 Hypervisor)必须使用其 DNS 名称连接到 NSX Manager。为节省时间,可以选择在辅助站点中预先安装 NSX Manager 集群。

恢复步骤是:
  1. 更改 DNS 记录,以便 NSX Manager 集群具有不同 IP 地址。
  2. 从备份还原 NSX Manager 集群。
  3. 将传输节点连接到新的 NSX Manager 集群。

下图说明了管理平面的手动/脚本式恢复。

灾难发生前:

显示了在管理平面恢复之前 NSX Manager 站点之间的通信,此时连续备份存储在辅助站点上

灾难发生后:

显示了服务中断的主站点,辅助站点传输节点与其恢复的 NSX Manager 通信

数据平面的手动/脚本式恢复

要求:Edge 节点之间的最大延迟为 150 毫秒。

Edge 节点可以是虚拟机或裸机。每个位置中的 Tier-0 网关可以是活动-备用或活动-活动。您可以在不同的 vCenter Server 中安装 Edge 节点虚拟机。不需要 vSphere HA。

恢复步骤是:
  • 对于主站点(蓝色)中的所有 Tier-1,更新其 Edge 集群配置以成为 Edge 集群辅助站点。
  • 对于主站点(蓝色)中的所有 Tier-1,将其重新连接到 T0 辅助站点(绿色)。

下图通过逻辑和物理网络视图,说明了数据平面的手动/脚本式恢复。

灾难发生前(逻辑视图和物理视图):

显示了在 DR 手动数据平面恢复之前主站点和辅助站点的逻辑视图

显示了在 DR 手动数据平面恢复之前主站点和辅助站点的物理视图

灾难发生后(逻辑视图和物理视图):

显示了在 DR 手动数据平面恢复之后非活动主站点的逻辑视图

显示了在 DR 手动数据平面恢复之后非活动主站点的逻辑视图

多站点部署的要求

站点间通信
  • 带宽必须至少 1 Gbps,延迟 (RTT) 必须低于 150 毫秒。
  • 将 MTU 设置为 9000。必须至少为 1600。
NSX Manager
  • 通过自动恢复管理平面且在站点之间延伸 VLAN 管理。vSphere HA 跨 NSX Manager 虚拟机站点。
  • 通过手动/脚本式恢复管理平面且在站点之间延伸 VLAN 管理。用于 NSX Manager 虚拟机的 VMware SRM。
  • 通过手动/脚本式恢复管理平面,而不在站点之间延伸 VLAN 管理。
    • 连续 NSX Manager 备份。
    • NSX Manager 必须设置为使用 FQDN。
数据平面
  • 如果通过 NAT 或负载均衡器等服务显示公用 IP 地址,则必须使用同一个 Internet 提供商。
  • 管理平面的自动恢复
    • 位置之间的最大延迟为 10 毫秒。
    • Tier-0 网关的 HA 模式必须为活动-备用,且故障切换模式必须为主动,以保证无非对称路由。
    • 如果可接受非对称路由(例如,都会区域中的不同建筑物),则 Tier-0 网关的 HA 模式可以为活动-活动。
  • 管理平面的手动/脚本式恢复
    • 位置之间的最大延迟为 150 毫秒。
云计算管理系统 (CMS)
  • CMS 必须支持 NSX 插件。在此版本中,VMware Integrated OpenStack (VIO) 和 vRealize Automation (vRA) 满足此要求。

限制

  • 没有本地输出功能。所有南北向流量必须在一个站点内。
  • 计算灾难恢复软件必须支持 NSX,例如 VMware Site Recovery Manager 8.1.2 或更高版本。
  • 在多站点环境中还原 NSX Manager 时,请在辅助/主站点上执行以下操作:
    • 还原过程在将节点添加到集群步骤暂停后,必须先从系统 > 设备 UI 页面中移除现有 VIP 并设置新的虚拟 IP,然后再添加管理器节点。
    • 更新 VIP 后,将新节点添加到还原的单节点集群中。