이 장에서는 NSX 라우팅 하위 시스템의 구성 요소에 영향을 미칠 수 있는 일반적인 실패 시나리오를 검토하고 이러한 실패의 결과를 대략적으로 설명합니다.

NSX Manager

표 1. NSX Manager 실패 모드 및 결과
실패 모드 실패 결과
NSX Manager VM에 대한 네트워크 연결 해제
  • 모든 NSX Manager 기능(NSX 라우팅/브리징의 CRUD 포함) 완전 중단
  • 구성 데이터 손실 없음
  • 데이터 또는 제어부 중단 없음
NSX Manager와 ESXi 호스트 간 네트워크 연결 해제 또는 RabbitMQ 서버가 실패합니다.
  • 영향 받는 호스트에서 DLR 제어 VM 또는 ESG가 실행되고 있는 경우 해당 CRUD 작업이 실패합니다.
  • 영향 받는 호스트의 DLR 인스턴스 생성 및 삭제가 실패합니다.
  • 구성 데이터 손실 없음
  • 데이터 또는 제어부 중단 없음
  • 동적 라우팅 업데이트는 계속 작동합니다.
NSX Manager 및 컨트롤러 간 네트워크 연결 해제
  • NSX 분산 라우팅 및 브리징에 대한 생성, 업데이트 및 삭제 작업이 실패합니다.
  • 구성 데이터 손실 없음
  • 데이터 또는 제어부 중단 없음
NSX Manager VM이 소멸됩니다(데이터스토어 실패).
  • 모든 NSX Manager 기능(NSX 라우팅/브리징의 CRUD 포함) 완전 중단
  • NSX Manager가 이전 구성으로 복원되는 경우 라우팅/브리징 인스턴스의 일부가 분리될 수 있으며 수동 정리 및 조정이 필요합니다.
  • 조정이 필요하지 않는 한 데이터 또는 제어부는 중단되지 않습니다.

컨트롤러 클러스터

표 2. NSX Controller 실패 모드 및 결과
실패 모드 실패 결과
컨트롤러 클러스터와 ESXi 호스트 간 네트워크 연결이 끊어집니다.
  • DLR 제어부 기능(동적인 경우를 포함하여 경로 생성, 업데이트 및 삭제) 완전 중단
  • DLR 관리부 기능(호스트의 LIF 생성, 업데이트 및 삭제) 중단
  • VXLAN 전달에 영향을 미쳐 종단 간(L2+L3) 전달 프로세스도 실패할 수 있습니다.
  • 데이터부는 마지막으로 알려진 상태를 기준으로 계속 작동합니다.
하나 이상의 컨트롤러와 ESXi 호스트 간 연결이 끊어집니다.
  • 영향 받은 컨트롤러가 클러스터의 다른 컨트롤러에 여전히 연결할 수 있으면 이 컨트롤러가 통제하는 모든 DLR 인스턴스에는 위에 설명된 것과 동일한 결과가 나타납니다. 다른 컨트롤러가 자동으로 인계 받지 않습니다.
한 컨트롤러와 다른 컨트롤러 간의 네트워크 연결이 끊어집니다(또는 완전히).
  • 나머지 두 컨트롤러가 격리된 컨트롤러에서 처리하던 VXLAN 및 DLR을 인계 받습니다.
  • 영향 받는 컨트롤러는 읽기 전용 모드로 전환되고, 호스트와의 세션을 삭제하고, 새 세션을 거부합니다.
컨트롤러 간 연결이 끊어집니다.
  • 모든 컨트롤러가 읽기 전용 모드로 전환되고, 호스트와의 연결이 끊어지고, 새 연결을 거부합니다.
  • 모든 DLR LIF 및 경로(동적 포함)에 대한 생성, 업데이트 및 삭제 작업이 실패합니다.
  • NSX Manager와 컨트롤러 클러스터 간에 동기화되지 않아 NSX 라우팅 구성(LIF)을 수동으로 다시 동기화해야 할 수 있습니다.
  • 호스트는 마지막에 알려진 제어부 상태에서 계속 작동합니다.
하나의 컨트롤러 VM이 유실됩니다.
  • 컨트롤러 클러스터가 중복성을 유실합니다.
  • 관리/제어부는 평소처럼 계속 작동합니다.
두 컨트롤러 VM이 유실됩니다.
  • 나머지 컨트롤러는 읽기 전용 모드로 전환되고, 컨트롤러 간 연결이 끊어진 경우(위 참조)와 동일한 영향을 미칩니다. 수동 클러스터 복구가 필요할 수 있습니다.

호스트 모듈

netcpa는 컨트롤러와의 보안 통신을 설정하기 위해 호스트 SSL 키 및 인증서와 SSL 지문을 사용합니다. 이러한 항목은 메시지 버스를 통해 NSX Manager에서 가져옵니다(vsfwd에 의해 제공됨).

인증서 교환 프로세스가 실패하면 netcpa는 컨트롤러에 제대로 연결하지 못할 수 있습니다.

참고: 이 섹션에서는 커널 모듈이 실패하는 경우에 대해서는 다루지 않습니다. 그 결과가 심각하고(PSOD) 드물게 발생하기 때문입니다.

표 3. 호스트 모듈 실패 모드 및 결과
실패 모드 실패 결과
vsfwd는 사용자 이름/암호 인증을 사용하여 메시지 버스 서버에 액세스하며, 이러한 인증은 만료될 수 있습니다.
  • 새로 준비한 ESXi 호스트의 vsfwd가 2시간 이내에 NSX Manager에 연결할 수 없으면 설치 중에 제공된 임시 로그인/암호가 만료되고 이 호스트의 메시지 버스가 작동되지 않게 됩니다.
메시지 버스 클라이언트(vsfwd)의 실패 결과는 타이밍에 따라 다릅니다.
NSX 제어부의 다른 부분이 안정적인 실행 상태에 도달할 수 있게 되기 전에 실패하는 경우
  • 호스트가 컨트롤러와 통신할 수 없기 때문에 호스트의 분산 라우팅이 작동을 중지합니다.
  • 호스트가 NSX Manager에서 DLR 인스턴스를 확인하지 않습니다.
호스트가 안정적인 상태에 도달한 후에 실패하는 경우
  • 호스트에서 실행되는 ESG 및 DLR 제어 VM이 구성 업데이트를 수신할 수 없게 됩니다.
  • 호스트가 새 DLR을 확인하지 않아 기존 DLR을 삭제할 수 없습니다.
  • 호스트 데이터 경로는 실패 시에 호스트에 지정되었던 구성을 기준으로 계속 작동합니다.
표 4. netcpa 실패 모드 및 결과
실패 모드 실패 결과
제어부 에이전트(netcpa)의 실패 결과는 타이밍에 따라 다릅니다.
NSX 데이터 경로 커널 모듈이 안정적인 실행 상태에 도달할 수 있게 되기 전에 실패하는 경우
  • 호스트의 분산 라우팅이 작동을 중지합니다.
호스트가 안정적인 상태에 도달한 후에 실패하는 경우
  • 호스트에서 실행되는 DLR 제어 VM이 전달 테이블 업데이트를 컨트롤러에 전송할 수 없게 됩니다.
  • 분산 라우팅 데이터 경로는 컨트롤러에서 LIF 또는 경로 업데이트를 수신하지 않지만 실패 이전 상태를 기준으로 계속 작동합니다.

DLR 제어 VM

표 5. DLR 제어 VM 실패 모드 및 결과
실패 모드 실패 결과
DLR 제어 VM이 유실되거나 전원이 꺼졌습니다.
  • 이 DLR LIF 및 경로에 대한 생성, 업데이트 및 삭제 작업이 실패합니다.
  • 동적 경로 업데이트가 호스트로 전송되지 않습니다(현재 끊어진 인접성을 통해 수신된 접두사의 철회 포함).
DLR 제어 VM과 NSX Manager 및 컨트롤러와의 연결이 끊어집니다.
  • DLR 제어 VM 및 해당 라우팅 인접성이 여전히 작동되는 경우를 제외하고 이전에 확인된 접두사와의 트래픽은 영향을 받지 않으며 동일한 결과가 나타납니다.
DLR 제어 VM과 NSX Manager과의 연결이 끊어집니다.
  • 이 DLR의 LIF 및 경로에 대한 NSX Manager의 생성, 업데이트 및 삭제 작업이 실패하고 다시 시도되지 않습니다.
  • 동적 라우팅 업데이트가 계속 전파됩니다.
DLR 제어 VM과 컨트롤러와의 연결이 끊어집니다.
  • 이 DLR에 대한 라우팅 변경 내용(정적 또는 동적)이 호스트로 전파되지 않습니다.