vSphere Distributed Services Engine®은 고객이 vSphere 및 VMware Cloud Foundation에서 DPU를 사용할 수 있도록 하는 핵심 vSphere 기능입니다.

vSphere 8.0을 사용하면 끊임없이 증가하는 처리량 및 지연 시간 요구를 충족하기 위한 획기적인 워크로드 성능을 제공할 수 있습니다. vSphere Distributed Services Engine을 사용하면 인프라 서비스가 ESXi 호스트에서 사용 가능한 다양한 계산 리소스에 분산되고 네트워킹 기능이 DPU로 오프로드됩니다. 이러한 기능은 애플리케이션을 여러 개의 독립적이지만 서로 공조하는 서비스로 분할하는 마이크로서비스 아키텍처 접근 방식을 사용하여 개발된 최신 애플리케이션에 적합합니다. 이러한 복잡성 증가로 인해 CPU에 대한 새로운 수요가 발생합니다. 예를 들어, 이러한 마이크로 서비스에 대한 스토리지 요청을 처리하거나 네트워크 트래픽을 이동하면 실제 워크로드에 사용할 수 있는 CPU 주기가 줄어듭니다. 이러한 맥락에서 DPU와 같은 특별히 제작된 가속기는 새로운 컴퓨팅 부담을 덜 수 있으며 인프라의 성능과 효율성을 개선하는 데 도움이 됩니다.

vSphere Distributed Services Engine을 사용하면 기존의 0일차, 1일차 및 2일차 vSphere 환경이 변경되지 않으므로 DPU의 수명 주기 관리에 대한 운영 부담을 주지 않으면서 네트워크의 성능을 가속화하고 데이터 처리량을 높일 수 있습니다. vSphere Distributed Services Engine은 NVIDIA 및 AMD의 DPU와 Dell, HPE, Lenovo 및 Fujitsu의 서버 설계에서 지원됩니다. vSphere Distributed Services Engine은 미리 설치된 DPU가 있는 서버에서 사용할 수 있습니다.

vSphere 8.0부터는 코어 CPU에서 실행되는 기능을 DPU로 오프로드하여 네트워크 및 보안 성능을 크게 향상시킬 수 있습니다. 진화하는 vSphere 아키텍처 다이어그램에 설명된 것처럼 DPU는 스토리지 오프로드 및 베어메탈 관리와 같은 추가 기능도 처리할 수 있지만 이러한 추가 기능은 현재 지원되지 않습니다.

그림 1. 진화하는 vSphere 아키텍처.
VMware는 네트워크 가속을 지원하기 위해 코어 CPU 컴플렉스에서 실행되는 기능을 DPU CPU 컴플렉스로 이동합니다.

vSphere Distributed Services Engine은 DPU의 VMware vSphere Distributed Switch와 VMware NSX Networking and Observability를 도입하여 DPU의 인프라 기능을 오프로드하고 가속화하여 복잡한 네트워크 제어 없이 네트워크 인프라 병목 현상을 사전 예방적으로 모니터링, 식별 및 완화할 수 있습니다. DPU는 인프라 기능을 확장하기 위한 새로운 제어 지점이 되며, 에이전트가 없고 워크로드 도메인에서 분리된 보안 제어를 가능하게 합니다.

vSphere Distributed Services Engine을 사용하면 다음이 가능합니다.

  • x86 서버 및 연결된 지원 DPU에 ESXi 이미지를 동시에 설치하고 업데이트하여 통합 vSphere 워크플로를 통해 DPU 수명 주기 관리의 운영 오버헤드를 줄일 수 있습니다. 자세한 내용은 VMware vSphere Distributed Services Engine과 함께 vSphere Lifecycle Manager 사용을 참조하십시오.
  • 새로운 도구를 사용할 필요 없이 익숙한 vCenter 인터페이스에서 DPU 하드웨어 경고에 대한 경보를 설정하고 코어, 메모리 및 네트워크 처리량에 대한 성능 메트릭을 모니터링할 수 있습니다. 자세한 내용은 CPU(DPU)메모리(DPU)를 참조하십시오.
  • DPU에서 vSphere Distributed Switch를 가속화하여 네트워크 성능을 개선하고 사용 가능한 CPU 주기를 활용하여 ESXi 호스트당 더 높은 워크로드 통합을 달성할 수 있습니다. 자세한 내용은 네트워크 오프로드 기능이란vSphere Distributed Switch 생성을 참조하십시오.
  • DPU가 연결된 호스트에서 실행되는 VM에 대한 vSphere DRS 및 vSphere vMotion 지원을 통해 VM 이동성을 저하시키지 않으면서 패스스루의 이점을 얻을 수 있습니다. 자세한 내용은 DPU용 동종 클러스터를 참조하십시오.
  • 제로 트러스트 보안을 사용하여 인프라 보안을 개선할 수 있습니다. 자세한 내용은 vSphere Distributed Services Engine 보안 모범 사례를 참조하십시오.

vSphere Distributed Services Engine에는 별도의 ESXi 라이센스가 필요하지 않습니다. 다른 네트워크와 격리된 내부 네트워크는 DPU를 ESXi 호스트와 연결합니다. ESXi 8.0 서버 빌드는 x86 및 DPU 컨텐츠를 모두 포함하는 통합 이미지입니다. vSphere 시스템에서 DPU는 설치 및 업그레이드 중 새 개체로 표시되고 네트워킹, 스토리지 및 호스트 프로파일 워크플로에서도 새 개체로 표시됩니다.

VMware vSphere Distributed Services Engine을 통한 고가용성

ESXi 8.0 업데이트 3에서는 고가용성을 달성하기 위해 DPU(데이터 처리 장치)가 2개 포함된 VMware vSphere Distributed Services Engine 설치를 선택할 수 있습니다.

단일 DPU가 있는 vSphere 시스템에서는 디바이스가 네트워킹 기능과 같이 DPU에 오프로드된 워크로드에 대한 단일 실패 지점이 되어 데이터와 생산성에 영향을 줄 수 있습니다. ESXi 8.0 업데이트 3에서 vSphere Distributed Services Engine은 DPU 2개가 미리 설치된 서버에서도 사용할 수 있어서 하드웨어 이중화 및 복원력을 제공합니다.

활성/대기 모드에서 2개의 DPU를 활용하여 고가용성을 제공할 수 있습니다. 이러한 구성은 DPU 중 하나가 실패할 경우 이중화를 제공합니다. 고가용성 구성에서는 두 DPU가 모두 동일한 NSX 지원 vSphere Distributed Switch에 할당됩니다. 예를 들어 DPU-1은 vSphere Distributed Switch의 vmnic0 및 vmnic1에 연결되고 DPU-2는 동일한 vSphere Distributed Switch의 vmnic2 및 vmnic3에 연결됩니다.

또한 2개의 DPU를 독립 디바이스로 활용하여 ESXi 호스트당 오프로드 용량을 늘릴 수도 있습니다. 각 DPU는 별도의 vSphere Distributed Switch에 연결되며 이러한 구성에서는 DPU 간에 페일오버가 없습니다.

이중 DPU 시스템은 NVIDIA 또는 Pensando 디바이스를 사용할 수 있습니다. ESXi 8.0 업데이트 3에서는 Lenovo 서버 설계에서 이중 DPU 시스템이 지원됩니다. 이중 DPU 서버의 DPU 디바이스는 벤더, 하드웨어 버전, 펌웨어 등 모든 측면에서 동일해야 합니다. VMware vSphere Distributed Services Engine의 현재 벤더 및 서버 설계 목록은 VMware 호환성 가이드를 참조하십시오.

DPU가 2개인 VMware vSphere Distributed Services Engine 설치

vSphere Distributed Services Engine에는 별도의 ESXi 라이센스가 필요하지 않습니다. ESXi 8.0 업데이트 3 서버 빌드는 x86 및 DPU 컨텐츠를 모두 포함하는 통합 이미지이므로 x86 및 DPU 컨텐츠를 별도로 설치할 수 없습니다. 두 DPU(대화형 또는 스크립트)의 설치 절차도 병렬로 진행되며 단일 DPU 시스템에 비해 성능 손실이 최소화됩니다.

vSphere 8.0 업데이트 3에서는 Dell 또는 Lenovo에서 DPU 2개가 미리 설치된 서버 구성을 가져오거나 Dell 또는 Lenovo에서 지원되는 이중 DPU 서버의 단일 DPU 시스템에 두 번째 DPU를 추가할 수 있습니다.
참고: 어떤 경우든 새로 추가된 DPU뿐만 아니라 시스템에서 완전히 새로운 ESXi 8.0 업데이트 3 설치를 실행해야 합니다.

설치에 대한 자세한 내용은 대화형으로 ESXi 설치ESXi 설치에 사용되는 설치 및 업그레이드 스크립트 항목을 참조하십시오.

VMware vSphere Distributed Services Engine 대한 오류 처리, 페일오버 및 롤백

VMware vSphere Distributed Services Engine 설치하기 전에 오류 처리, 페일오버 및 롤백 옵션을 참조하십시오.

오류 처리

ESXi 호스트에서 x86 및 DPU 컨텐츠 설치가 실패하면 전체 설치 절차가 실패한 것으로 표시됩니다.

DPU의 소프트웨어 상태는 항상 동일하게 유지되지만 구성 요소의 설치 또는 업그레이드와 같은 수명 주기 작업 중에 오류가 발생할 가능성은 낮지만 작업이 한 DPU에서 전달되지만 다른 DPU에서는 실패할 수 있습니다. 각 수명 주기 작업은 각 DPU의 경계 내에서 발생하기 때문에 오류는 다른 DPU의 상태에 영향을 미치지 않지만 설치의 전체 결과는 여전히 실패로 표시됩니다.

대화형 설치 중에 vSphere Lifecycle Manager 워크플로에서 ESXCLI를 사용하면 작업이 실패한 DPU에 대한 정보가 수신됩니다.

설치에 성공한 후 DPU 오류가 발생할 경우 영향을 받는 ESXi 호스트를 다시 시작하는 것이 좋습니다. 호스트에서 DPU에 계속 액세스할 수 있는 경우 문제 해결을 위해 일반 로그 번들 수집으로 충분합니다. 호스트에서 DPU에 액세스할 수 없는 경우 BMC, iLO 또는 iDRAC 인터페이스에서 DPU에 로그인하면 문제 해결 로그를 제공할 수 있습니다.

페일오버

vSphere 8.0 업데이트 3의 페일오버 지원은 DPU 내의 소프트웨어 오류 또는 DPU 중 하나의 물리적 연결 끊김(예: 케이블 연결 끊기)으로 인해 DPU 중 하나가 작동하지 않는 것으로 제한됩니다. PCI(주변 구성 요소 상호 연결) 수준 오류로 인한 페일오버는 지원되지 않습니다.

롤백

롤백은 ESXi 부팅의 jumpstart 단계 전에 장애가 발생했을 때 시스템을 이전 작동 상태로 복원하기 위한 최선의 방법 메커니즘입니다. 부팅 중 오류가 발생할 경우 x86 서버 및 연결된 지원 DPU 모두에서 롤백이 자동으로 수행됩니다. 부트로더가 시작되기 전에 Shift+R을 눌러 수동 롤백을 선택하여 이전의 양호한 상태로 돌아갈 수도 있습니다.

jumpstart 단계가 시작된 후 실패해도 롤백되지 않습니다.

표 1. VMware vSphere Distributed Services Engine 설치를 위한 롤백 시나리오
시나리오 필요한 재부팅 수
두DPU가 올바르게 부팅됩니다. ESXi 올바르게 부팅되지 않습니다. 2
두DPU가 올바르게 부팅되지 않습니다. ESXi 올바르게 부팅됩니다. 1
DPU 중 하나가 다른 DPU 및 ESXi 이전 버전으로 부팅됩니다. 2
DPU 중 하나가 다른 DPU보다 이전 버전으로 부팅되고 ESXi 올바르게 부팅되지 않습니다. 2