NVIDIA GPU 기술을 사용하여 TKG 서비스 클러스터에 AI/ML 워크로드를 배포할 수 있습니다.

AI/ML 워크로드에 대한 TKGS 지원

TKG 서비스 클러스터에 계산 집약적인 워크로드를 배포할 수 있습니다. 이 컨텍스트에서 계산 집약적인 워크로드는 GPU 가속기 디바이스를 사용해야 하는 AI(인공 지능) 또는 ML(기계 학습) 애플리케이션입니다.

Kubernetes 환경에서 AI/ML 워크로드의 실행을 용이하게 하기 위해 VMware는 NVIDIA와 제휴하여 NVIDIA GPU Cloud 플랫폼을 지원합니다. TKGS 클러스터에 NGC 카탈로그의 컨테이너 이미지를 배포할 수 있습니다. vSphere 8 NVIDIA GPU 지원에 대한 자세한 내용은 Tech Zone의 vGPU 문서를 참조하십시오.

지원되는 GPU 모드

TKG 서비스 클러스터에 NVIDIA 기반 AI/ML 워크로드를 배포하려면 Ubuntu 버전의 Tanzu Kubernetes 릴리스 버전 1.22 이상을 사용해야 합니다. vSphere는 동적 DirectPath I/O 디바이스를 사용하는 NVIDIA Grid vGPU 및 GPU 패스스루라는 두 가지 모드를 지원합니다. 자세한 내용은 NVIDIA 설명서에서 지원되는 운영 체제 및 Kubernetes 플랫폼을 참조하십시오.
표 1. NVIDIA vGPU를 사용하는 vSphere VM
운영 체제 TKr vSphere with Tanzu 설명
Ubuntu 20.04 LTS 1.22 - 1.2x*(최신, 1.28까지)

7.0 U3c

8.0 U2+

GPU 디바이스는 각 ESXi 호스트에 설치된 NVIDIA 호스트 관리자 드라이버에 의해 가상화됩니다. 그런 다음 GPU 디바이스는 여러 NVIDIA vGPU(가상 GPU)에서 공유됩니다.
참고: vSphere DRS(Distributed Resource Scheduler)는 vSphere 클러스터를 구성하는 호스트 전체에 vGPU VM을 너비 우선 방식으로 분산합니다. 자세한 내용은 vSphere 리소스 관리 가이드에서 vGPU VM의 DRS 배치를 참조하십시오.

각 NVIDIA vGPU는 GPU 디바이스의 메모리 양으로 정의됩니다. 예를 들어 GPU 디바이스의 총 RAM 용량이 32GB인 경우 각각 4GB의 메모리로 8개의 vGPU를 생성할 수 있습니다.

표 2. GPU 패스스루를 사용하는 vSphere VM
운영 체제 TKr vSphere with Tanzu 설명
Ubuntu 20.04 LTS 1.22 - 1.2x*(최신, 1.28까지)

7.0 U3c

8.0 U2+

NVIDIA vGPU 프로파일을 구성하는 동일한 VM 클래스에서, 동적 DirectPath IO를 사용하는 패스스루 네트워킹 디바이스에 대한 지원을 포함합니다. 이 경우 vSphere DRS에 따라 VM 배치가 결정됩니다.