vSphere with Tanzu 및 NVIDIA vGPU 기술을 사용하여 TKGS 클러스터에 AI/ML 워크로드를 배포할 수 있습니다.

AI/ML 워크로드에 대한 TGKS 지원 발표

vSphere with Tanzu 버전 7 업데이트 3 월간 패치 1 릴리스부터 Tanzu Kubernetes Grid 서비스에서 프로비저닝된 Tanzu Kubernetes 클러스터에 계산 집약적인 워크로드를 배포할 수 있습니다. 이 컨텍스트에서 계산 집약적인 워크로드는 GPU 가속기 디바이스를 사용해야 하는 AI(인공 지능) 또는 ML(기계 학습) 애플리케이션입니다.

Kubernetes 환경에서 AI/ML 워크로드의 실행을 용이하게 하기 위해 VMware는 NVIDIA와 제휴하여 vSphere with Tanzu에서 NVIDIA GPU Cloud 플랫폼을 지원합니다. 즉, Tanzu Kubernetes Grid 서비스에서 프로비저닝된 Tanzu Kubernetes 클러스터에 NGC 카탈로그의 컨테이너 이미지를 배포할 수 있습니다.

AI-Ready Enterprise를 위한 NVIDIA 및 VMware의 공동 아키텍처에 대해 자세히 알아보려면 vSphere 7 with Tanzu에서 워크로드 가속화 - GPU가 있는 Kubernetes 클러스터의 기술 미리 보기를 참조하십시오.

지원되는 vGPU 모드

TKGS에 AI/ML 워크로드를 배포하려면 vSphere with Tanzu 컨텐츠 전송 네트워크를 통해 사용할 수 있는 Ubuntu OVA를 사용해야 합니다. TKGS는 두 가지 GPU 작업 모드인 vGPU 및 NIC 패스스루가 포함된 vGPU를 지원합니다. 다음 표에는 이 두 가지 모드에 대한 자세한 설명이 나와 있습니다.

모드 구성 설명

NVIDIA + TKGS + Ubuntu + vGPU

NVIDIA vGPU

GPU 디바이스는 각 ESXi 호스트에 설치된 NVIDIA 호스트 관리자 드라이버에 의해 가상화됩니다. 그런 다음 GPU 디바이스는 여러 NVIDIA vGPU(가상 GPU)에서 공유됩니다.

각 NVIDIA vGPU는 GPU 디바이스의 메모리 양으로 정의됩니다. 예를 들어 GPU 디바이스의 총 RAM 용량이 32GB인 경우 각각 약 4GB의 메모리가 포함된 8개의 vGPU를 생성할 수 있습니다.

NVIDIA + TKGS + Ubuntu + vGPU + NIC 패스스루

NVIDIA vGPU

동적 DirectPath IO

NVIDIA vGPU 프로파일을 구성하는 동일한 VM 클래스에서, 동적 DirectPath IO를 사용하는 패스스루 네트워킹 디바이스에 대한 지원을 포함합니다. 이 경우 vSphere DRS에 따라 VM 배치가 결정됩니다.

시작

NIC 패스스루가 포함된 vGPU를 사용하는 경우에는 TKGS 클러스터에 AI/ML 워크로드를 배포하기 위한 vSphere 관리자 부록(vGPU 및 동적 DirectPath IO) 항목도 참조하십시오.

NVAIE 계정에 대해 NVIDIA DLS(Delegated Licensing Server)를 사용하는 경우에는 TKGS 클러스터(DLS)에 AI/ML 워크로드를 배포하기 위한 클러스터 운영자 부록 항목도 참조하십시오.