TKGS 클러스터에 AI/ML 워크로드를 배포하기 위한 vSphere 관리자 워크플로

개발자가 TKG 클러스터에 AI/ML 워크로드를 배포할 수 있도록 하려면 vSphere 관리자가 NVIDIA GPU 하드웨어를 지원하도록 감독자 환경을 설정해야 합니다.

관리 1단계: 시스템 요구 사항 검토

TKG 클러스터에 AI/ML 워크로드를 배포하기 위한 환경을 설정하려면 다음 시스템 요구 사항을 참조하십시오.

요구 사항	설명
vSphere 8 인프라	vCenter Server 및 ESXi 호스트
워크로드 관리 라이센스	vSphere 네임스페이스 및 감독자
TKR Ubuntu OVA	Tanzu Kubernetes 릴리스의 릴리스 정보
NVIDIA vGPU 호스트 드라이버	NGC 웹 사이트에서 VIB를 다운로드합니다. 자세한 내용은 vGPU 소프트웨어 드라이버 설명서를 참조하십시오.
vGPU용 NVIDIA 라이센스 서버	조직에서 제공한 FQDN

관리자 2단계: ESXi 호스트에 지원되는 NVIDIA GPU 디바이스 설치

TKG에 AI/ML 워크로드를 배포하려면 워크로드 관리가 사용되도록 설정될 vCenter 클러스터를 구성하는 각 ESXi 호스트에 하나 이상의 지원되는 NVIDIA GPU 디바이스를 설치합니다.

호환되는 NVIDIA GPU 디바이스를 보려면 VMware 호환성 가이드를 참조하십시오.

호환되는 NVIDIA GPU 디바이스 목록입니다. GPU 디바이스 모델을 클릭하면 세부 정보를 보고 RSS 피드를 구독할 수 있습니다.

NVIDA GPU 디바이스는 최신 NVAIE(NVIDIA AI Enterprise) vGPU 프로파일을 지원해야 합니다. 지침을 보려면 NVIDIA 가상 GPU 소프트웨어 지원 GPU 설명서를 참조하십시오.

예를 들어 다음 ESXi 호스트에는 두 개의 NVIDIA GPU A100 디바이스가 설치되어 있습니다.

vSphere Client의 [그래픽 디바이스] 탭에 NVIDIA GPU A100 디바이스가 나열됩니다.

관리자 3단계: vGPU 작업을 위한 각 ESXi 호스트 구성

워크로드 관리가 사용되도록 설정된 vCenter 클러스터를 구성하는 각 ESXi 호스트에 대해 Shared Direct 및 SR-IOV를 사용하도록 설정하여 NVIDIA vGPU에 대한 호스트를 구성합니다.

각 ESXi 호스트에서 Shared Direct 사용

NVIDIA vGPU 기능의 잠금을 해제하려면 워크로드 관리가 사용되도록 설정된 vCenter 클러스터를 구성하는 각 ESXi 호스트에서 Shared Direct 모드를 사용하도록 설정합니다.

Shared Direct를 사용하도록 설정하려면 다음 단계를 완료하십시오. 추가 지침은 vSphere에서 가상 그래픽 구성을 참조하십시오.

vSphere Client를 사용하여 vCenter Server에 로그인합니다.
vCenter 클러스터에서 ESXi 호스트를 선택합니다.
구성 > 하드웨어 > 그래픽 > 그래픽 디바이스를 선택합니다.
NVIDIA GPU 가속기 디바이스를 선택합니다.
그래픽 디바이스 설정을 편집합니다.
Shared Direct를 선택합니다.
공유 패스스루 GPU 할당 정책의 경우 최고의 성능을 위해 GPU 전체에 VM 분산을 선택합니다.
확인을 클릭하여 구성을 저장합니다.
이 설정은 호스트를 다시 시작한 후에 적용됩니다.
ESXi 호스트를 마우스 오른쪽 버튼으로 클릭하고 유지 보수 모드로 전환합니다.
호스트를 재부팅합니다.
호스트가 다시 실행되면 호스트를 유지 보수 모드에서 해제합니다.
워크로드 관리를 지원하는 vSphere 클러스터의 각 ESXi 호스트에 대해 이 프로세스를 반복합니다.

NVIDIA GPU A30 및 A100 디바이스용 SR-IOV BIOS 켜기

다중 인스턴스 GPU(MIG 모드)에 필요한 NVIDIA A30 또는 A100 GPU 디바이스를 사용 중인 경우 ESXi 호스트에서 SR-IOV를 사용하도록 설정해야 합니다. SR-IOV를 사용하도록 설정하지 않으면 Tanzu Kubernetes 클러스터 노드 VM을 시작할 수 없습니다. 이 문제가 발생하면 워크로드 관리가 사용되도록 설정된 vCenter Server의 최근 작업 창에 다음과 같은 오류 메시지가 표시됩니다.

Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.

SR-IOV를 사용하도록 설정하려면 웹 콘솔을 사용하여 ESXi 호스트에 로그인합니다. 관리 > 하드웨어를 선택합니다. NVIDIA GPU 디바이스를 선택하고 SR-IOV 구성을 클릭합니다. 여기에서 SR-IOV를 켤 수 있습니다. 추가 지침은 vSphere 설명서에서 SR-IOV(Single Root I/O Virtualization)를 참조하십시오.

동적 DirectPath IO(패스스루 지원 디바이스)가 있는 vGPU

동적 DirectPath IO가 있는 vGPU를 사용하는 경우 다음 추가 구성을 수행합니다.

vSphere Client를 사용하여 vCenter Server에 로그인합니다.
vCenter 클러스터에서 대상 ESXi 호스트를 선택합니다.
구성 > 하드웨어 > PCI 디바이스를 선택합니다.
모든 PCI 디바이스 탭을 선택합니다.
대상 NVIDIA GPU 가속기 디바이스를 선택합니다.
패스스루 전환을 클릭합니다.
ESXi 호스트를 마우스 오른쪽 버튼으로 클릭하고 유지 보수 모드로 전환합니다.
호스트를 재부팅합니다.
호스트가 다시 실행되면 호스트를 유지 보수 모드에서 해제합니다.

관리자 4단계: 각 ESXi 호스트에 NVIDIA 호스트 관리자 드라이버 설치

NVIDIA vGPU 그래픽 가속을 사용하여 Tanzu Kubernetes 클러스터 노드 VM을 실행하려면 워크로드 관리가 사용되도록 설정될 vCenter 클러스터를 구성하는 각 ESXi 호스트에 NVIDIA 호스트 관리자 드라이버를 설치합니다.

NVIDIA vGPU 호스트 관리자 드라이버 구성 요소는 VIB(vSphere 설치 번들)에 패키지됩니다. NVAIE VIB는 NVIDIA GRID 라이센싱 프로그램을 통해 조직에서 제공합니다. VMware는 NVAIE VIB를 제공하지 않으며 이에 대한 다운로드 서비스도 제공하지 않습니다. 조직에서는 NVIDIA 라이센싱 프로그램의 일부로 라이센싱 서버를 설정합니다. 자세한 내용은 NVIDIA 가상 GPU 소프트웨어 빠른 시작 가이드를 참조하십시오.

NVIDIA 환경이 설정되면 각 ESXi 호스트에서 다음 명령을 실행하고 NVIDIA 라이센스 서버 주소와 NVAIE VIB 버전을 환경에 적합한 값으로 바꿉니다. 추가 지침은 VMware 지원 기술 자료에서 ESXi에서 NVIDIA VIB 설치 및 구성을 참조하십시오.

참고: ESXi 호스트에 설치된 NVAIE VIB 버전은 노드 VM에 설치된 vGPU 소프트웨어 버전과 일치해야 합니다. 아래 버전은 예시일 뿐입니다.

esxcli system maintenanceMode set --enable true
esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib
esxcli system maintenanceMode set --enable false
/etc/init.d/xorg restart

관리자 5단계: ESXi 호스트가 NVIDIA vGPU 작업을 수행할 준비가 되었는지 확인

각 ESXi 호스트가 NVIDIA vGPU 작업을 수행할 준비가 되었는지 확인하려면 워크로드 관리가 사용되도록 설정될 vCenter 클러스터의 각 ESXi 호스트에 대해 다음 검사를 수행합니다.

SSH를 사용하여 ESXi 호스트에 연결하고 셸 모드로 전환한 후 명령 nvidia-smi를 실행합니다. NVIDIA 시스템 관리 인터페이스는 NVIDA vGPU 호스트 관리자가 제공하는 명령줄 유틸리티입니다. 이 명령을 실행하면 호스트에서 GPU 및 드라이버가 반환됩니다.
다음 명령을 실행하여 NVIDIA 드라이버가 제대로 설치되었는지 확인합니다. esxcli software vib list | grep NVIDA.
호스트가 GPU Shared Direct로 구성되어 있고 SR-IOV가 켜져 있는지 확인합니다(NVIDIA A30 또는 A100 디바이스를 사용 중인 경우).
GPU용으로 구성된 ESXi 호스트에서 vSphere Client를 사용하여 PCI 디바이스가 포함된 새 가상 시스템을 생성합니다. NVIDIA vGPU 프로파일이 표시되면서 선택 가능한 상태가 됩니다.

관리자 6단계: 워크로드 관리 사용

워크로드 관리를 사용하도록 설정하려면 TKG 서비스 클러스터 배포 항목을 참조하십시오.

참고: 워크로드 관리가 사용되도록 설정된 vSphere 클러스터가 이미 있는 경우 클러스터가 vGPU용으로 구성한 ESXi 호스트를 사용하고 있다고 가정하고 이 단계를 건너뜁니다.

관리자 7단계: TKR Ubuntu로 컨텐츠 라이브러리 생성 또는 업데이트

NVIDIA vGPU에는 Ubuntu 운영 체제가 필요합니다. vGPU 클러스터에는 Tanzu Kubernetes 릴리스의 PhotonOS 버전을 사용할 수 없습니다.

VMware에서는 Tanzu Kubernetes 릴리스의 Ubuntu 버전을 제공합니다. vSphere 8부터 Ubuntu 버전은 클러스터 YAML의 주석을 사용하여 지정됩니다.

지원되는 Ubuntu TKR을 사용하여 기존 컨텐츠 라이브러리를 생성하거나 업데이트합니다. TKG 서비스 클러스터에 대한 Kubernetes 릴리스 관리의 내용을 참조하십시오.

참고: vCenter에 기존 TKR 컨텐츠 라이브러리가 이미 구성되어 있는 경우 이 단계를 건너뜁니다. TKR에 대한 두 번째 컨텐츠 라이브러리를 생성하지 마십시오. 그러면 시스템이 불안정해질 수 있습니다.

관리자 8단계: vGPU 프로파일을 사용하여 사용자 지정 VM 클래스 생성

vGPU 프로파일이 있는 사용자 지정 VM 클래스를 생성합니다. 그런 다음 클러스터 규격에서 이 VM 클래스를 사용하여 TKGS 클러스터 노드를 생성합니다. 지침은 NVIDIA vGPU 디바이스에 대한 사용자 지정 VM 클래스 생성 항목을 참조하십시오.

관리자 9단계: vSphere 네임스페이스 구성

프로비저닝하려는 각 TKG vGPU 클러스터에 대해 vSphere 네임스페이스를 생성합니다. TKG 서비스 클러스터 호스팅을 위한 vSphere 네임스페이스 생성의 내용을 참조하십시오.

편집 권한이 있는 vSphere SSO 사용자/그룹을 추가하여 vSphere 네임스페이스를 구성하고 영구 볼륨에 대한 스토리지 정책을 연결합니다. TKG 서비스 클러스터에 대한 vSphere 네임스페이스 구성의 내용을 참조하십시오.

원하는 Ubuntu 이미지가 저장된 TKR 컨텐츠 라이브러리를 vSphere 네임스페이스와 연결합니다. TKR 컨텐츠 라이브러리를 TKG 서비스와 연결의 내용을 참조하십시오.

사용자 지정 VM 클래스를 vSphere 네임스페이스와 연결합니다.

[vSphere 네임스페이스 선택]에서 VM 서비스 타일을 선택하고 VM 클래스 관리를 클릭합니다.
클래스 목록에서 생성한 사용자 지정 VM 클래스를 찾습니다.
클래스를 선택하고 추가를 클릭합니다.

추가 지침은 VM 클래스를 vSphere 네임스페이스와 연결 항목을 참조하십시오.

관리자 10단계: 감독자가 준비되었는지 확인

마지막 관리 작업은 감독자가 프로비저닝되었는지 그리고 클러스터 운영자가 AI/ML 워크로드에 대한 TKG 클러스터를 프로비저닝하는 데 이를 사용할 수 있는지 확인하는 것입니다.

vCenter SSO 인증을 사용하여 TKG 서비스 클러스터에 연결의 내용을 참조하십시오.