개발자가 TKG 클러스터에 AI/ML 워크로드를 배포할 수 있도록 하려면 vSphere 관리자가 NVIDIA GPU 하드웨어를 지원하도록 감독자 환경을 설정해야 합니다.
관리 1단계: 시스템 요구 사항 검토
관리자 2단계: ESXi 호스트에 지원되는 NVIDIA GPU 디바이스 설치
TKG에 AI/ML 워크로드를 배포하려면 워크로드 관리가 사용되도록 설정될 vCenter 클러스터를 구성하는 각 ESXi 호스트에 하나 이상의 지원되는 NVIDIA GPU 디바이스를 설치합니다.
호환되는 NVIDIA GPU 디바이스를 보려면 VMware 호환성 가이드를 참조하십시오.
NVIDA GPU 디바이스는 최신 NVAIE(NVIDIA AI Enterprise) vGPU 프로파일을 지원해야 합니다. 지침을 보려면 NVIDIA 가상 GPU 소프트웨어 지원 GPU 설명서를 참조하십시오.
예를 들어 다음 ESXi 호스트에는 두 개의 NVIDIA GPU A100 디바이스가 설치되어 있습니다.
관리자 3단계: vGPU 작업을 위한 각 ESXi 호스트 구성
워크로드 관리가 사용되도록 설정된 vCenter 클러스터를 구성하는 각 ESXi 호스트에 대해 Shared Direct 및 SR-IOV를 사용하도록 설정하여 NVIDIA vGPU에 대한 호스트를 구성합니다.
각 ESXi 호스트에서 Shared Direct 사용
NVIDIA vGPU 기능의 잠금을 해제하려면 워크로드 관리가 사용되도록 설정된 vCenter 클러스터를 구성하는 각 ESXi 호스트에서 Shared Direct 모드를 사용하도록 설정합니다.
- vSphere Client를 사용하여 vCenter Server에 로그인합니다.
- vCenter 클러스터에서 ESXi 호스트를 선택합니다.
- 를 선택합니다.
- NVIDIA GPU 가속기 디바이스를 선택합니다.
- 그래픽 디바이스 설정을 편집합니다.
- Shared Direct를 선택합니다.
- 공유 패스스루 GPU 할당 정책의 경우 최고의 성능을 위해 GPU 전체에 VM 분산을 선택합니다.
- 확인을 클릭하여 구성을 저장합니다.
- 이 설정은 호스트를 다시 시작한 후에 적용됩니다.
- ESXi 호스트를 마우스 오른쪽 버튼으로 클릭하고 유지 보수 모드로 전환합니다.
- 호스트를 재부팅합니다.
- 호스트가 다시 실행되면 호스트를 유지 보수 모드에서 해제합니다.
- 워크로드 관리를 지원하는 vSphere 클러스터의 각 ESXi 호스트에 대해 이 프로세스를 반복합니다.
NVIDIA GPU A30 및 A100 디바이스용 SR-IOV BIOS 켜기
다중 인스턴스 GPU(MIG 모드)에 필요한 NVIDIA A30 또는 A100 GPU 디바이스를 사용 중인 경우 ESXi 호스트에서 SR-IOV를 사용하도록 설정해야 합니다. SR-IOV를 사용하도록 설정하지 않으면 Tanzu Kubernetes 클러스터 노드 VM을 시작할 수 없습니다. 이 문제가 발생하면 워크로드 관리가 사용되도록 설정된 vCenter Server의 최근 작업 창에 다음과 같은 오류 메시지가 표시됩니다.
Could not initialize plugin libnvidia-vgx.so for vGPU nvidia_aXXX-xx. Failed to start the virtual machine. Module DevicePowerOn power on failed.
SR-IOV를 사용하도록 설정하려면 웹 콘솔을 사용하여 ESXi 호스트에 로그인합니다. SR-IOV 구성을 클릭합니다. 여기에서 SR-IOV를 켤 수 있습니다. 추가 지침은 vSphere 설명서에서 SR-IOV(Single Root I/O Virtualization)를 참조하십시오.
를 선택합니다. NVIDIA GPU 디바이스를 선택하고동적 DirectPath IO(패스스루 지원 디바이스)가 있는 vGPU
- vSphere Client를 사용하여 vCenter Server에 로그인합니다.
- vCenter 클러스터에서 대상 ESXi 호스트를 선택합니다.
- 를 선택합니다.
- 모든 PCI 디바이스 탭을 선택합니다.
- 대상 NVIDIA GPU 가속기 디바이스를 선택합니다.
- 패스스루 전환을 클릭합니다.
- ESXi 호스트를 마우스 오른쪽 버튼으로 클릭하고 유지 보수 모드로 전환합니다.
- 호스트를 재부팅합니다.
- 호스트가 다시 실행되면 호스트를 유지 보수 모드에서 해제합니다.
관리자 4단계: 각 ESXi 호스트에 NVIDIA 호스트 관리자 드라이버 설치
NVIDIA vGPU 그래픽 가속을 사용하여 Tanzu Kubernetes 클러스터 노드 VM을 실행하려면 워크로드 관리가 사용되도록 설정될 vCenter 클러스터를 구성하는 각 ESXi 호스트에 NVIDIA 호스트 관리자 드라이버를 설치합니다.
NVIDIA vGPU 호스트 관리자 드라이버 구성 요소는 VIB(vSphere 설치 번들)에 패키지됩니다. NVAIE VIB는 NVIDIA GRID 라이센싱 프로그램을 통해 조직에서 제공합니다. VMware는 NVAIE VIB를 제공하지 않으며 이에 대한 다운로드 서비스도 제공하지 않습니다. 조직에서는 NVIDIA 라이센싱 프로그램의 일부로 라이센싱 서버를 설정합니다. 자세한 내용은 NVIDIA 가상 GPU 소프트웨어 빠른 시작 가이드를 참조하십시오.
esxcli system maintenanceMode set --enable true esxcli software vib install -v ftp://server.domain.example.com/nvidia/signed/NVIDIA_bootbank_NVIDIA-VMware_ESXi_7.0_Host_Driver_460.73.02-1OEM.700.0.0.15525992.vib esxcli system maintenanceMode set --enable false /etc/init.d/xorg restart
관리자 5단계: ESXi 호스트가 NVIDIA vGPU 작업을 수행할 준비가 되었는지 확인
- SSH를 사용하여 ESXi 호스트에 연결하고 셸 모드로 전환한 후 명령
nvidia-smi
를 실행합니다. NVIDIA 시스템 관리 인터페이스는 NVIDA vGPU 호스트 관리자가 제공하는 명령줄 유틸리티입니다. 이 명령을 실행하면 호스트에서 GPU 및 드라이버가 반환됩니다. - 다음 명령을 실행하여 NVIDIA 드라이버가 제대로 설치되었는지 확인합니다.
esxcli software vib list | grep NVIDA
. - 호스트가 GPU Shared Direct로 구성되어 있고 SR-IOV가 켜져 있는지 확인합니다(NVIDIA A30 또는 A100 디바이스를 사용 중인 경우).
- GPU용으로 구성된 ESXi 호스트에서 vSphere Client를 사용하여 PCI 디바이스가 포함된 새 가상 시스템을 생성합니다. NVIDIA vGPU 프로파일이 표시되면서 선택 가능한 상태가 됩니다.
관리자 6단계: 워크로드 관리 사용
관리자 7단계: TKR Ubuntu로 컨텐츠 라이브러리 생성 또는 업데이트
NVIDIA vGPU에는 Ubuntu 운영 체제가 필요합니다. vGPU 클러스터에는 Tanzu Kubernetes 릴리스의 PhotonOS 버전을 사용할 수 없습니다.
VMware에서는 Tanzu Kubernetes 릴리스의 Ubuntu 버전을 제공합니다. vSphere 8부터 Ubuntu 버전은 클러스터 YAML의 주석을 사용하여 지정됩니다.
관리자 8단계: vGPU 프로파일을 사용하여 사용자 지정 VM 클래스 생성
vGPU 프로파일이 있는 사용자 지정 VM 클래스를 생성합니다. 그런 다음 클러스터 규격에서 이 VM 클래스를 사용하여 TKGS 클러스터 노드를 생성합니다. 지침은 NVIDIA vGPU 디바이스에 대한 사용자 지정 VM 클래스 생성 항목을 참조하십시오.
관리자 9단계: vSphere 네임스페이스 구성
프로비저닝하려는 각 TKG vGPU 클러스터에 대해 vSphere 네임스페이스를 생성합니다. TKG 서비스 클러스터 호스팅을 위한 vSphere 네임스페이스 생성의 내용을 참조하십시오.
편집 권한이 있는 vSphere SSO 사용자/그룹을 추가하여 vSphere 네임스페이스를 구성하고 영구 볼륨에 대한 스토리지 정책을 연결합니다. TKG 서비스 클러스터에 대한 vSphere 네임스페이스 구성의 내용을 참조하십시오.
원하는 Ubuntu 이미지가 저장된 TKR 컨텐츠 라이브러리를 vSphere 네임스페이스와 연결합니다. TKR 컨텐츠 라이브러리를 TKG 서비스와 연결의 내용을 참조하십시오.
- [vSphere 네임스페이스 선택]에서 VM 서비스 타일을 선택하고 VM 클래스 관리를 클릭합니다.
- 클래스 목록에서 생성한 사용자 지정 VM 클래스를 찾습니다.
- 클래스를 선택하고 추가를 클릭합니다.
관리자 10단계: 감독자가 준비되었는지 확인
마지막 관리 작업은 감독자가 프로비저닝되었는지 그리고 클러스터 운영자가 AI/ML 워크로드에 대한 TKG 클러스터를 프로비저닝하는 데 이를 사용할 수 있는지 확인하는 것입니다.
vCenter SSO 인증을 사용하여 TKG 서비스 클러스터에 연결의 내용을 참조하십시오.