DevOps 엔지니어는 셀프 서비스 Automation Service Broker 카탈로그에서 작업자 노드가 AI/ML 워크로드를 실행할 수 있는 GPU 가속 TKG(Tanzu Kubernetes Grid) 클러스터를 요청할 수 있습니다.
TKG 클러스터에는 TKG 클러스터 노드에서 NVIDIA GPU 하드웨어에 대한 적절한 NVIDIA 드라이버 설정을 담당하는 Kubernetes Operator인 NVIDIA GPU Operator가 포함되어 있습니다. 배포된 클러스터는 추가적인 GPU 관련 설정 없이도 AI/ML 워크로드에 바로 사용할 수 있습니다.
배포에는 감독자 네임스페이스, 3개의 작업 노드가 있는 TKG 클러스터, TKG 클러스터 내부의 여러 리소스, GPU Operator 애플리케이션을 배포하는 Carvel 애플리케이션이 포함됩니다.
프로시저
- Automation Service Broker의 카탈로그 페이지에서 AI Kubernetes 클러스터 카드를 찾고 요청을 클릭합니다.
- 프로젝트를 선택합니다.
- 배포의 이름과 설명을 입력합니다.
- 제어 창 노드 수를 선택합니다.
설정 샘플 값 노드 수 1 VM 클래스 best-effort-4xlarge - CPU 16개 및 메모리 128GB 클래스 선택은 가상 시스템 내에서 사용할 수 있는 리소스를 정의합니다.
- 작업 노드 수를 선택합니다.
설정 설명 노드 수 3 VM 클래스 best-effort-4xlarge-a100-40c - vGPU 1개(40GB), CPU 16개, 메모리 120GB 타임 슬라이싱 복제본 1 타임 슬라이싱은 워크로드 간에 공유되는 GPU에 대한 복제본 집합을 정의합니다.
- NVIDIA AI 엔터프라이즈 API 키를 제공합니다.
- 제출을 클릭합니다.