DevOps 엔지니어는 셀프 서비스 Automation Service Broker 카탈로그에서 작업자 노드가 AI/ML 워크로드를 실행할 수 있는 GPU 가속 TKG(Tanzu Kubernetes Grid) 클러스터를 요청할 수 있습니다.

TKG 클러스터에는 TKG 클러스터 노드에서 NVIDIA GPU 하드웨어에 대한 적절한 NVIDIA 드라이버 설정을 담당하는 Kubernetes Operator인 NVIDIA GPU Operator가 포함되어 있습니다. 배포된 클러스터는 추가적인 GPU 관련 설정 없이도 AI/ML 워크로드에 바로 사용할 수 있습니다.

배포에는 감독자 네임스페이스, 3개의 작업 노드가 있는 TKG 클러스터, TKG 클러스터 내부의 여러 리소스, GPU Operator 애플리케이션을 배포하는 Carvel 애플리케이션이 포함됩니다.

프로시저

  1. Automation Service Broker카탈로그 페이지에서 AI Kubernetes 클러스터 카드를 찾고 요청을 클릭합니다.
  2. 프로젝트를 선택합니다.
  3. 배포의 이름과 설명을 입력합니다.
  4. 제어 창 노드 수를 선택합니다.
    설정 샘플 값
    노드 수 1
    VM 클래스 best-effort-4xlarge - CPU 16개 및 메모리 128GB

    클래스 선택은 가상 시스템 내에서 사용할 수 있는 리소스를 정의합니다.

  5. 작업 노드 수를 선택합니다.
    설정 설명
    노드 수 3
    VM 클래스 best-effort-4xlarge-a100-40c - vGPU 1개(40GB), CPU 16개, 메모리 120GB
    타임 슬라이싱 복제본 1

    타임 슬라이싱은 워크로드 간에 공유되는 GPU에 대한 복제본 집합을 정의합니다.

  6. NVIDIA AI 엔터프라이즈 API 키를 제공합니다.
  7. 제출을 클릭합니다.