클라우드 관리자가 VMware Aria Automation에서 Private AI Automation Services를 설정한 경우 Automation Service Broker 카탈로그를 사용하여 AI 워크플로를 요청할 수 있습니다.

Private AI Automation ServicesAutomation Service Broker에서 해당 사용 권한이 있는 사용자가 액세스하고 요청할 수 있는 두 가지 카탈로그 항목을 지원합니다.

  • AI Workstation – NVIDIA의 원하는 vCPU, vGPU, 메모리 및 AI/ML 소프트웨어로 구성할 수 있는 GPU 지원 가상 시스템입니다.
  • AI Kubernetes 클러스터 - NVIDIA GPU 연산자로 구성할 수 있는 GPU 지원 Tanzu Kubernetes 클러스터입니다.
중요: Private AI Automation Services 오퍼링은 VMware Aria Automation 8.16.2에서 사용할 수 있습니다.

시작하기 전에

  • 프로젝트에 대해 Private AI Automation Services가 구성되어 있고 AI 카탈로그 항목을 요청할 수 있는 사용 권한이 있는지 확인합니다.

여기의 모든 값은 사용 사례 샘플입니다. 계정 값은 환경에 따라 다릅니다.

VI 워크로드 도메인에 딥 러닝 가상 시스템 배포

데이터 과학자는 셀프 서비스 Automation Service Broker 카탈로그에서 단일 GPU 소프트웨어 정의 개발 환경을 배포할 수 있습니다. 시스템 매개 변수를 사용하여 GPU 지원 가상 시스템을 사용자 지정하여 개발 요구 사항을 모델링하고, 교육 및 유추 요구 사항을 충족하도록 AI/ML 소프트웨어 구성을 지정하고, 포털 액세스 키를 통해 NVIDIA NGC 레지스트리에서 AI/ML 패키지를 지정할 수 있습니다.

프로시저

  1. Automation Service Broker에서 사용 탭을 클릭합니다.
  2. 카탈로그를 클릭합니다.
    선택한 프로젝트에 기반하여 사용 가능한 카탈로그 항목이 표시됩니다. 프로젝트를 선택하지 않은 경우 사용할 수 있는 모든 카탈로그 항목이 카탈로그에 표시됩니다.
  3. AI Workstation 카드를 찾아 요청을 클릭합니다.
  4. 프로젝트를 선택합니다.
  5. 배포의 이름과 설명을 입력합니다.
  6. AI 워크스테이션 매개 변수를 구성합니다.
    설정 샘플 값
    VM 클래스 A100 소형 - vGPU 1개(16GB), CPU 8개 및 메모리 16GB
    데이터 디스크 크기 8GB
    사용자 암호 조각 모음 사용자의 암호를 입력합니다. 처음 로그인할 때 암호를 재설정하라는 메시지가 표시될 수 있습니다.
    SSH 공용 키 이 설정은 선택 사항입니다.
  7. 워크스테이션에 설치할 소프트웨어 번들을 선택합니다.
    설정 설명
    PyTorch PyTorch NGC 컨테이너는 GPU 가속에 최적화되어 있으며 GPU 성능을 사용하도록 설정하고 최적화하는 검증된 라이브러리 집합을 포함합니다. 이 컨테이너에는 ETL(DALI, RAPIDS), 교육(cuDNN, NCCL) 및 TensorRT(유추) 워크로드를 가속화하기 위한 소프트웨어도 포함되어 있습니다.
    TensorFlow TensorFlow NGC 컨테이너는 GPU 가속에 최적화되어 있으며 GPU 성능을 사용하도록 설정하고 최적화하는 검증된 라이브러리 집합을 포함합니다. 이 컨테이너에는 성능 및 호환성을 최대화하기 위해 TensorFlow 소스 코드에 대한 수정 사항이 포함될 수도 있습니다. 이 컨테이너에는 ETL(DALI, RAPIDS), 교육(cuDNN, NCCL) 및 TensorRT(유추) 워크로드를 가속화하기 위한 소프트웨어도 포함되어 있습니다.
    CUDA 샘플 GPU에서 CUDA 워크로드를 실행하는 컨테이너 모음입니다. 컬렉션에는 컨테이너화된 CUDA 샘플(예: vectorAdd(벡터 추가를 시연하기 위해), nbody(또는 중력 n-body 시뮬레이션) 및 기타 예가 포함됩니다. 이러한 컨테이너는 시스템에서 GPU의 소프트웨어 구성을 검증하거나 일부 예제 워크로드를 실행하는 데 사용할 수 있습니다.
    DCGM Exporter NVIDIA DCGM(Data Center GPU Manager)은 클러스터 환경에서 NVIDIA 데이터 센터 GPU를 관리하고 모니터링하기 위한 도구 모음입니다. 모니터링 스택은 일반적으로 수집기, 메트릭을 저장하는 시계열 데이터베이스 및 시각화 계층으로 구성됩니다. DCGM-Exporter는 Prometheus가 상태를 모니터링하고 GPU에서 메트릭을 가져오기 위한 내보내기입니다.
    트리톤 유추 서버 Triton 유추 서버는 CPU와 GPU 모두에 최적화된 클라우드 및 Edge 유추 솔루션을 제공합니다. Triton은 원격 클라이언트가 서버에서 관리되는 모든 모델에 대해 유추를 요청할 수 있도록 하는 HTTP/REST 및 GRPC 프로토콜을 지원합니다. Edge 배포의 경우 Triton은 Triton의 전체 기능을 애플리케이션에 직접 포함할 수 있는 C API가 있는 공유 라이브러리로 사용할 수 있습니다.
    생성 AI 워크플로 - RAG 이 참조 솔루션은 비즈니스 사용 사례에 맞게 기존의 기본 LLM을 확대하여 생성 AI에서 비즈니스 가치를 찾는 방법을 보여줍니다. 이 작업은 회사의 비즈니스 데이터가 포함된 엔터프라이즈 기술 자료에서 사실을 검색하는 RAG(검색 증강 생성)를 사용하여 수행됩니다. 강력한 RAG 기반 AI 챗봇에 대한 참조 솔루션은 개발자를 위한 NVIDIA의 생성 AI 예제 Github에서 사용할 수 있는 코드를 포함하여 이 간략한 설명에 설명되어 있습니다. 도메인별 비즈니스 데이터로 LLM을 확대하여 민첩하고 새로운 개발에 대응하는 AI 애플리케이션을 생성하는 방법에 특별한 주의를 기울이십시오.
  8. 소프트웨어 번들에 대해 정의된 cloud-init 외에 설치할 사용자 지정 cloud-init를 입력합니다.
    VMware Aria Automation은 소프트웨어 번들의 cloud-init와 사용자 지정 cloud-init를 병합합니다.
  9. NVIDIANGC 포털 액세스 키를 제공합니다.
  10. 제출을 클릭합니다.

AI 지원 Tanzu Kubernetes 클러스터 배포

DevOps 엔지니어는 작업자 노드가 AI/ML 워크로드를 실행할 수 있는 GPU 지원 Tanzu Kubernetes 클러스터를 요청할 수 있습니다.

TKG 클러스터에는 TKG 클러스터 노드에서 NVIDIA GPU 하드웨어에 대한 적절한 NVIDIA 드라이버 설정을 담당하는 Kubernetes 연산자인 NVIDIA GPU 연산자가 포함되어 있습니다. 배포된 클러스터는 추가적인 GPU 관련 설정 없이도 AI/ML 워크로드에 바로 사용할 수 있습니다.

프로시저

  1. AI Kubernetes 클러스터 카드를 찾아 요청을 클릭합니다.
  2. 프로젝트를 선택합니다.
  3. 배포의 이름과 설명을 입력합니다.
  4. 제어 창 노드 수를 선택합니다.
    설정 샘플 값
    노드 수 1
    VM 클래스 cpu-only-medium - CPU 8개 및 메모리 16GB

    클래스 선택은 가상 시스템 내에서 사용할 수 있는 리소스를 정의합니다.

  5. 작업 노드 수를 선택합니다.
    설정 설명
    노드 수 3
    VM 클래스 a100-medium - vGPU 4개(64GB), CPU 16개 및 메모리 32GB
  6. 제출을 클릭합니다.

결과

배포에는 감독자 네임스페이스, 3개의 작업 노드가 있는 TKG 클러스터, TKG 클러스터 내부의 여러 리소스, GPU 연산자 애플리케이션을 배포하는 Carvel 애플리케이션이 포함됩니다.

개인 AI 배포 모니터링

[배포] 페이지를 사용하여 배포 및 연결된 리소스를 관리하고, 배포를 변경하고, 실패한 배포 문제를 해결하고, 리소스를 변경하고, 사용되지 않는 배포를 삭제할 수 있습니다.

배포를 관리하려면 사용 > 배포 > 배포를 선택합니다.

자세한 내용은 내 Automation Service Broker 배포를 관리하는 방법 항목을 참조하십시오.