데이터 과학자 또는 DevOps 엔지니어는 Automation Service Broker를 사용하여 NVIDIA RAG 워크로드를 배포할 수 있습니다.
참고: 이 설명서는
VMware Aria Automation 8.18을 기반으로 합니다.
VMware Aria Automation 8.18.1의
VMware Private AI Foundation 기능에 대한 자세한 내용은
VMware Private AI Foundation with
NVIDIA 설명서에서
VMware Aria Automation에서 셀프 서비스 카탈로그 항목을 사용하여 RAG 워크로드 배포를 참조하십시오.
RAG 워크스테이션 배포
데이터 과학자는 셀프 서비스 Automation Service Broker 카탈로그의 RAG(검색 증강 세대) 참조 솔루션을 사용하여 GPU 지원 워크스테이션을 배포할 수 있습니다.
프로시저
- Automation Service Broker의 카탈로그 페이지에서 AI RAG Workstation 카드를 찾고 요청을 클릭합니다.
- 프로젝트를 선택합니다.
- 배포의 이름과 설명을 입력합니다.
- RAG 워크스테이션 매개 변수를 구성합니다.
설정 샘플 값 VM 클래스 A100 소형 - vGPU 1개(16GB), CPU 8개 및 메모리 16GB 최소 VM 클래스 규격:- CPU: vCPU 10개
- CPU RAM: 64GB
- GPU: 2xH100
- GPU 메모리: 50GB
데이터 디스크 크기 3Gi 사용자 암호 조각 모음 사용자의 암호를 입력합니다. 처음 로그인할 때 암호를 재설정하라는 메시지가 표시될 수 있습니다. SSH 공용 키 이 설정은 선택 사항입니다. - 소프트웨어 사용자 지정을 설치합니다.
- (선택 사항) RAG 소프트웨어 번들에 대해 정의된 cloud-init 외에 사용자 지정 cloud-init를 설치하려면 확인란을 선택하고 구성 패키지의 컨텐츠를 붙여넣습니다.
VMware Aria Automation은 RAG 소프트웨어 번들의 cloud-init와 사용자 지정 cloud-init를 병합합니다.
- NVIDIA NGC 포털 액세스 키를 제공합니다.
- Docker Hub 자격 증명을 입력합니다.
- (선택 사항) RAG 소프트웨어 번들에 대해 정의된 cloud-init 외에 사용자 지정 cloud-init를 설치하려면 확인란을 선택하고 구성 패키지의 컨텐츠를 붙여넣습니다.
- 제출을 클릭합니다.
결과
GPU 가속 Tanzu Kubernetes Grid RAG 클러스터 배포
셀프 서비스 Automation Service Broker 카탈로그를 사용하는 DevOps 엔지니어는 GPU 지원 Tanzu Kubernetes Grid RAG 클러스터를 프로비저닝할 수 있습니다. 여기서 작업자 노드는 Llama2-13b-chat 모델을 사용하는 참조 RAG 솔루션을 실행할 수 있습니다.
배포에는 감독자 네임스페이스 및 Tanzu Kubernetes Grid 클러스터가 포함됩니다. TKG 클러스터에는 두 개의 감독자 네임스페이스가 포함되어 있습니다. 하나는 NVIDIA GPU Operator용이고 다른 하나는 NVIDIA RAG LLM Operator용이며, 둘 다 TKG 클러스터에 미리 설치됩니다. 각 Operator용 Carvel 애플리케이션은 이 두 네임스페이스 내에 배포됩니다.
프로시저
- Automation Service Broker의 카탈로그 페이지에서 AI Kubernetes RAG 클러스터 카드를 찾고 요청을 클릭합니다.
- 프로젝트를 선택합니다.
- 배포의 이름과 설명을 입력합니다.
- 제어 창 노드 수를 선택합니다.
설정 샘플 값 노드 수 1 VM 클래스 best-effort-2xlarge - CPU 8개 및 메모리 64GB 클래스 선택은 가상 시스템 내에서 사용할 수 있는 리소스를 정의합니다.
- 작업 노드 수를 선택합니다.
설정 설명 노드 수 3 VM 클래스 best-effort-4xlarge-a100-40c - vGPU 1개(40GB), CPU 16개, 메모리 120GB 최소 VM 클래스 규격:- CPU: vCPU 10개
- CPU RAM: 64GB
- GPU: 2xH100
- GPU 메모리: 50GB
타임 슬라이싱 복제본 1 타임 슬라이싱은 워크로드 간에 공유되는 GPU에 대한 복제본 집합을 정의합니다.
- NVIDIA AI 엔터프라이즈 API 키를 제공합니다.
- 제출을 클릭합니다.