데이터 과학자 또는 DevOps 엔지니어는 Automation Service Broker를 사용하여 NVIDIA RAG 워크로드를 배포할 수 있습니다.
RAG 워크스테이션 배포
데이터 과학자는 셀프 서비스 Automation Service Broker 카탈로그의 RAG(검색 증강 세대) 참조 솔루션을 사용하여 GPU 지원 워크스테이션을 배포할 수 있습니다.
프로시저
- Automation Service Broker의 카탈로그 페이지에서 AI RAG Workstation 카드를 찾고 요청을 클릭합니다.
- 프로젝트를 선택합니다.
- 배포의 이름과 설명을 입력합니다.
- RAG 워크스테이션 매개 변수를 구성합니다.
설정 샘플 값 VM 클래스 A100 소형 - vGPU 1개(16GB), CPU 8개 및 메모리 16GB 최소 VM 클래스 규격:- CPU: vCPU 10개
- CPU RAM: 64GB
- GPU: 2xH100
- GPU 메모리: 50GB
데이터 디스크 크기 3Gi 사용자 암호 조각 모음 사용자의 암호를 입력합니다. 처음 로그인할 때 암호를 재설정하라는 메시지가 표시될 수 있습니다. SSH 공용 키 이 설정은 선택 사항입니다. - 소프트웨어 사용자 지정을 설치합니다.
- (선택 사항) RAG 소프트웨어 번들에 대해 정의된 cloud-init 외에 사용자 지정 cloud-init를 설치하려면 확인란을 선택하고 구성 패키지의 컨텐츠를 붙여넣습니다.
VMware Aria Automation은 RAG 소프트웨어 번들의 cloud-init와 사용자 지정 cloud-init를 병합합니다.
- NVIDIA NGC 포털 액세스 키를 제공합니다.
- Docker Hub 자격 증명을 입력합니다.
- (선택 사항) RAG 소프트웨어 번들에 대해 정의된 cloud-init 외에 사용자 지정 cloud-init를 설치하려면 확인란을 선택하고 구성 패키지의 컨텐츠를 붙여넣습니다.
- 제출을 클릭합니다.
결과
GPU 가속 Tanzu Kubernetes Grid RAG 클러스터 배포
셀프 서비스 Automation Service Broker 카탈로그를 사용하는 DevOps 엔지니어는 GPU 지원 Tanzu Kubernetes Grid RAG 클러스터를 프로비저닝할 수 있습니다. 여기서 작업자 노드는 Llama2-13b-chat 모델을 사용하는 참조 RAG 솔루션을 실행할 수 있습니다.
배포에는 감독자 네임스페이스 및 Tanzu Kubernetes Grid 클러스터가 포함됩니다. TKG 클러스터에는 두 개의 감독자 네임스페이스가 포함되어 있습니다. 하나는 NVIDIA GPU Operator용이고 다른 하나는 NVIDIA RAG LLM Operator용이며, 둘 다 TKG 클러스터에 미리 설치됩니다. 각 Operator용 Carvel 애플리케이션은 이 두 네임스페이스 내에 배포됩니다.
프로시저
- Automation Service Broker의 카탈로그 페이지에서 AI Kubernetes RAG 클러스터 카드를 찾고 요청을 클릭합니다.
- 프로젝트를 선택합니다.
- 배포의 이름과 설명을 입력합니다.
- 제어 창 노드 수를 선택합니다.
설정 샘플 값 노드 수 1 VM 클래스 best-effort-2xlarge - CPU 8개 및 메모리 64GB 클래스 선택은 가상 시스템 내에서 사용할 수 있는 리소스를 정의합니다.
- 작업 노드 수를 선택합니다.
설정 설명 노드 수 3 VM 클래스 best-effort-4xlarge-a100-40c - vGPU 1개(40GB), CPU 16개, 메모리 120GB 최소 VM 클래스 규격:- CPU: vCPU 10개
- CPU RAM: 64GB
- GPU: 2xH100
- GPU 메모리: 50GB
타임 슬라이싱 복제본 1 타임 슬라이싱은 워크로드 간에 공유되는 GPU에 대한 복제본 집합을 정의합니다.
- NVIDIA AI 엔터프라이즈 API 키를 제공합니다.
- 제출을 클릭합니다.