데이터 과학자 또는 DevOps 엔지니어는 Automation Service Broker를 사용하여 NVIDIA RAG 워크로드를 배포할 수 있습니다.

RAG 워크스테이션 배포

데이터 과학자는 셀프 서비스 Automation Service Broker 카탈로그의 RAG(검색 증강 세대) 참조 솔루션을 사용하여 GPU 지원 워크스테이션을 배포할 수 있습니다.

RAG 참조 솔루션은 비즈니스 사용 사례에 맞게 기존의 기본 LLM을 확대하여 생성 AI에서 비즈니스 가치를 찾는 방법을 보여줍니다. 이 작업은 회사 비즈니스 데이터가 포함된 엔터프라이즈 기술 자료에서 사실을 검색하는 RAG(검색 증강 생성)를 사용하여 수행됩니다. 도메인별 비즈니스 데이터로 LLM을 확대하여 민첩하고 새로운 개발에 대응하는 AI 애플리케이션을 생성하는 방법에 특별한 주의를 기울이십시오.

프로시저

  1. Automation Service Broker카탈로그 페이지에서 AI RAG Workstation 카드를 찾고 요청을 클릭합니다.
  2. 프로젝트를 선택합니다.
  3. 배포의 이름과 설명을 입력합니다.
  4. RAG 워크스테이션 매개 변수를 구성합니다.
    설정 샘플 값
    VM 클래스 A100 소형 - vGPU 1개(16GB), CPU 8개 및 메모리 16GB
    최소 VM 클래스 규격:
    • CPU: vCPU 10개
    • CPU RAM: 64GB
    • GPU: 2xH100
    • GPU 메모리: 50GB
    데이터 디스크 크기 3Gi
    사용자 암호 조각 모음 사용자의 암호를 입력합니다. 처음 로그인할 때 암호를 재설정하라는 메시지가 표시될 수 있습니다.
    SSH 공용 키 이 설정은 선택 사항입니다.
  5. 소프트웨어 사용자 지정을 설치합니다.
    1. (선택 사항) RAG 소프트웨어 번들에 대해 정의된 cloud-init 외에 사용자 지정 cloud-init를 설치하려면 확인란을 선택하고 구성 패키지의 컨텐츠를 붙여넣습니다.
      VMware Aria Automation은 RAG 소프트웨어 번들의 cloud-init와 사용자 지정 cloud-init를 병합합니다.
    2. NVIDIA NGC 포털 액세스 키를 제공합니다.
    3. Docker Hub 자격 증명을 입력합니다.
  6. 제출을 클릭합니다.

결과

워크스테이션에는 Ubuntu 22.04, NVIDIA vGPU 드라이버, Docker Engine, NVIDIA Container Toolkit, Llama-2-13b-chat 모델을 사용하는 참조 RAG 솔루션이 포함됩니다.

GPU 가속 Tanzu Kubernetes Grid RAG 클러스터 배포

셀프 서비스 Automation Service Broker 카탈로그를 사용하는 DevOps 엔지니어는 GPU 지원 Tanzu Kubernetes Grid RAG 클러스터를 프로비저닝할 수 있습니다. 여기서 작업자 노드는 Llama2-13b-chat 모델을 사용하는 참조 RAG 솔루션을 실행할 수 있습니다.

배포에는 감독자 네임스페이스 및 Tanzu Kubernetes Grid 클러스터가 포함됩니다. TKG 클러스터에는 두 개의 감독자 네임스페이스가 포함되어 있습니다. 하나는 NVIDIA GPU Operator용이고 다른 하나는 NVIDIA RAG LLM Operator용이며, 둘 다 TKG 클러스터에 미리 설치됩니다. 각 Operator용 Carvel 애플리케이션은 이 두 네임스페이스 내에 배포됩니다.

프로시저

  1. Automation Service Broker카탈로그 페이지에서 AI Kubernetes RAG 클러스터 카드를 찾고 요청을 클릭합니다.
  2. 프로젝트를 선택합니다.
  3. 배포의 이름과 설명을 입력합니다.
  4. 제어 창 노드 수를 선택합니다.
    설정 샘플 값
    노드 수 1
    VM 클래스 best-effort-2xlarge - CPU 8개 및 메모리 64GB

    클래스 선택은 가상 시스템 내에서 사용할 수 있는 리소스를 정의합니다.

  5. 작업 노드 수를 선택합니다.
    설정 설명
    노드 수 3
    VM 클래스 best-effort-4xlarge-a100-40c - vGPU 1개(40GB), CPU 16개, 메모리 120GB
    최소 VM 클래스 규격:
    • CPU: vCPU 10개
    • CPU RAM: 64GB
    • GPU: 2xH100
    • GPU 메모리: 50GB
    타임 슬라이싱 복제본 1

    타임 슬라이싱은 워크로드 간에 공유되는 GPU에 대한 복제본 집합을 정의합니다.

  6. NVIDIA AI 엔터프라이즈 API 키를 제공합니다.
  7. 제출을 클릭합니다.