클라우드 관리자는 VMware Cloud Foundation 스택을 활용하여 GPU 지원 인프라 및 AI/ML 워크로드 도메인을 관리할 수 있습니다. VMware Aria Automation에서는 GPU 지원 DL VM(딥 러닝 가상 시스템) 및 TKG(Tanzu Kubernetes Grid) 클러스터를 조직의 데이터 과학자 및 DevOps 팀이 셀프 서비스 Automation Service Broker 카탈로그에서 요청할 수 있는 카탈로그 항목으로 설정하고 제공할 수 있습니다.

VMware Private AI Foundation이란?

VMware Private AI Foundation with NVIDIANVIDIA GPU를 사용하여 VMware Cloud Foundation에서 AI 워크로드를 프로비저닝하기 위한 플랫폼을 제공합니다. 또한 NGC(NVIDIA GPU Cloud) 컨테이너를 기반으로 AI 워크로드를 실행하는 것은 VMware by Broadcom에 의해 특별히 검증되었습니다. 자세한 내용은 VMware Private AI Foundation with NVIDIA란?에서 참조하십시오.

Private AI Automation ServicesVMware Aria Automation에서 사용할 수 있는 모든 VMware Private AI Foundation 기능의 총칭입니다.

Private AI Automation Services를 시작하려면 VMware Aria Automation에서 카탈로그 설정 마법사를 실행합니다. 이 마법사는 VMware Private AI FoundationVMware Aria Automation에 연결하는 데 유용합니다.

카탈로그 설정 마법사의 작동 방식은 무엇입니까?

중요: 카탈로그 설정 마법사는 기본적으로 사용하도록 설정되지 않습니다. 조직에 맞는 마법사를 활성화하려면 VMware by Broadcom 전문 서비스에 문의하십시오.
카탈로그 설정 마법사를 사용하여 다음 작업을 수행합니다.
  1. 클라우드 계정을 추가합니다. 클라우드 계정은 vCenter 인스턴스에서 데이터를 수집하고 리소스를 배포하는 데 사용되는 자격 증명입니다.
  2. NVIDIA 라이센스를 추가합니다.
  3. Automation Service Broker 카탈로그에 추가할 컨텐츠를 선택합니다.
  4. 프로젝트를 생성합니다. 프로젝트는 사용자를 클라우드 계정 지역과 연결합니다. 그래야 사용자가 네트워크 및 스토리지 리소스가 포함된 클라우드 템플릿을 vCenter 인스턴스에 배포할 수 있습니다.
카탈로그 설정 마법사를 처음 실행하면 Automation Service Broker 카탈로그에 조직의 사용자가 배포할 수 있는 다음 카탈로그 항목이 생성됩니다.
  • AI Workstation – 원하는 vCPU, vGPU, 메모리 및 PyTorch, CUDA 샘플 및 TensorFlow와 같은 AI/ML 프레임워크를 미리 설치하는 옵션으로 구성할 수 있는 GPU 지원 가상 시스템입니다.
  • AI RAG Workstation – RAG(검색 증강 생성) 참조 솔루션을 갖춘 GPU 지원 가상 시스템입니다.
  • Triton 추론 서버 - Triton 추론 서버가 있는 GPU 지원 가상 시스템입니다.
  • AI Kubernetes 클러스터 – AI/ML 클라우드 네이티브 워크로드를 실행하기 위한 GPU 지원 작업자 노드가 있는 VMware Tanzu Kubernetes Grid 클러스터입니다.
  • AI Kubernetes RAG 클러스터 – 참조 RAG 솔루션을 실행하기 위한 GPU 지원 작업자 노드가 있는 VMware Tanzu Kubernetes Grid 클러스터입니다.

라이센싱 변경과 같이 제공한 설정을 변경해야 하거나 다른 프로젝트에 대한 AI 카탈로그 항목을 생성하려는 경우 마법사를 여러 번 다시 실행할 수 있습니다. 마법사를 실행할 때마다 이전에 생성한 항목 외에 새 카탈로그 항목 다섯 개가 생성됩니다.

마법사가 생성한 카탈로그 항목에 대한 템플릿을 조직의 특정 요구 사항에 맞게 수정할 수 있습니다.

시작하기 전에

  • VMware Aria Automation 8.18을 실행 중인지 확인합니다.
  • vCenter 8.0 업데이트 U2b 이상이 포함된 VMware Cloud Foundation 5.1.1 이상을 실행 중인지 확인합니다.
  • VMware Aria AutomationvCenter 클라우드 계정이 있는지 확인합니다.
  • 프리미엄 클라우드 서비스 구독이 있는 NVIDIA GPU Cloud Enterprise 조직이 있는지 확인합니다.
  • 워크로드 관리를 통해 GPU 지원 감독자 클러스터를 구성했는지 확인합니다.
  • VMware Private AI Foundation with NVIDIA에 대한 VMware Aria Automation을 구성합니다. VMware Private AI Foundation with NVIDIA에 대한 VMware Aria Automation 설정의 내용을 참조하십시오.
  • 카탈로그 설정 마법사를 실행하기 전에 VMware Cloud Foundation 빠른 시작을 완료합니다. SDDC 및 감독자 클러스터를 VMware Aria Automation에 등록해야 합니다. VMware Cloud Foundation 빠른 시작을 사용하여 VMware Aria Automation을 시작하는 방법의 내용을 참조하십시오.
  • NVIDIA 라이센싱 서버에서 클라이언트 구성 토큰을 생성했고 NVIDIA NGC 포털 API 키가 있는지 확인합니다. NVIDIA NGC 포털 액세스 키는 vGPU 드라이버를 다운로드하고 설치하는 데 사용됩니다.
  • CCI(클라우드 소비 인터페이스)에 대한 SSO(Single Sign-On)를 구성합니다. CCI에 대한 Single Sign-On 설정의 내용을 참조하십시오.
  • https://packages.vmware.com/dl-vm/lib.json에서 컨텐츠 라이브러리를 구독했는지 확인합니다.

절차

  1. VMware Aria Automation을 설치하고 처음 로그인한 후 빠른 시작 실행을 클릭합니다.

    [빠른 시작 실행] 타일이 있는 콘솔입니다.

  2. 개인 AI 자동화 서비스 카드에서 시작을 클릭합니다.
  3. 에 대한 액세스를 프로비저닝할 클라우드 계정을 선택합니다.

    카탈로그 설정 마법사의 1단계는 클라우드 계정을 선택하는 것입니다.

    여기의 모든 값은 사용 사례 샘플입니다. 계정 값은 환경에 따라 다릅니다.

    1. vCenter 클라우드 계정을 선택합니다.
    2. GPU 지원 감독자 를 선택합니다.
    3. 지역 이름을 입력합니다.

      감독자가 지역으로 이미 구성된 경우 지역이 자동으로 선택됩니다.

      감독자가 지역과 연결되지 않으면 이 단계에서 하나를 추가합니다. 사용자가 GPU 지원 지역을 사용 가능한 다른 지역과 구분하는 데 도움이 되는 지역에 설명적인 이름을 사용하는 것이 좋습니다.

    4. 다음 단계를 클릭합니다.
  4. NVIDIA 라이센스 서버에 대한 정보를 제공합니다.

    카탈로그 설정 마법사의 2단계는 라이센스를 추가하는 것입니다.

    1. NVIDIA 클라이언트 구성 토큰의 컨텐츠를 복사하여 붙여넣습니다.

      vGPU 드라이버의 전체 기능을 사용하도록 설정하려면 클라이언트 구성 토큰이 필요합니다.

    2. NVIDIA vGPU 드라이버의 위치를 선택합니다.
      • 클라우드 – NVIDIA vGPU 드라이버는 NVIDIA 라이센싱 포털에서 호스팅됩니다.

        사용자에게 NVIDIA vGPU 드라이버를 다운로드할 수 있는 권한이 있는지 평가하는 데 사용되는 NVIDIA 라이센싱 포털 API 키를 제공해야 합니다. API 키는 UUID여야 합니다.

        참고: NVIDIA XX 라이센싱 포털에서 생성한 API 키는 NVAIE API 키와 동일하지 않습니다.
      • 로컬 – NVIDIA vGPU 드라이버는 온-프레미스에서 호스팅되며 전용 네트워크에서 액세스됩니다.

        VM에 대한 vGPU 게스트 드라이버의 위치를 제공해야 합니다.

        에어갭 환경의 경우 vGPU 드라이버는 개인 네트워크 또는 데이터 센터에서 사용할 수 있어야 합니다.

      자세한 내용은 NVIDIA 라이센스 시스템 설명서를 참조하십시오.
    3. 다음 단계를 클릭합니다.
  5. 카탈로그 항목을 구성합니다.

    카탈로그 설정 마법사의 3단계는 카탈로그 항목을 구성하는 것입니다.

    1. 딥 러닝 VM 이미지가 포함된 컨텐츠 라이브러리를 선택합니다.

      컨텐츠 라이브러리는 한 번에 하나에만 액세스할 수 있습니다. 컨텐츠 라이브러리에 Kubernetes 이미지가 포함되어 있으면 해당 이미지는 필터링되어 제외됩니다.

    2. 워크스테이션 VM을 생성하는 데 사용할 VM 이미지를 선택합니다.
    3. 카탈로그 사용자가 사용할 수 있도록 하려는 VM 클래스를 선택합니다.
      GPU 지원 클래스와 GPU 지원 클래스를 하나 이상 추가해야 합니다.
      • GPU 지원 VM 클래스는 딥 러닝 VM 및 TKG 클러스터의 작업자 노드에 사용됩니다. 카탈로그 항목이 배포되면 TKG 클러스터가 선택한 VM 클래스로 생성됩니다.
      • Kubernetes 제어부를 실행하려면 비 GPU 지원 노드가 필요합니다.
    4. 가상 시스템에 적용할 스토리지 정책을 선택합니다.
    5. NVIDIA GPU Cloud 리소스를 끌어올 컨테이너 레지스트리를 지정합니다.
      • 클라우드 – 컨테이너 이미지는 NVIDIA NGC 카탈로그에서 끌어옵니다.
      • 로컬 – 에어갭 환경의 경우 개인 레지스트리에서 컨테이너를 끌어옵니다.

        자체 호스팅 레지스트리의 위치를 제공해야 합니다. 레지스트리에 인증이 필요한 경우 로그인 자격 증명도 제공해야 합니다.

        Harbor를 NVIDIA NGC 카탈로그의 컨테이너 이미지에 대한 로컬 레지스트리로 사용할 수 있습니다. VMware Private AI Foundation with NVIDIA에서 개인 Harbor 레지스트리 설정을 참조하십시오.

    6. (선택 사항) 프록시 서버를 구성합니다.

      인터넷에 직접 액세스할 수 없는 환경에서는 프록시 서버를 사용하여 vGPU 드라이버를 다운로드하고 비RAG AI Workstation 컨테이너를 끌어옵니다.

      참고: 에어갭 환경에 대한 지원은 AI Workstation 및 Triton 추론 서버 카탈로그 항목에 대해 제공됩니다. AI RAG Workstation 및 AI Kubernetes 클러스터 항목은 에어갭 환경을 지원하지 않으며 인터넷 연결이 필요합니다.
    7. 다음 단계를 클릭합니다.
  6. 프로젝트를 생성하고 사용자를 할당하여 카탈로그 항목에 대한 액세스를 구성합니다.

    카탈로그 설정 마법사의 4단계는 카탈로그 항목에 대한 사용자 액세스를 구성하는 것입니다.

    프로젝트는 사용자, 할당된 리소스, 클라우드 템플릿 및 배포를 관리하는 데 사용됩니다.

    1. 프로젝트의 이름과 설명을 입력합니다.

      프로젝트 이름에는 소문자 영숫자 또는 하이픈(-)만 사용할 수 있습니다.

    2. 카탈로그 항목을 다른 사용자가 사용할 수 있도록 하려면 관리자멤버를 추가합니다.

      관리자는 멤버보다 더 많은 사용 권한을 갖습니다. 자세한 내용은 VMware Aria Automation 사용자 역할이란? 항목을 참조하십시오.

    3. 다음 단계를 클릭합니다.
  7. 요약 페이지에서 구성을 확인합니다.

    마법사를 실행하기 전에 구성에 대한 세부 정보를 저장하는 것이 좋습니다.

  8. 빠른 시작 실행을 클릭합니다.

결과

AI Workstation, AI RAG Workstation, Triton 추론 서버, AI Kubernetes 클러스터, AI Kubernetes RAG 클러스터라는 다섯 가지 카탈로그 항목이 Automation Service Broker 카탈로그에 생성되어 조직의 사용자가 배포할 수 있습니다.

Private AI Foundation 카탈로그 항목이 있는 Service Broker 카탈로그 페이지의 보기입니다.

후속 작업

문제 해결

  • 카탈로그 설정 마법사가 실패하면 다른 프로젝트에 대해 마법사를 다시 실행합니다.