클라우드 관리자는 VMware Cloud Foundation 스택을 활용하여 GPU 지원 인프라 및 AI/ML 워크로드 도메인을 관리할 수 있습니다. VMware Aria Automation에서는 GPU 지원 DL VM(딥 러닝 가상 시스템) 및 TKG(Tanzu Kubernetes Grid) 클러스터를 조직의 데이터 과학자 및 DevOps 팀이 셀프 서비스 Automation Service Broker 카탈로그에서 요청할 수 있는 카탈로그 항목으로 설정하고 제공할 수 있습니다.
VMware Private AI Foundation이란?
VMware Private AI Foundation with NVIDIA는 NVIDIA GPU를 사용하여 VMware Cloud Foundation에서 AI 워크로드를 프로비저닝하기 위한 플랫폼을 제공합니다. 또한 NGC(NVIDIA GPU Cloud) 컨테이너를 기반으로 AI 워크로드를 실행하는 것은 VMware by Broadcom에 의해 특별히 검증되었습니다. 자세한 내용은 VMware Private AI Foundation with NVIDIA란?에서 참조하십시오.
Private AI Automation Services는 VMware Aria Automation에서 사용할 수 있는 모든 VMware Private AI Foundation 기능의 총칭입니다.
Private AI Automation Services를 시작하려면 VMware Aria Automation에서 카탈로그 설정 마법사를 실행합니다. 이 마법사는 VMware Private AI Foundation을 VMware Aria Automation에 연결하는 데 유용합니다.
카탈로그 설정 마법사의 작동 방식은 무엇입니까?
- vCenter 클라우드 계정을 추가합니다. 클라우드 계정은 vCenter 인스턴스에서 데이터를 수집하고 리소스를 배포하는 데 사용되는 자격 증명입니다.
- NVIDIA 라이센스를 추가합니다.
- Automation Service Broker 카탈로그에 추가할 컨텐츠를 선택합니다.
- 프로젝트를 생성합니다. 프로젝트는 사용자를 클라우드 계정 지역과 연결합니다. 그래야 사용자가 네트워크 및 스토리지 리소스가 포함된 클라우드 템플릿을 vCenter 인스턴스에 배포할 수 있습니다.
- AI Workstation - NVIDIA의 원하는 vCPU, vGPU, 메모리 및 AI/ML 소프트웨어로 구성할 수 있는 GPU 지원 가상 시스템입니다.
- AI Kubernetes 클러스터 - NVIDIA GPU 연산자로 구성할 수 있는 GPU 지원 Tanzu Kubernetes 클러스터입니다.
라이센싱 변경과 같이 제공한 설정을 변경해야 하거나 다른 프로젝트에 대한 AI 카탈로그 항목을 생성하려는 경우 마법사를 여러 번 다시 실행할 수 있습니다. 마법사를 실행할 때마다 이전에 생성한 항목 외에 두 개의 새 카탈로그 항목이 생성됩니다.
시작하기 전에
- VMware Aria Automation 8.17을 실행 중인지 확인합니다.
- vCenter 8.0 업데이트 U2b가 포함된 VMware Cloud Foundation 5.1.1을 실행 중인지 확인합니다.
- VMware Aria Automation에 vCenter 클라우드 계정이 있는지 확인합니다.
- 프리미엄 클라우드 서비스 구독이 있는 NVIDIA GPU Cloud Enterprise 조직이 있는지 확인합니다.
- 워크로드 관리를 통해 GPU 지원 감독자 클러스터를 구성했는지 확인합니다.
- VMware Private AI Foundation with NVIDIA에 대해 VMware Aria Automation을 구성합니다. VMware Private AI Foundation with NVIDIA에 대한 VMware Aria Automation 설정의 내용을 참조하십시오.
- 카탈로그 설정 마법사를 실행하기 전에 VMware Cloud Foundation 빠른 시작을 완료합니다. SDDC 및 감독자 클러스터를 VMware Aria Automation에 등록해야 합니다. VMware Cloud Foundation 빠른 시작을 사용하여 VMware Aria Automation을 시작하는 방법의 내용을 참조하십시오.
- NVIDIA 라이센싱 서버에서 라이센싱 .tok 파일을 생성했으며 NVIDIA NGC 포털 API 키가 있는지 확인합니다. NVIDIA NGC 포털 액세스 키는 vGPU 드라이버를 다운로드하고 설치하는 데 사용됩니다.
- CCI(클라우드 소비 인터페이스)에 대한 SSO(Single Sign-On)를 구성합니다. CCI에 대한 Single Sign-On 설정의 내용을 참조하십시오.
- https://packages.vmware.com/dl-vm/lib.json에서 컨텐츠 라이브러리를 구독했는지 확인합니다.
절차
- VMware Aria Automation을 설치하고 처음 로그인한 후 빠른 시작 실행을 클릭합니다.
- 개인 AI 자동화 서비스 카드에서 시작을 클릭합니다.
- 에 대한 액세스를 프로비저닝할 클라우드 계정을 선택합니다.
여기의 모든 값은 사용 사례 샘플입니다. 계정 값은 환경에 따라 다릅니다.
- vCenter 클라우드 계정을 선택합니다.
- GPU 지원 감독자 를 선택합니다.
- 지역 이름을 입력합니다.
사용자가 GPU 지원 지역을 사용 가능한 다른 지역과 구분하는 데 도움이 되는 지역에 설명적인 이름을 사용하는 것이 좋습니다.
감독자가 지역으로 이미 구성된 경우 지역이 자동으로 선택됩니다.
- 다음을 클릭합니다.
- NVIDIA 라이센스 서버에 대한 정보를 제공합니다.
- NVIDIA 라이센싱 서버 유형을 선택합니다.
- CLS(클라우드 라이센스 서비스) 인스턴스는 NVIDIA 라이센싱 포털에서 호스팅됩니다.
- DLS(위임된 라이센스 서비스) 인스턴스는 한 위치에서 온-프레미스에서 호스팅되며 전용 네트워크에서 액세스됩니다. 이 서버 유형을 선택하는 경우 서버의 위치도 제공해야 합니다.
- 라이센스 파일의 컨텐츠를 복사하여 붙여넣습니다.
NVIDIA 라이센싱 포털 API 키는 사용자에게 NVIDIA vGPU 드라이버를 다운로드할 수 있는 권한이 있는지 평가하는 데 사용됩니다. API 키는 UUID여야 합니다.참고: NVIDIA XX 라이센싱 포털에서 생성한 API 키는 NVAIE API 키와 동일하지 않습니다.
- 다음을 클릭합니다.
- NVIDIA 라이센싱 서버 유형을 선택합니다.
- 카탈로그 항목을 구성합니다.
- 워크스테이션 VM을 생성하는 데 사용할 VM 이미지를 선택합니다.
- 카탈로그 사용자가 사용할 수 있도록 하려는 VM 클래스를 선택합니다.
GPU 지원 클래스와 GPU 지원 클래스를 하나 이상 추가해야 합니다.
- GPU 지원 VM 클래스는 딥 러닝 VM 및 Kubernetes 클러스터의 작업자 노드에 사용됩니다. 카탈로그 항목이 배포되면 Kubernetes 클러스터가 선택한 VM 클래스로 생성됩니다.
- Kubernetes 제어부를 실행하려면 비 GPU 지원 노드가 필요합니다.
- 가상 시스템에 적용할 스토리지 클래스를 선택합니다.
- NVIDIA GPU Cloud 리소스를 끌어올 컨테이너 레지스트리를 지정합니다.
자체 호스팅 레지스트리를 선택하는 경우 마법사를 완료한 후 카탈로그 항목에 추가 수동 구성이 필요합니다. Broadcom 전문 서비스 VMware 문의하십시오.
- 다음을 클릭합니다.
- 프로젝트를 생성하고 사용자를 할당하여 카탈로그 항목에 대한 액세스를 구성합니다.
프로젝트는 사용자, 할당된 리소스, 클라우드 템플릿 및 배포를 관리하는 데 사용됩니다.
- 프로젝트의 이름과 설명을 입력합니다.
프로젝트 이름에는 소문자 영숫자 또는 하이픈(-)만 사용할 수 있습니다.
- 카탈로그 항목을 다른 사용자가 사용할 수 있도록 하려면 관리자 및 멤버를 추가합니다.
관리자는 멤버보다 더 많은 사용 권한을 갖습니다. 자세한 내용은 VMware Aria Automation 사용자 역할이란? 항목을 참조하십시오.
- 다음을 클릭합니다.
- 프로젝트의 이름과 설명을 입력합니다.
- 요약 페이지에서 구성을 확인합니다.
마법사를 실행하기 전에 구성에 대한 세부 정보를 저장하는 것이 좋습니다.
- 마침을 클릭합니다.
결과
AI Workstation 및 AI Kubernetes 클러스터 카탈로그 항목이 Automation Service Broker 카탈로그에 생성되며 이제 조직의 사용자가 배포할 수 있습니다.
후속 작업
- 컨텐츠를 공유한 선택한 프로젝트의 멤버가 카탈로그에서 템플릿을 사용할 수 있는지 확인하고 성공적인 배포를 위해 프로비저닝 프로세스를 모니터링합니다. PAIF 카탈로그 항목을 배포하는 방법의 내용을 참조하십시오.
- 배포가 존재할 수 있는 기간을 제어하려면 리스를 생성합니다. Automation Service Broker 정책 설정의 내용을 참조하십시오.
- 요청 시 사용자 입력을 수정하려면 사용자 지정 양식을 생성할 수 있습니다. Automation Service Broker 아이콘 및 요청 양식 사용자 지정의 내용을 참조하십시오.
문제 해결
- 카탈로그 설정 마법사가 실패하면 다른 프로젝트에 대해 마법사를 다시 실행합니다.