Hoe implementeer ik VMware Private AI Foundation-catalogusitems in de Automation Service Broker

Als uw cloudbeheerder Private AI Automation Services in VMware Aria Automation heeft ingesteld, kunt u AI-workloads aanvragen via de Automation Service Broker-catalogus.

Private AI Automation Services ondersteunen twee catalogusitems in Automation Service Broker waartoe gebruikers met de respectieve rechten toegang hebben en die ze kunnen aanvragen.

AI-workstation – Een virtuele machine met GPU-functionaliteit die kan worden geconfigureerd met gewenste vCPU, vGPU, geheugen en AI/ML-software van NVIDIA.
AI Kubernetes-cluster – Een Tanzu Kubernetes-cluster met GPU-functionaliteit dat kan worden geconfigureerd met een NVIDIA GPU-operator.

Belangrijk: Het aanbod van Private AI Automation Services is beschikbaar voor VMware Aria Automation 8.16.2.

Voordat u begint

Controleer of Private AI Automation Services voor uw project zijn geconfigureerd en dat u rechten heeft om AI-catalogusitems aan te vragen.

Vergeet niet dat alle waarden hier voorbeelden zijn voor gebruiksscenario's. Uw accountwaarden zijn afhankelijk van uw omgeving.

Een deeplearning-VM implementeren in een VI-workloaddomein

Als datatechnicus kunt u een softwaregedefinieerde ontwikkelingsomgeving met een GPU implementeren vanuit de selfservicecatalogus van Automation Service Broker. U kunt de virtuele machine met GPU-functionaliteit met machineparameters aanpassen om ontwikkelingsvereisten te modelleren, de AI/ML-softwareconfiguraties opgeven om te voldoen aan trainings- en deductievereisten, en de AI/ML-pakketten van het NVIDIA NGC-register opgeven via een toegangssleutel van de portal.

Procedure

Klik op het tabblad Verbruiken in Automation Service Broker.
Klik op Catalogus.
De beschikbare catalogusitems zijn beschikbaar voor u op basis van het project dat u heeft geselecteerd. Als u geen project heeft geselecteerd, worden alle catalogusitems die voor u beschikbaar zijn, weergegeven in de catalogus.
Zoek de kaart AI-workstation en klik op Aanvragen.
Selecteer een project.
Voer een naam en een beschrijving in voor uw implementatie.

Configureer de parameters voor het AI-workstation.

Instelling	Voorbeeldwaarde
VM-klasse	`A100 Klein - 1 vGPU (16 GB), 8 CPU's en 16 GB geheugen`
Grootte van gegevensschijf	`8 GB`
Gebruikerswachtwoord	Maak een wachtwoord voor de standaardgebruiker. U wordt mogelijk gevraagd om uw wachtwoord opnieuw in te stellen wanneer u zich voor het eerst aanmeldt.
Openbare SSH-sleutel	Deze instelling is optioneel.

Selecteer een softwarebundel om op uw workstation te installeren.

Instelling	Beschrijving
PyTorch	De PyTorch NGC Container is geoptimaliseerd voor GPU-versnelling en bevat een gevalideerde set bibliotheken die GPU-prestaties inschakelen en optimaliseren. Deze container bevat ook software voor het versnellen van ETL-workloads (DALI, RAPIDS), trainingsworkloads (cuDNN, NCCL) en deductieworkloads (TensorRT).
TensorFlow	De TensorFlow NGC Container is geoptimaliseerd voor GPU-versnelling en bevat een gevalideerde set bibliotheken die GPU-prestaties inschakelen en optimaliseren. Deze container kan ook wijzigingen in de TensorFlow-broncode bevatten om de prestaties en compatibiliteit te maximaliseren. Deze container bevat ook software voor het versnellen van ETL-workloads (DALI, RAPIDS), trainingsworkloads (cuDNN, NCCL) en deductieworkloads (TensorRT).
CUDA-voorbeelden	Dit is een verzameling containers om CUDA-workloads op de GPU's uit te voeren. De verzameling bevat CUDA-monsters in containers, bijvoorbeeld vectorAdd (om vectortoevoeging te demonstreren), nbody (of zwaartekrachtsimulatie voor n-body) en andere voorbeelden. Deze containers kunnen worden gebruikt voor het valideren van de softwareconfiguratie van GPU's in het systeem of om de uitvoering voorbeeldworkloads te vereenvoudigen.
DCGM Exporter	NVIDIA Data Center GPU Manager (DCGM) is een suite met tools voor het beheren en bewaken van GPU's van NVIDIA-datacenters in clusteromgevingen. De bewakingsstacks bestaan gewoonlijk uit een verzamelaar, een tijdseriedatabase om metrieken op te slaan en een visualisatielaag. DCGM Exporter is een exporter voor Prometheus om de status te bewaken en statistieken van GPU's op te halen.
Triton Inference Server	Triton Inference Server biedt een cloud- en edge-deductieoplossing die is geoptimaliseerd voor zowel CPU's als GPU's. Triton ondersteunt een HTTP/REST- en GRPC-protocol waarmee externe clients deductie (inferencing) kunnen aanvragen voor elk model dat door de server wordt beheerd. Voor edge-implementaties is Triton beschikbaar als gedeelde bibliotheek met een C API waarmee de volledige functionaliteit van Triton direct in een applicatie kan worden opgenomen.
Generatieve AI-werkstroom - RAG	Deze referentieoplossing laat zien hoe u bedrijfswaarde kunt vinden in generatieve AI door een bestaande basis-LLM aan te vullen en in te passen in uw zakelijke gebruiksscenario. Dit is mogelijk met Retrieval Augmented Generation (RAG), waarmee feiten worden opgehaald uit een zakelijke knowledge base die de zakelijke gegevens van een bedrijf bevat. In dit overzicht wordt een referentieoplossing voor een krachtige RAG-gebaseerde AI-chatbot beschreven, inclusief code die beschikbaar is in de generatieve AI-voorbeelden-Github van NVIDIA voor ontwikkelaars. Let vooral op manieren waarop u een LLM kunt aanvullen met uw domeinspecifieke zakelijke gegevens om AI-applicaties te maken die flexibel zijn en kunnen reageren op nieuwe ontwikkelingen.

Voer een aangepaste cloud-init in die u wilt installeren naast de cloud-init die voor de softwarebundel is gedefinieerd.
VMware Aria Automation voegt cloud-init van de softwarebundel en de aangepaste cloud-init samen.
Geef de toegangssleutel voor uw NVIDIANGC-portal op.
Klik op Verzenden.

Een AI-compatibel Tanzu Kubernetes-cluster implementeren

Als DevOps-engineer kunt u een voor Tanzu Kubernetes-cluster met GPU-functionaliteit aanvragen, waar werkerknooppunten AI/ML-workloads kunnen uitvoeren.

Het TKG-cluster bevat een NVIDIA GPU-operator, d.i. een Kubernetes-operator die verantwoordelijk is voor het instellen van het juiste NVIDIA-stuurprogramma voor de NVIDIA GPU-hardware op de TKG-clusterknooppunten. Het geïmplementeerde cluster is gebruiksklaar voor AI/ML-workloads zonder dat aanvullende GPU-gerelateerde configuratie nodig is.

Procedure

Zoek de kaart AI Kubernetes-cluster en klik op Aanvragen.
Selecteer een project.
Voer een naam en een beschrijving in voor uw implementatie.

Selecteer het aantal knooppunten in het controlevenster.

Instelling	Voorbeeldwaarde
Aantal knooppunten	`1`
VM-klasse	`cpu-alleen-medium - 8 CPU's en 16 GB geheugen` In de klasseselectie worden de resources gedefinieerd die beschikbaar zijn op de virtuele machine.

Selecteer het aantal werkknooppunten.

Instelling	Beschrijving
Aantal knooppunten	`3`
VM-klasse	`a100-medium - 4 vGPU (64 GB), 16 CPU's en 32 GB geheugen`

Klik op Verzenden.

resultaten

De implementatie bevat een supervisornaamruimte, een TKG-cluster met drie werkknooppunten, meerdere resources binnen het TKG-cluster en een carvel-applicatie die de GPU-operatorapplicatie implementeert.

Uw Private AI-implementaties

U gebruikt de pagina Implementaties om uw implementaties en de gekoppelde resources te beheren, wijzigingen in implementaties aan te brengen, problemen met mislukte implementaties op te lossen, wijzigingen in resources aan te brengen en ongebruikte implementaties te vernietigen.

Om uw implementaties te beheren, selecteert u Verbruiken > Implementaties > Implementaties.

Zie Hoe beheer ik mijn Automation Service Broker-implementaties voor meer informatie.