Een Tanzu Kubernetes Grid-cluster met GPU-versnelling implementeren

Als DevOps-engineer kunt u een Tanzu Kubernetes Grid-cluster (TKG) met GPU-versnelling aanvragen, waar werkerknooppunten AI-/ML-workloads kunnen uitvoeren, vanuit de selfservicecatalogus van Automation Service Broker.

Opmerking: Deze documentatie is gebaseerd op VMware Aria Automation 8.18. Zie Een GPU-versneld TKG-cluster implementeren met een selfservicecatalogusitem in VMware Aria Automation in de documentatie voor VMware Private AI Foundation with NVIDIA voor informatie over de VMware Private AI Foundation-functionaliteit in VMware Aria Automation 8.18.1.

Het TKG-cluster bevat een NVIDIA GPU-operator. Dit is een Kubernetes-operator die verantwoordelijk is voor het instellen van het juiste NVIDIA-stuurprogramma voor de NVIDIA GPU-hardware op de TKG-clusterknooppunten. Het geïmplementeerde cluster is klaar voor gebruik voor AI/ML-workloads zonder dat aanvullende GPU-gerelateerde configuratie nodig is.

De implementatie bevat een supervisornaamruimte, een TKG-cluster met drie werkknooppunten, meerdere resources in het TKG-cluster en een Carvel-applicatie die de GPU Operator-toepassing implementeert.

Procedure

Zoek op de pagina Catalogus in Automation Service Broker naar de kaart AI Kubernetes Cluster en klik op Aanvragen.
Selecteer een project.
Voer een naam en een beschrijving in voor uw implementatie.

Selecteer het aantal knooppunten in het controlevenster.

Instelling	Voorbeeldwaarde
Aantal knooppunten	`1`
VM-klasse	`best-effort-4xlarge - 16 CPU's en 128 GB geheugen` In de klasseselectie worden de resources gedefinieerd die beschikbaar zijn op de virtuele machine.

Selecteer het aantal werkknooppunten.

Instelling	Beschrijving
Aantal knooppunten	`3`
VM-klasse	`best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPU's en 120 GB geheugen`
Time-slicingreplica's	`1` Time-slicing definieert een set replica's voor een GPU die tussen workloads wordt gedeeld.

Geef de NVIDIA zakelijke AI API-sleutel op.
Klik op Verzenden.