VM's voor deep learning implementeren

Als datawetenschapper kunt u Automation Service Broker gebruiken om virtual machines voor deep learning in te zetten voor AI-ontwikkeling.

Opmerking: Deze documentatie is gebaseerd op VMware Aria Automation 8.18. Zie Deeplearning-VM's implementeren met selfservicecatalogusitems in VMware Aria Automation met documentatie voor VMware Private AI Foundation with NVIDIA voor informatie over de VMware Private AI Foundation-functionaliteit in VMware Aria Automation 8.18.1.

Wanneer u een AI-werkstation (VM) aanvraagt in de Automation Service Broker-catalogus, richt u een VM voor deep learning met GPU-functionaliteit in die kan worden geconfigureerd met de gewenste vCPU-, vGPU-, geheugen- en AI/ML NGC-containers van NVIDIA.

Een deeplearning-VM implementeren in een VI-workloaddomein

Als datatechnicus kunt u een softwaregedefinieerde ontwikkelingsomgeving met een GPU implementeren vanuit de selfservicecatalogus van Automation Service Broker.

U kunt de virtuele machine met GPU-functionaliteit aanpassen met machineparameters om ontwikkelingsvereisten te modelleren, AI/ML-frameworks zoals PyTorch, TensorFlow en CUDA vooraf te installeren om te voldoen aan de trainings- en inferencingvereisten, en u kunt de AI/ML-pakketten van het NVIDIA NGC-register opgeven via een toegangssleutel van het portaal.

Procedure

Zoek op de pagina Catalogus in Automation Service Broker de kaart AI Workstationen klik op Aanvragen.
Selecteer een project.
Voer een naam en een beschrijving in voor uw implementatie.

Configureer de parameters voor het AI-workstation.

Instelling	Voorbeeldwaarde
VM-klasse	`A100 Klein - 1 vGPU (16 GB), 8 CPU's en 16 GB geheugen`
Grootte van gegevensschijf	`32 GB`
Gebruikerswachtwoord	Voer een wachtwoord in voor de standaardgebruiker. U wordt mogelijk gevraagd om uw wachtwoord opnieuw in te stellen wanneer u zich voor het eerst aanmeldt.
Openbare SSH-sleutel	Deze instelling is optioneel.

Selecteer een softwarebundel om op uw workstation te installeren.

Instelling	Beschrijving
PyTorch	De PyTorch NGC Container is geoptimaliseerd voor GPU-versnelling en bevat een gevalideerde set bibliotheken die GPU-prestaties inschakelen en optimaliseren. Deze container bevat ook software voor het versnellen van ETL-workloads (DALI, RAPIDS), trainingsworkloads (cuDNN, NCCL) en deductieworkloads (TensorRT).
TensorFlow	De TensorFlow NGC Container is geoptimaliseerd voor GPU-versnelling en bevat een gevalideerde set bibliotheken die GPU-prestaties inschakelen en optimaliseren. Deze container kan ook wijzigingen in de TensorFlow-broncode bevatten om de prestaties en compatibiliteit te maximaliseren. Deze container bevat ook software voor het versnellen van ETL-workloads (DALI, RAPIDS), trainingsworkloads (cuDNN, NCCL) en deductieworkloads (TensorRT).
CUDA-voorbeelden	Dit is een verzameling containers om CUDA-workloads op de GPU's uit te voeren. De verzameling bevat CUDA-monsters in containers, bijvoorbeeld vectorAdd (om vectortoevoeging te demonstreren), nbody (of zwaartekrachtsimulatie voor n-body) en andere voorbeelden. Deze containers kunnen worden gebruikt voor het valideren van de softwareconfiguratie van GPU's in het systeem of om de uitvoering voorbeeldworkloads te vereenvoudigen.

(Optioneel) Voer een aangepaste cloud-init in die u wilt installeren naast de cloud-init die voor de softwarebundel is gedefinieerd.
VMware Aria Automation voegt cloud-init van de softwarebundel en de aangepaste cloud-init samen.
Klik op Verzenden.

resultaten

Het tabblad Implementatieoverzicht bevat een samenvatting van de geïnstalleerde software, samen met instructies hoe u toegang kunt krijgen tot de toepassing, services en de workstation-VM.

DCGM Exporter toevoegen voor DL-workloadbewaking

U kunt DCGM Exporter gebruiken voor het bewaken van een deep-learningworkload die gebruikmaakt van GPU-capaciteit.

DCGM Exporter is een exporter voor Prometheus die de status van het bedrijf bewaakt en statistieken van GPU's ophaalt. Deze maakt gebruik van DCGM met behulp van Go-bindingen om GPU-telemetrie te verzamelen en stelt GPU-statistieken beschikbaar voor Prometheus met behulp van een HTTP-eindpunt (/metrics). DCGM Exporter kan zelfstandig zijn of worden geïmplementeerd als onderdeel van de NVIDIA GPU Operator.

Voordat u begint

Controleer of u met succes een deep-learning-VM heeft geïmplementeerd.

Procedure

Meld u via SSH aan bij de deep-learning-VM.
Voor PyTorch en TensorFlow meldt u zich aan vanuit het JupyterLab-notebook.

Voer de container DCGM Exporter uit met het volgende commando.

docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag

Om bijvoorbeeld dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 uit te voeren vanuit de NVIDIA NGC-catalogus, voert u het volgende commando uit:

docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04

Nadat de installatie van DCGM Exporter is voltooid, kunt u vGPU-statistieken visualiseren in Prometheus en Grafana.

Een werkstation met GPU-functionaliteit implementeren met NVIDIA Triton Inference Server

Als datawetenschapper kunt u een werkstation met GPU-functionaliteit implementeren met NVIDIA Triton Inference Server uit de selfservicecatalogus van Automation Service Broker.

NVIDIA Triton Inference Server biedt een cloud- en edge-inferencingoplossing die is geoptimaliseerd voor zowel CPU's als GPU's. Triton Inference Server ondersteunt een HTTP/REST- en GRPC-protocol waarmee externe clients inferencing kunnen aanvragen voor diverse machine-learningframeworks, waaronder TensorFlow, PyTorch en andere. Voor edge-implementaties is Triton Inference Server beschikbaar als gedeelde bibliotheek met een C API waarmee de volledige functionaliteit van Triton direct in een applicatie kan worden opgenomen.

Het geïmplementeerde workstation bevat Ubuntu 22.04, een NVIDIA vGPU-stuurprogramma, Docker Engine, NVIDIA Container Toolkit en NVIDIA Triton Inference Server.

Procedure

Zoek op de pagina Catalogus in Automation Service Broker naar de kaart Triton Inferencing Server en klik op Aanvragen.
Selecteer een project.
Voer een naam en een beschrijving in voor uw implementatie.

Configureer de parameters voor het AI-workstation.

Instelling	Voorbeeldwaarde
VM-klasse	`A100 Klein - 1 vGPU (16 GB), 8 CPU's en 16 GB geheugen` VM-klassen met ondersteuning voor Unified Virtual Memory (UVM) zijn vereist voor het uitvoeren van Triton Inferencing Server.
Grootte van gegevensschijf	`32 GB`
Gebruikerswachtwoord	Maak een wachtwoord voor de standaardgebruiker. U wordt mogelijk gevraagd om uw wachtwoord opnieuw in te stellen wanneer u zich voor het eerst aanmeldt.
Openbare SSH-sleutel	Deze instelling is optioneel.

(Optioneel) Voer een aangepaste cloud-init in die u wilt installeren naast de cloud-init die voor de softwarebundel is gedefinieerd.
VMware Aria Automation voegt cloud-init van de softwarebundel en de aangepaste cloud-init samen.
Klik op Verzenden.