Als datawetenschapper kunt u Automation Service Broker gebruiken om virtual machines voor deep learning in te zetten voor AI-ontwikkeling.
Wanneer u een AI-werkstation (VM) aanvraagt in de Automation Service Broker-catalogus, richt u een VM voor deep learning met GPU-functionaliteit in die kan worden geconfigureerd met de gewenste vCPU-, vGPU-, geheugen- en AI/ML NGC-containers van NVIDIA.
Een deeplearning-VM implementeren in een VI-workloaddomein
Als datatechnicus kunt u een softwaregedefinieerde ontwikkelingsomgeving met een GPU implementeren vanuit de selfservicecatalogus van Automation Service Broker.
Procedure
resultaten
DCGM Exporter toevoegen voor DL-workloadbewaking
U kunt DCGM Exporter gebruiken voor het bewaken van een deep-learningworkload die gebruikmaakt van GPU-capaciteit.
DCGM Exporter is een exporter voor Prometheus die de status van het bedrijf bewaakt en statistieken van GPU's ophaalt. Deze maakt gebruik van DCGM met behulp van Go-bindingen om GPU-telemetrie te verzamelen en stelt GPU-statistieken beschikbaar voor Prometheus met behulp van een HTTP-eindpunt (/metrics). DCGM Exporter kan zelfstandig zijn of worden geïmplementeerd als onderdeel van de NVIDIA GPU Operator.
Voordat u begint
Controleer of u met succes een deep-learning-VM heeft geïmplementeerd.
Procedure
- Meld u via SSH aan bij de deep-learning-VM.
Voor PyTorch en TensorFlow meldt u zich aan vanuit het JupyterLab-notebook.
- Voer de container DCGM Exporter uit met het volgende commando.
docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
Om bijvoorbeeld dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 uit te voeren vanuit de NVIDIA NGC-catalogus, voert u het volgende commando uit:docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
- Nadat de installatie van DCGM Exporter is voltooid, kunt u vGPU-statistieken visualiseren in Prometheus en Grafana.
Een werkstation met GPU-functionaliteit implementeren met NVIDIA Triton Inference Server
Als datawetenschapper kunt u een werkstation met GPU-functionaliteit implementeren met NVIDIA Triton Inference Server uit de selfservicecatalogus van Automation Service Broker.
Het geïmplementeerde workstation bevat Ubuntu 22.04, een NVIDIA vGPU-stuurprogramma, Docker Engine, NVIDIA Container Toolkit en NVIDIA Triton Inference Server.