Como cientista de dados, você pode usar o Automation Service Broker para implantar máquinas virtuais de aprendizagem profunda para o desenvolvimento de IA.
Ao solicitar uma workstation de IA (VM) no catálogo do Automation Service Broker, você provisiona uma VM de aprendizagem profunda habilitada para GPU que pode ser configurada com os contêineres desejados de vCPU, vGPU, Memória e AI/ML NGC do NVIDIA.
Implantar uma máquina virtual de aprendizagem profunda em um domínio de carga de trabalho VI
Como cientista de dados, você pode implantar um único ambiente de desenvolvimento definido por software de GPU a partir do catálogo do Automation Service Broker de autoatendimento.
Procedimento
Resultados
Adicionar o DCGM Exporter para monitoramento de cargas de trabalho de aprendizado profundo
Você pode usar o DCGM Exporter para monitorar uma carga de trabalho de aprendizado profundo que usa capacidade de GPU.
O DCGM-Exporter é um exportador para Prometheus que monitora a integridade da empresa e obtém métricas de GPUs. Ele aproveita o DCGM usando vinculações Go para coletar telemetria de GPUs e expõe métricas de GPU ao Prometheus usando um endpoint HTTP (/metrics). O DCGM-Exporter pode ser autônomo ou implantado como parte do NVIDIA GPU Operator.
Antes de começar
Verifique se você implantou com sucesso uma VM de aprendizado profundo.
Procedimento
- Faça login na VM de aprendizado profundo via SSH.
Para PyTorch e TensorFlow, faça login no notebook JupyterLab.
- Execute o contêiner do DCGM Exporter usando o seguinte comando.
docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
Por exemplo, para executar dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 no catálogo NVIDIA NGC, execute o seguinte comando:docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
- Após a conclusão da instalação do DCGM Exporter, visualize as métricas de vGPU no Prometheus e no Grafana.
Implementar uma workstation ativada para GPU com o Triton Inference Server do NVIDIA
Como cientista de dados, você pode implantar uma workstation ativada para GPU com Triton Inference Server do NVIDIA a partir do catálogo do Automation Service Broker de autoatendimento.
A workstation implantada inclui o Ubuntu 22.04, um driver vGPU do NVIDIA, o Docker Engine, o NVIDIA Container Toolkit e o NVIDIA Triton Inference Server.