Como cientista de dados, você pode usar o Automation Service Broker para implantar máquinas virtuais de aprendizagem profunda para o desenvolvimento de IA.

Observação: Esta documentação é baseada no VMware Aria Automation 8.18. Para obter informações sobre a funcionalidade do VMware Private AI Foundation no VMware Aria Automation 8.18.1, consulte Implantar máquinas virtuais de aprendizagem profunda usando itens de catálogo de autoatendimento no VMware Aria Automation, na documentação do VMware Private AI Foundation com NVIDIA.

Ao solicitar uma workstation de IA (VM) no catálogo do Automation Service Broker, você provisiona uma VM de aprendizagem profunda habilitada para GPU que pode ser configurada com os contêineres desejados de vCPU, vGPU, Memória e AI/ML NGC do NVIDIA.

Implantar uma máquina virtual de aprendizagem profunda em um domínio de carga de trabalho VI

Como cientista de dados, você pode implantar um único ambiente de desenvolvimento definido por software de GPU a partir do catálogo do Automation Service Broker de autoatendimento.

Você pode personalizar a máquina virtual ativada para GPU com parâmetros de máquina para modelar requisitos de desenvolvimento, pré-instalar estruturas de AI/ML, como PyTorch, TensorFlow e CUDA, para atender aos requisitos de treinamento e inferência e especificar os pacotes de AI/ML do registro do NVIDIA NGC por meio de uma chave de acesso ao portal.

Procedimento

  1. Na página Catálogo no Automation Service Broker, localize o cartão Workstation de IA e clique em Solicitar.
  2. Selecione um projeto.
  3. Digite um nome e uma descrição para a sua implantação.
  4. Configure os parâmetros da workstation de IA.
    Configuração Valor de amostra
    Classe de VM A100 Pequeno - 1 vGPU (16 GB), 8 CPUs e 16 GB de Memória
    Tamanho do disco de dados 32 GB
    Senha do usuário Digite uma senha para o usuário padrão. Você pode ser solicitado a redefinir sua senha ao fazer login pela primeira vez.
    Chave pública SSH Essa configuração é opcional.
  5. Selecione um pacote de software para instalar na workstation.
    Configuração Descrição
    PyTorch O PyTorch NGC Container é otimizado para aceleração de GPU e contém um conjunto validado de bibliotecas que ativam e otimizam o desempenho da GPU. Esse contêiner também contém software para acelerar as cargas de trabalho de ETL (DALI, RAPIDS), Treinamento (cuDNN, NCCL) e Inferência (TensorRT).
    TensorFlow O TensorFlow NGC Container é otimizado para aceleração de GPU e contém um conjunto validado de bibliotecas que ativam e otimizam o desempenho da GPU. Esse contêiner também pode conter modificações no código-fonte TensorFlow para maximizar o desempenho e a compatibilidade. Esse contêiner também contém software para acelerar as cargas de trabalho de ETL (DALI, RAPIDS), Treinamento (cuDNN, NCCL) e Inferência (TensorRT).
    Amostras de CUDA Esta é uma coleção de contêineres para executar cargas de trabalho CUDA nas GPUs. A coleção inclui amostras de CUDA conteinerizadas, por exemplo, vectorAdd (para demonstrar adição de vetores), nbody (ou simulação gravitacional n-corpo) e outros exemplos. Esses contêineres podem ser usados para validar a configuração de software das GPUs no sistema ou simplesmente para executar algumas cargas de trabalho de exemplo.
  6. (Opcional) Digite uma cloud-init personalizada que você deseja instalar, além da cloud-init definida para o pacote de software.
    O VMware Aria Automation mescla a cloud-init do pacote de software e a cloud-init personalizada.
  7. Clique em Enviar.

Resultados

A guia Visão Geral da implantação contém um resumo do software que foi instalado, juntamente com instruções sobre como acessar o aplicativo, os serviços e a VM da workstation.

Adicionar o DCGM Exporter para monitoramento de cargas de trabalho de aprendizado profundo

Você pode usar o DCGM Exporter para monitorar uma carga de trabalho de aprendizado profundo que usa capacidade de GPU.

O DCGM-Exporter é um exportador para Prometheus que monitora a integridade da empresa e obtém métricas de GPUs. Ele aproveita o DCGM usando vinculações Go para coletar telemetria de GPUs e expõe métricas de GPU ao Prometheus usando um endpoint HTTP (/metrics). O DCGM-Exporter pode ser autônomo ou implantado como parte do NVIDIA GPU Operator.

Antes de começar

Verifique se você implantou com sucesso uma VM de aprendizado profundo.

Procedimento

  1. Faça login na VM de aprendizado profundo via SSH.

    Para PyTorch e TensorFlow, faça login no notebook JupyterLab.

  2. Execute o contêiner do DCGM Exporter usando o seguinte comando.
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 registry-URI-path/nvidia/k8s/dcgm-exporter:ngc_image_tag
    Por exemplo, para executar dcgm-exporter:3.2.5-3.1.8-ubuntu22.04 no catálogo NVIDIA NGC, execute o seguinte comando:
    docker run -d --gpus all --cap-add SYS_ADMIN --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:dcgm-exporter:3.2.5-3.1.8-ubuntu22.04
  3. Após a conclusão da instalação do DCGM Exporter, visualize as métricas de vGPU no Prometheus e no Grafana.
    1. Instalar o Prometheus e o Grafana.
    2. Visualizar métricas de vGPU no Prometheus.
    3. Visualizar métricas no Grafana.

Implementar uma workstation ativada para GPU com o Triton Inference Server do NVIDIA

Como cientista de dados, você pode implantar uma workstation ativada para GPU com Triton Inference Server do NVIDIA a partir do catálogo do Automation Service Broker de autoatendimento.

O Triton Inference Server NVIDIA fornece uma solução de inferência de nuvem e borda otimizada para CPUs e GPUs. O Triton Inference Server oferece suporte a um protocolo HTTP/REST e GRPC que permite que clientes remotos solicitem inferência para uma variedade de estruturas de aprendizado de máquina, incluindo TensorFlow, PyTorch e outros. Para implantações de borda, o Triton Inference Server está disponível como uma biblioteca compartilhada com uma API C que permite que toda a funcionalidade do Triton seja incluída diretamente em um aplicativo.

A workstation implantada inclui o Ubuntu 22.04, um driver vGPU do NVIDIA, o Docker Engine, o NVIDIA Container Toolkit e o NVIDIA Triton Inference Server.

Procedimento

  1. Na página Catálogo no Automation Service Broker, localize o cartão Triton Inferencing Server e clique em Solicitar.
  2. Selecione um projeto.
  3. Digite um nome e uma descrição para a sua implantação.
  4. Configure os parâmetros da workstation de IA.
    Configuração Valor de amostra
    Classe de VM A100 Pequeno - 1 vGPU (16 GB), 8 CPUs e 16 GB de Memória

    As classes de VM com suporte à Memória Virtual Unificada (UVM) são necessárias para executar o Triton Inferencing Server.

    Tamanho do disco de dados 32 GB
    Senha do usuário Digite uma senha para o usuário padrão. Você pode ser solicitado a redefinir sua senha ao fazer login pela primeira vez.
    Chave pública SSH Essa configuração é opcional.
  5. (Opcional) Digite uma cloud-init personalizada que você deseja instalar, além da cloud-init definida para o pacote de software.
    O VMware Aria Automation mescla a cloud-init do pacote de software e a cloud-init personalizada.
  6. Clique em Enviar.