Como implantar itens de catálogo do VMware Private AI Foundation no Automation Service Broker

Se o administrador de nuvem tiver configurado o Private AI Automation Services no VMware Aria Automation, você poderá solicitar cargas de trabalho de IA usando o catálogo do Automation Service Broker.

O Private AI Automation Services oferece suporte a dois itens de catálogo no Automation Service Broker que os usuários com as respectivas permissões podem acessar e solicitar.

Workstation de IA – uma máquina virtual ativada para GPU que pode ser configurada com os softwares vCPU, vGPU, memória e AI/ML desejados do NVIDIA.
Cluster do Kubernetes de IA: um cluster do Tanzu Kubernetes ativado para GPU que pode ser configurado com um operador de GPU do NVIDIA.

Importante: A oferta do Private AI Automation Services está disponível para o VMware Aria Automation 8.16.2.

Antes de começar

Verifique se o Private AI Automation Services está configurado para o seu projeto e se você tem permissões para solicitar itens de catálogo de IA.

Lembre-se de que todos os valores aqui são exemplos de casos de uso. Os valores da sua conta dependem do seu ambiente.

Implantar uma máquina virtual de aprendizagem profunda em um domínio de carga de trabalho VI

Como cientista de dados, você pode implantar um único ambiente de desenvolvimento definido por software de GPU a partir do catálogo do Automation Service Broker de autoatendimento. Você pode personalizar a máquina virtual ativada para GPU com parâmetros de máquina para modelar requisitos de desenvolvimento, especificar as configurações de software de AI/ML para atender aos requisitos de treinamento e inferência e especificar os pacotes de AI/ML do registro do NVIDIA NGC por meio de uma chave de acesso ao portal.

Procedimento

Clique na guia Consumir no Automation Service Broker.
Clique em Catálogo.
Os itens de catálogo ficam disponíveis para você com base no projeto selecionado. Se você não tiver selecionado um projeto, todos os itens de catálogo que estão disponíveis para você aparecerão no catálogo.
Localize o cartão de Workstation de IA e clique em Solicitar.
Selecione um projeto.
Digite um nome e uma descrição para a sua implantação.

Configure os parâmetros da workstation de IA.

Configuração	Valor de amostra
Classe de VM	`A100 Pequeno - 1 vGPU (16 GB), 8 CPUs e 16 GB de Memória`
Tamanho do disco de dados	`8 GB`
Senha do usuário	Digite uma senha para o usuário padrão. Você pode ser solicitado a redefinir sua senha ao fazer login pela primeira vez.
Chave pública SSH	Essa configuração é opcional.

Selecione um pacote de software para instalar na workstation.

Configuração	Descrição
PyTorch	O PyTorch NGC Container é otimizado para aceleração de GPU e contém um conjunto validado de bibliotecas que ativam e otimizam o desempenho da GPU. Esse contêiner também contém software para acelerar as cargas de trabalho de ETL (DALI, RAPIDS), Treinamento (cuDNN, NCCL) e Inferência (TensorRT).
TensorFlow	O TensorFlow NGC Container é otimizado para aceleração de GPU e contém um conjunto validado de bibliotecas que ativam e otimizam o desempenho da GPU. Esse contêiner também pode conter modificações no código-fonte TensorFlow para maximizar o desempenho e a compatibilidade. Esse contêiner também contém software para acelerar as cargas de trabalho de ETL (DALI, RAPIDS), Treinamento (cuDNN, NCCL) e Inferência (TensorRT).
Amostras de CUDA	Esta é uma coleção de contêineres para executar cargas de trabalho CUDA nas GPUs. A coleção inclui amostras de CUDA conteinerizadas, por exemplo, vectorAdd (para demonstrar adição de vetores), nbody (ou simulação gravitacional n-corpo) e outros exemplos. Esses contêineres podem ser usados para validar a configuração de software das GPUs no sistema ou simplesmente para executar algumas cargas de trabalho de exemplo.
Exportador do DCGM	O NVIDIA Data Center GPU Manager (DCGM) é um conjunto de ferramentas para gerenciar e monitorar GPUs do data center do NVIDIA em ambientes de cluster. As pilhas de monitoramento geralmente consistem em um coletor, um banco de dados de séries temporais para armazenar métricas e uma camada de visualização. O DCGM-Exporter é um exportador do Prometheus para monitorar a integridade e obter métricas de GPUs.
Triton Inference Server	O Triton Inference Server fornece uma solução de inferência de nuvem e borda otimizada para CPUs e GPUs. O Triton oferece suporte a um protocolo HTTP/REST e GRPC que permite que clientes remotos solicitem a inferência de qualquer modelo que está sendo gerenciado pelo servidor. Para implantações de borda, o Triton está disponível como uma biblioteca compartilhada com uma API C que permite que toda a funcionalidade do Triton seja incluída diretamente em um aplicativo.
Fluxo de Trabalho de IA Generativa - RAG	Esta solução de referência demonstra como encontrar valor de negócios na IA generativa, aumentando um LLM fundamental existente para se adequar ao seu caso de uso de negócios. Isso é feito usando a geração aumentada de recuperação (RAG), que recupera fatos de uma base de conhecimento empresarial contendo dados de negócios de uma empresa. Uma solução de referência para um poderoso Chatbot de IA baseado em RAG é descrita neste resumo, incluindo o código disponível nos Exemplos do Github de IA Generativa do NVIDIA para desenvolvedores. Preste atenção especial às maneiras pelas quais você pode aumentar um LLM com seus dados de negócios específicos de domínio para criar aplicativos de IA ágeis e responsivos para novos desenvolvimentos.

Digite uma cloud-init personalizada que você deseja instalar, além da cloud-init definida para o pacote de software.
O VMware Aria Automation mescla a cloud-init do pacote de software e a cloud-init personalizada.
Forneça sua chave de acesso do Portal NVIDIANGC.
Clique em Enviar.

Implantar um cluster do Tanzu Kubernetes ativado para IA

Como engenheiro do DevOps, você pode solicitar um cluster do Tanzu Kubernetes ativado para GPU, no qual os nós de trabalhador podem executar cargas de trabalho de AI/ML.

O cluster do TKG contém um operador de GPU NVIDIA, que é um operador Kubernetes responsável por configurar o driver NVIDIA adequado para o hardware de GPU NVIDIA nos nós do cluster TKG. O cluster implantado está pronto para uso para cargas de trabalho de AI/ML sem precisar de configuração adicional relacionada à GPU.

Procedimento

Localize o cartão Cluster do Kubernetes de IA e clique em Solicitar.
Selecione um projeto.
Digite um nome e uma descrição para a sua implantação.

Selecione o número de nós do painel de controle.

Configuração	Valor de amostra
Contagem de nós	`1`
Classe de VM	`cpu-only-medium - 8 CPUs e memória de 16 GB` A seleção de classe define os recursos disponíveis na máquina virtual.

Selecione o número de nós de trabalho.

Configuração	Descrição
Contagem de nós	`3`
Classe de VM	`a100-medium - 4 vGPU (64 GB), 16 CPUs e memória de 32 GB`

Clique em Enviar.

Resultados

A implantação contém um namespace de supervisor, um cluster TKG com três nós de trabalho, vários recursos dentro do cluster TKG e um aplicativo carvel que implanta o aplicativo operador de GPU.

Monitorar suas implantações de IA privada

Você usa a página Implantações para gerenciar suas implantações e os recursos associados, fazendo alterações nas implantações, solucionando problemas de implantações com falha, fazendo alterações nos recursos e destruindo implantações não utilizadas.

Para gerenciar suas implantações, selecione Consumir > Implantações > Implantações.

Para obter mais informações, consulte Como gerenciar minhas implantações do Automation Service Broker.