Como cientista de dados ou engenheiro de DevOps, você pode usar o Automation Service Broker para implantar cargas de trabalho RAG do NVIDIA.

Observação: Esta documentação é baseada no VMware Aria Automation 8.18. Para obter informações sobre a funcionalidade do VMware Private AI Foundation no VMware Aria Automation 8.18.1, consulte Implantar cargas de trabalho RAG usando itens de catálogo de autoatendimento no VMware Aria Automation, na documentação do VMware Private AI Foundation com NVIDIA.

Implementar uma workstation RAG

Como cientista de dados, você pode implantar uma workstation ativada para GPU com a solução de referência Geração Aumentada Recuperada (RAG) do catálogo de Automation Service Broker de autoatendimento.

A solução de referência RAG demonstra como encontrar valor de negócios na IA generativa, aumentando um LLM fundamental existente para se adequar ao seu caso de uso de negócios. Isso é feito usando a geração aumentada de recuperação (RAG), que recupera fatos de uma base de conhecimento empresarial contendo dados de negócios da sua empresa. Preste atenção especial às maneiras pelas quais você pode aumentar um LLM com seus dados de negócios específicos de domínio para criar aplicativos de IA ágeis e responsivos para novos desenvolvimentos.

Procedimento

  1. Na página Catálogo no Automation Service Broker, localize o cartão Workstation RAG de IA e clique em Solicitar.
  2. Selecione um projeto.
  3. Digite um nome e uma descrição para a sua implantação.
  4. Configure os parâmetros da workstation RAG.
    Configuração Valor de amostra
    Classe de VM A100 Pequeno - 1 vGPU (16 GB), 8 CPUs e 16 GB de Memória
    Especificação de classe de VM mínima:
    • CPU: 10 vCPUs
    • RAM da CPU: 64 GB
    • GPU: 2 x H100
    • Memória da GPU: 50 GB
    Tamanho do disco de dados 3 Gi
    Senha do usuário Digite uma senha para o usuário padrão. Você pode ser solicitado a redefinir sua senha ao fazer login pela primeira vez.
    Chave pública SSH Essa configuração é opcional.
  5. Instale personalizações de software.
    1. (Opcional) Se você quiser instalar uma cloud-init personalizada além da cloud-init definida para o pacote de software RAG, marque a caixa de seleção e cole o conteúdo do pacote de configuração.
      O VMware Aria Automation mescla a cloud-init do pacote de software RAG e a cloud-init personalizada.
    2. Forneça sua chave de acesso do Portal do NVIDIA NGC.
    3. Digite as credenciais do Docker Hub.
  6. Clique em Enviar.

Resultados

Sua workstation inclui o Ubuntu 22.04, um driver NVIDIA vGPU, um Docker Engine e um NVIDIA Container Toolkit, além de uma solução RAG de referência que usa o modelo Llama-2-13b-chat.

Implementar um cluster RAG Tanzu Kubernetes Grid acelerado por GPU

Como engenheiro do DevOps usando o catálogo do Automation Service Broker de autoatendimento, você pode provisionar um cluster RAG Tanzu Kubernetes Grid ativado para GPU, no qual os nós de trabalhador podem executar uma solução RAG de referência que usa o modelo Llama2-13b-chat.

A implantação contém um namespace de supervisor e um cluster Tanzu Kubernetes Grid. O cluster TKG contém dois namespaces de supervisor: um para o operador de GPU NVIDIA e o outro para o operador RAG LLM NVIDIA, ambos pré-instalados no cluster TKG. Os aplicativos Carvel para cada operador são implantados nesses dois namespaces.

Procedimento

  1. Na página Catálogo no Automation Service Broker, localize o cartão Cluster RAG do Kubernetes de IA e clique em Solicitar.
  2. Selecione um projeto.
  3. Digite um nome e uma descrição para a sua implantação.
  4. Selecione o número de nós do painel de controle.
    Configuração Valor de amostra
    Contagem de nós 1
    Classe de VM best-effort-2xlarge - 8 CPUs e 64 GB de Memória

    A seleção de classe define os recursos disponíveis na máquina virtual.

  5. Selecione o número de nós de trabalho.
    Configuração Descrição
    Contagem de nós 3
    Classe de VM best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPUs e 120 GB de Memória
    Especificação de classe de VM mínima:
    • CPU: 10 vCPUs
    • RAM da CPU: 64 GB
    • GPU: 2 x H100
    • Memória da GPU: 50 GB
    Réplicas de corte de tempo 1

    O corte de tempo define um conjunto de réplicas para uma GPU que é compartilhada entre cargas de trabalho.

  6. Forneça chave de API empresarial de IA do NVIDIA.
  7. Clique em Enviar.