Como cientista de dados ou engenheiro de DevOps, você pode usar o Automation Service Broker para implantar cargas de trabalho RAG do NVIDIA.
Implementar uma workstation RAG
Como cientista de dados, você pode implantar uma workstation ativada para GPU com a solução de referência Geração Aumentada Recuperada (RAG) do catálogo de Automation Service Broker de autoatendimento.
Procedimento
- Na página Catálogo no Automation Service Broker, localize o cartão Workstation RAG de IA e clique em Solicitar.
- Selecione um projeto.
- Digite um nome e uma descrição para a sua implantação.
- Configure os parâmetros da workstation RAG.
Configuração Valor de amostra Classe de VM A100 Pequeno - 1 vGPU (16 GB), 8 CPUs e 16 GB de Memória Especificação de classe de VM mínima:- CPU: 10 vCPUs
- RAM da CPU: 64 GB
- GPU: 2 x H100
- Memória da GPU: 50 GB
Tamanho do disco de dados 3 Gi Senha do usuário Digite uma senha para o usuário padrão. Você pode ser solicitado a redefinir sua senha ao fazer login pela primeira vez. Chave pública SSH Essa configuração é opcional. - Instale personalizações de software.
- (Opcional) Se você quiser instalar uma cloud-init personalizada além da cloud-init definida para o pacote de software RAG, marque a caixa de seleção e cole o conteúdo do pacote de configuração.
O VMware Aria Automation mescla a cloud-init do pacote de software RAG e a cloud-init personalizada.
- Forneça sua chave de acesso do Portal do NVIDIA NGC.
- Digite as credenciais do Docker Hub.
- (Opcional) Se você quiser instalar uma cloud-init personalizada além da cloud-init definida para o pacote de software RAG, marque a caixa de seleção e cole o conteúdo do pacote de configuração.
- Clique em Enviar.
Resultados
Implementar um cluster RAG Tanzu Kubernetes Grid acelerado por GPU
Como engenheiro do DevOps usando o catálogo do Automation Service Broker de autoatendimento, você pode provisionar um cluster RAG Tanzu Kubernetes Grid ativado para GPU, no qual os nós de trabalhador podem executar uma solução RAG de referência que usa o modelo Llama2-13b-chat.
A implantação contém um namespace de supervisor e um cluster Tanzu Kubernetes Grid. O cluster TKG contém dois namespaces de supervisor: um para o operador de GPU NVIDIA e o outro para o operador RAG LLM NVIDIA, ambos pré-instalados no cluster TKG. Os aplicativos Carvel para cada operador são implantados nesses dois namespaces.
Procedimento
- Na página Catálogo no Automation Service Broker, localize o cartão Cluster RAG do Kubernetes de IA e clique em Solicitar.
- Selecione um projeto.
- Digite um nome e uma descrição para a sua implantação.
- Selecione o número de nós do painel de controle.
Configuração Valor de amostra Contagem de nós 1 Classe de VM best-effort-2xlarge - 8 CPUs e 64 GB de Memória A seleção de classe define os recursos disponíveis na máquina virtual.
- Selecione o número de nós de trabalho.
Configuração Descrição Contagem de nós 3 Classe de VM best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPUs e 120 GB de Memória Especificação de classe de VM mínima:- CPU: 10 vCPUs
- RAM da CPU: 64 GB
- GPU: 2 x H100
- Memória da GPU: 50 GB
Réplicas de corte de tempo 1 O corte de tempo define um conjunto de réplicas para uma GPU que é compartilhada entre cargas de trabalho.
- Forneça chave de API empresarial de IA do NVIDIA.
- Clique em Enviar.