Como especialista en datos o ingeniero de DevOps, puede utilizar Automation Service Broker para implementar cargas de trabajo RAG de NVIDIA.

Implementar una estación de trabajo RAG

Como especialista es datos, puede implementar una estación de trabajo habilitada para GPU con la solución de referencia Recovery Augmented Generation (RAG) desde el catálogo de Automation Service Broker de autoservicio.

La solución de referencia RAG demuestra cómo encontrar valor comercial en la IA generativa aumentando un LLM básico existente para adaptarse a su caso de uso empresarial. Para ello, se utiliza la generación aumentada de recuperación (Retrieve Augmented Generation, RAG), que recupera hechos de una base de conocimientos empresarial que contiene los datos empresariales de su empresa. Preste especial atención a las formas en las que puede aumentar un LLM con los datos empresariales específicos de su dominio para crear aplicaciones de IA ágiles y que respondan a los nuevos desarrollos.

Procedimiento

  1. En la página Catálogo de Automation Service Broker, busque la tarjeta AI RAG Workstation y haga clic en Solicitar.
  2. Seleccione un proyecto.
  3. Introduzca un nombre y una descripción para la implementación.
  4. Configure los parámetros de la Estación de trabajo RAG.
    Ajuste Valor de ejemplo
    Clase de VM A100 pequeña: 1 vGPU (16 GB), 8 CPU y 16 GB de memoria
    Especificación de clase de máquina virtual mínima:
    • CPU: 10 vCPU
    • RAM de CPU: 64 GB
    • GPU: 2xH100
    • Memoria de GPU: 50 GB
    Tamaño de disco de datos 3 Gi
    Contraseña de usuario Introduzca una contraseña para el usuario obsoleto. Es posible que se le solicite que restablezca la contraseña cuando inicie sesión por primera vez.
    Clave pública SSH Este ajuste es opcional.
  5. Instale personalizaciones de software.
    1. (opcional) Si desea instalar un cloud-init personalizado además del cloud-init definido para el paquete de software RAG, seleccione la casilla de verificación y pegue el contenido del paquete de configuración.
      VMware Aria Automation combina el cloud-init del paquete de software RAG con el cloud-init personalizado.
    2. Proporcione su clave de acceso al portal de NVIDIANGC.
    3. Introduzca las credenciales de Docker Hub.
  6. Haga clic en Enviar.

Resultados

Su estación de trabajo incluye Ubuntu 22.04, un controlador de NVIDIA vGPU, un Docker Engine, un NVIDIA Container Toolkit y una solución RAG de referencia que utiliza el modelo Llama-2-13b-chat.

Implementar un clúster RAG de Tanzu Kubernetes Grid con aceleración de GPU

Como ingeniero de DevOps que utiliza el catálogo de autoservicio de Automation Service Broker, puede aprovisionar un clúster RAG de Tanzu Kubernetes Grid habilitado para GPU, donde los nodos de trabajo pueden ejecutar una solución RAG de referencia que utilice el modelo Llama2-13b-chat.

La implementación contiene un espacio de nombres de supervisor y un clúster de Tanzu Kubernetes Grid. El clúster de TKG contiene dos espacios de nombres de supervisor: uno para el NVIDIA GPU Operator y el otro para el NVIDIA RAG LLM Operator, los cuales están preinstalados en el clúster de TKG. Las aplicaciones Carvel para cada operador se implementan dentro de estos dos espacios de nombres.

Procedimiento

  1. En la página Catálogo de Automation Service Broker, busque la tarjeta Clúster RAG de Kubernetes AI y haga clic en Solicitar.
  2. Seleccione un proyecto.
  3. Introduzca un nombre y una descripción para la implementación.
  4. Seleccione el número de nodos del panel de control.
    Ajuste Valor de ejemplo
    Cantidad de nodos 1
    Clase de VM best-effort-2xlarge: 8 CPU y 64 GB de memoria

    La selección de clase define los recursos disponibles en la máquina virtual.

  5. Seleccione el número de nodos de trabajo.
    Ajuste Descripción
    Cantidad de nodos 3
    Clase de VM best-effort-4xlarge-a100-40c: 1 vGPU (40 GB), 16 CPU y 120 GB de memoria
    Especificación de clase de máquina virtual mínima:
    • CPU: 10 vCPU
    • RAM de CPU: 64 GB
    • GPU: 2xH100
    • Memoria de GPU: 50 GB
    Réplicas de segmentación temporal 1

    La segmentación temporal define un conjunto de réplicas para una GPU que se comparte entre cargas de trabajo.

  6. Proporcione la clave de API de NVIDIA AI Enterprise.
  7. Haga clic en Enviar.