Como especialista en datos o ingeniero de DevOps, puede utilizar Automation Service Broker para implementar cargas de trabajo RAG de NVIDIA.
Implementar una estación de trabajo RAG
Como especialista es datos, puede implementar una estación de trabajo habilitada para GPU con la solución de referencia Recovery Augmented Generation (RAG) desde el catálogo de Automation Service Broker de autoservicio.
Procedimiento
- En la página Catálogo de Automation Service Broker, busque la tarjeta AI RAG Workstation y haga clic en Solicitar.
- Seleccione un proyecto.
- Introduzca un nombre y una descripción para la implementación.
- Configure los parámetros de la Estación de trabajo RAG.
Ajuste Valor de ejemplo Clase de VM A100 pequeña: 1 vGPU (16 GB), 8 CPU y 16 GB de memoria Especificación de clase de máquina virtual mínima:- CPU: 10 vCPU
- RAM de CPU: 64 GB
- GPU: 2xH100
- Memoria de GPU: 50 GB
Tamaño de disco de datos 3 Gi Contraseña de usuario Introduzca una contraseña para el usuario obsoleto. Es posible que se le solicite que restablezca la contraseña cuando inicie sesión por primera vez. Clave pública SSH Este ajuste es opcional. - Instale personalizaciones de software.
- (opcional) Si desea instalar un cloud-init personalizado además del cloud-init definido para el paquete de software RAG, seleccione la casilla de verificación y pegue el contenido del paquete de configuración.
VMware Aria Automation combina el cloud-init del paquete de software RAG con el cloud-init personalizado.
- Proporcione su clave de acceso al portal de NVIDIANGC.
- Introduzca las credenciales de Docker Hub.
- (opcional) Si desea instalar un cloud-init personalizado además del cloud-init definido para el paquete de software RAG, seleccione la casilla de verificación y pegue el contenido del paquete de configuración.
- Haga clic en Enviar.
Resultados
Implementar un clúster RAG de Tanzu Kubernetes Grid con aceleración de GPU
Como ingeniero de DevOps que utiliza el catálogo de autoservicio de Automation Service Broker, puede aprovisionar un clúster RAG de Tanzu Kubernetes Grid habilitado para GPU, donde los nodos de trabajo pueden ejecutar una solución RAG de referencia que utilice el modelo Llama2-13b-chat.
La implementación contiene un espacio de nombres de supervisor y un clúster de Tanzu Kubernetes Grid. El clúster de TKG contiene dos espacios de nombres de supervisor: uno para el NVIDIA GPU Operator y el otro para el NVIDIA RAG LLM Operator, los cuales están preinstalados en el clúster de TKG. Las aplicaciones Carvel para cada operador se implementan dentro de estos dos espacios de nombres.
Procedimiento
- En la página Catálogo de Automation Service Broker, busque la tarjeta Clúster RAG de Kubernetes AI y haga clic en Solicitar.
- Seleccione un proyecto.
- Introduzca un nombre y una descripción para la implementación.
- Seleccione el número de nodos del panel de control.
Ajuste Valor de ejemplo Cantidad de nodos 1 Clase de VM best-effort-2xlarge: 8 CPU y 64 GB de memoria La selección de clase define los recursos disponibles en la máquina virtual.
- Seleccione el número de nodos de trabajo.
Ajuste Descripción Cantidad de nodos 3 Clase de VM best-effort-4xlarge-a100-40c: 1 vGPU (40 GB), 16 CPU y 120 GB de memoria Especificación de clase de máquina virtual mínima:- CPU: 10 vCPU
- RAM de CPU: 64 GB
- GPU: 2xH100
- Memoria de GPU: 50 GB
Réplicas de segmentación temporal 1 La segmentación temporal define un conjunto de réplicas para una GPU que se comparte entre cargas de trabajo.
- Proporcione la clave de API de NVIDIA AI Enterprise.
- Haga clic en Enviar.