Como ingeniero de DevOps, puede solicitar un clúster de Tanzu Kubernetes Grid (TKG) con aceleración de GPU, en el cual los nodos de trabajo pueden ejecutar cargas de trabajo de AI/ML desde el catálogo de autoservicio de Automation Service Broker.
El clúster de TKG contiene un operador de GPU de NVIDIA, que es un operador de Kubernetes que se encarga de configurar el controlador NVIDIA adecuado para el hardware de GPU de NVIDIA en los nodos del clúster de TKG. El clúster implementado está listo para usarse para cargas de trabajo de AI/ML sin necesidad de una configuración adicional relacionada con GPU.
La implementación contiene un espacio de nombres de supervisor, un clúster de TKG con tres nodos de trabajo, varios recursos dentro del clúster de TKG y una aplicación Carvel que implementa la aplicación GPU Operator.
Procedimiento
- En la página Catálogo de Automation Service Broker, busque la tarjeta AI Kubernetes Cluster y haga clic en Solicitar.
- Seleccione un proyecto.
- Introduzca un nombre y una descripción para la implementación.
- Seleccione el número de nodos del panel de control.
Ajuste Valor de ejemplo Cantidad de nodos 1 Clase de VM best-effort-4xlarge: 16 CPU y 128 GB de memoria La selección de clase define los recursos disponibles en la máquina virtual.
- Seleccione el número de nodos de trabajo.
Ajuste Descripción Cantidad de nodos 3 Clase de VM best-effort-4xlarge-a100-40c: 1 vGPU (40 GB), 16 CPU y 120 GB de memoria Réplicas de segmentación temporal 1 La segmentación temporal define un conjunto de réplicas para una GPU que se comparte entre cargas de trabajo.
- Proporcione la clave de API de NVIDIA AI Enterprise.
- Haga clic en Enviar.