Si el administrador de nube configuró Private AI Automation Services en VMware Aria Automation, puede solicitar cargas de trabajo de AI mediante el catálogo de Automation Service Broker.

Private AI Automation Services admite dos elementos de catálogo en Automation Service Broker a los cuales pueden acceder los usuarios con los permisos correspondientes, además de poder solicitarlos.

  • Estación de trabajo AI: una máquina virtual habilitada para GPU que se puede configurar con los elementos de vCPU, vGPU, memoria y software de AI/ML que se quiera de NVIDIA.
  • Clúster de Kubernetes de AI: un clúster de Tanzu Kubernetes habilitado para GPU que se puede configurar con un operador de GPU de NVIDIA.
Importante: La oferta de Private AI Automation Services está disponible para VMware Aria Automation 8.16.2.

Antes de comenzar

  • Compruebe que los Private AI Automation Services están configurados para el proyecto y que tienen permisos para solicitar elementos del catálogo de AI.

Recuerde que todos los valores son ejemplos de casos prácticos. Los valores de su cuenta dependen del entorno que tenga.

Implementar una máquina virtual de aprendizaje profundo en un dominio de carga de trabajo de VI

Como especialista en datos, puede implementar un entorno de desarrollo definido por software con una GPU desde el catálogo de Automation Service Broker de autoservicio. Puede personalizar la máquina virtual habilitada para GPU con parámetros de máquina para modelar los requisitos de desarrollo, especificar las configuraciones de software de AI/ML para cumplir con los requisitos de formación e inferencia, y especificar los paquetes de AI/ML del registro de NVIDIA NGC mediante una clave de acceso al portal.

Procedimiento

  1. Haga clic en la pestaña Consumir en Automation Service Broker.
  2. Haga clic en Catálogo.
    Los elementos del catálogo que haya disponibles dependerán del proyecto seleccionado. Si no seleccionó ningún proyecto, se muestran en el catálogo todos los elementos del catálogo que están disponibles para usted.
  3. Busque la tarjeta Estación de trabajo AI y haga clic en Solicitar.
  4. Seleccione un proyecto.
  5. Introduzca un nombre y una descripción para la implementación.
  6. Configure los parámetros de la Estación de trabajo AI.
    Ajuste Valor de ejemplo
    Clase de VM A100 pequeña: 1 vGPU (16 GB), 8 CPU y 16 GB de memoria
    Tamaño de disco de datos 8 GB
    Contraseña de usuario Introduzca una contraseña para el usuario obsoleto. Es posible que se le solicite que restablezca la contraseña cuando inicie sesión por primera vez.
    Clave pública SSH Este ajuste es opcional.
  7. Seleccione un paquete de software para instalarlo en su estación de trabajo.
    Ajuste Descripción
    PyTorch El contenedor PyTorch NGC está optimizado para aceleración de GPU y contiene un conjunto validado de bibliotecas que habilitan y optimizan el rendimiento de GPU. Este contenedor también contiene software para acelerar cargas de trabajo de ETL (DALI, RAPIDS), formación (cuDNN, NCCL) e inferencia (TensorRT).
    TensorFlow El contenedor de NGC TensorFlow está optimizado para aceleración de GPU y contiene un conjunto validado de bibliotecas que habilitan y optimizan el rendimiento de GPU. Este contenedor también puede contener modificaciones en el código fuente de TensorFlow para maximizar el rendimiento y la compatibilidad. Este contenedor también contiene software para acelerar cargas de trabajo de ETL (DALI, RAPIDS), formación (cuDNN, NCCL) e inferencia (TensorRT).
    Muestras de CUDA Esta es una recopilación de contenedores para ejecutar cargas de trabajo de CUDA en las GPU. La colección incluye muestras de CUDA se encuentran en contenedores, como por ejemplo, vectorAdd (para demostrar la adición de vectores), nbody (o simulación de n-cuerpos gravitacionales) y otros ejemplos. Estos contenedores se pueden utilizar para validar la configuración de software de las GPU en el sistema o simplemente para ejecutar algunas cargas de trabajo de ejemplo.
    Exportador de DCGM NVIDIA Data Center GPU Manager (DCGM) es un conjunto de herramientas para administrar y supervisar las GPU de centros de datos NVIDIA en entornos de clúster. Por lo general, las pilas de supervisión constan de un recopilador, una base de datos de series temporales para almacenar métricas y una capa de visualización. DCGM-Exporter es un exportador para Prometheus que supervisa el estado y obtiene métricas de las GPU.
    Servidor de inferencias Triton El servidor de inferencias Triton es una solución que permite realizar inferencias, ya sea en entornos en la nube o en dispositivos Edge, optimizada para las CPU y las GPU. Triton admite el uso de un protocolo HTTP/REST y GRPC que permite a los clientes remotos solicitar inferencias para cualquier modelo administrado por el servidor. Para las implementaciones en Edge, Triton está disponible como una biblioteca compartida con una API de C que permite que la funcionalidad completa de Triton se incluya directamente en una aplicación.
    Flujo de trabajo de IA generativa: RAG Esta solución de referencia demuestra cómo encontrar valor comercial en la IA generativa aumentando un LLM básico existente para adaptarse a su caso de uso empresarial. Para ello, se utiliza la generación aumentada de recuperación (Retrieve Augmented Generation, RAG), que recupera hechos de una base de conocimientos empresarial que contiene los datos empresariales de una empresa. En este resumen se describe una solución de referencia para un potente chatbot de IA basado en RAG, que incluye el código disponible en Github de ejemplos de IA generativa de NVIDIA para desarrolladores. Preste especial atención a las formas en las que puede aumentar un LLM con los datos empresariales específicos de su dominio para crear aplicaciones de IA ágiles y que respondan a los nuevos desarrollos.
  8. Introduzca un cloud-init personalizado que desee instalar además del cloud-init definido para el paquete de software.
    VMware Aria Automation combina el cloud-init del paquete de software con el cloud-init personalizado.
  9. Proporcione su clave de acceso al portal de NVIDIANGC.
  10. Haga clic en Enviar.

Implementar un clúster de Tanzu Kubernetes habilitado para IA

Como ingeniero de desarrollo y operaciones, puede solicitar un clúster de Tanzu Kubernetes habilitado para GPU, en el cual los nodos de trabajo pueden ejecutar cargas de trabajo de AI/ML.

El clúster de TKG contiene un operador de GPU NVIDIA, que es un operador de Kubernetes que se encarga de configurar el controlador NVIDIA adecuado para el hardware de GPU NVIDIA en los nodos del clúster de TKG. El clúster implementado está listo para usarse para cargas de trabajo de AI/ML sin necesidad de una configuración adicional relacionada con GPU.

Procedimiento

  1. Busque la tarjeta Clúster de Kubernetes AI y haga clic en Solicitar.
  2. Seleccione un proyecto.
  3. Introduzca un nombre y una descripción para la implementación.
  4. Seleccione el número de nodos del panel de control.
    Ajuste Valor de ejemplo
    Cantidad de nodos 1
    Clase de VM cpu-only-medium: 8 CPU y 16 GB de memoria

    La selección de clase define los recursos disponibles en la máquina virtual.

  5. Seleccione el número de nodos de trabajo.
    Ajuste Descripción
    Cantidad de nodos 3
    Clase de VM a100-medium: 4 vGPU (64 GB), 16 CPU y 32 GB de memoria
  6. Haga clic en Enviar.

Resultados

La implementación contiene un espacio de nombres de supervisor, un clúster de TKG con tres nodos de trabajo, varios recursos dentro del clúster de TKG y una aplicación carvel que implementa la aplicación del operador de GPU.

Supervisar sus implementaciones de Private AI

Utilice la página Implementaciones para administrar las implementaciones y los recursos asociados, como realizar cambios en ellas, solucionar los problemas de las implementaciones con errores, hacer cambios en los recursos y destruir las implementaciones que no se utilizan.

Para administrar las implementaciones, seleccione Consumir > Implementaciones > Implementaciones.

Para obtener más información, consulte Cómo administrar mis implementaciones de Automation Service Broker.