Como administrador de nube, puede utilizar la pila de VMware Cloud Foundation para administrar la infraestructura habilitada para GPU y los dominios de carga de trabajo de AI/ML. En VMware Aria Automation, puede configurar y proporcionar clústeres de Tanzu Kubernetes Grid (TKG) y máquinas virtuales de aprendizaje profundo (DL VM) habilitados para GPU como elementos del catálogo que los especialistas en datos y los equipos de DevOps de la organización pueden solicitar en el catálogo de Automation Service Broker de autoservicio.
¿Qué es VMware Private AI Foundation?
VMware Private AI Foundation con NVIDIA proporciona una plataforma para aprovisionar cargas de trabajo de IA en VMware Cloud Foundation con varias GPU de NVIDIA. Además, la ejecución de cargas de trabajo de AI basadas en contenedores de NVIDIA GPU Cloud (NGC) está validada específicamente por VMware by Broadcom. Para obtener más información, consulte Qué es VMware Private AI Foundation con NVIDIA.
Private AI Automation Services es el nombre colectivo de todas las funciones de VMware Private AI Foundation que están disponibles en VMware Aria Automation.
Para comenzar a utilizar Private AI Automation Services, ejecute el Asistente de configuración de catálogos en VMware Aria Automation. El asistente le ayuda a conectar VMware Private AI Foundation a VMware Aria Automation.
¿Cómo funciona el Asistente de configuración de catálogos?
- Agregue una cuenta de nube de vCenter. Las cuentas de nube son las credenciales que se usan para recopilar datos e implementar recursos en la instancia de vCenter.
- Agregue una licencia de NVIDIA.
- Seleccione el contenido que desea agregar al catálogo de Automation Service Broker.
- Cree un proyecto. El proyecto vincula a sus usuarios con regiones de la cuenta de nube a fin de que puedan implementar plantillas de nube con redes y recursos de almacenamiento en la instancia de vCenter.
- Estación de trabajo AI: una máquina virtual habilitada para GPU que se puede configurar con los elementos de vCPU, vGPU, memoria y software de AI/ML que se quiera de NVIDIA.
- Clúster de Kubernetes de AI: un clúster de Tanzu Kubernetes habilitado para GPU que se puede configurar con un operador de GPU de NVIDIA.
Puede volver a ejecutar el asistente varias veces si necesita cambiar cualquiera de los ajustes que proporcionó, por ejemplo, si hay cambios en las licencias, o si desea crear elementos del catálogo de AI para otros proyectos. Cada vez que ejecuta el asistente, se crean dos nuevos elementos del catálogo, además de los elementos creados anteriormente.
Antes de comenzar
- Compruebe que está ejecutando VMware Aria Automation 8.16.2.
- Compruebe que está ejecutando VMware Cloud Foundation 5.1.1, que incluye vCenter 8.0 Update U2b.
- Compruebe que tiene una cuenta de nube de vCenter en VMware Aria Automation.
- Compruebe que tiene una organización de NVIDIA GPU Cloud Enterprise con una suscripción de servicio de nube prémium.
- Compruebe que tiene un clúster de supervisor habilitado para GPU configurado a través de la administración de cargas de trabajo.
- Configure VMware Aria Automation para VMware Private AI Foundation con NVIDIA. Consulte Configurar VMware Aria Automation VMware Private AI Foundation con NVIDIA.
- Complete el Inicio rápido de VMware Cloud Foundation antes de ejecutar el Asistente de configuración de catálogos. Su SDDC y los clústeres de supervisor deben estar registrados con VMware Aria Automation. Consulte Cómo comenzar a usar VMware Aria Automation con el inicio rápido de VMware Cloud Foundation.
- Compruebe que generó el archivo .tok de licencias desde el servidor de licencias de NVIDIA y que tiene la clave de API del portal de NGC de NVIDIA. La clave de acceso al portal de NGC de NVIDIA se utiliza para descargar e instalar controladores de vGPU.
- Configure el inicio de sesión único (SSO) para la interfaz de consumo de nube (Cloud Consumption Interface, CCI). Consulte Configurar el inicio de sesión único para CCI.
- Compruebe que está suscrito a la biblioteca de contenido en https://packages.vmware.com/dl-vm/lib.json.
Procedimiento
- Después de instalar VMware Aria Automation e iniciar sesión por primera vez, haga clic en Comenzar inicio rápido.
- En la tarjeta Private AI Automation Services, haga clic en Iniciar.
- Seleccione la cuenta de nube a la que se aprovisiona el acceso.
Recuerde que todos los valores son ejemplos de casos prácticos. Los valores de su cuenta dependen del entorno que tenga.
- Seleccione una cuenta de nube de vCenter.
- Seleccione un supervisor habilitado para GPU.
- Introduzca un nombre de región.
Considere el uso de un nombre descriptivo para la región que ayude a los usuarios a distinguir las regiones habilitadas para GPU de otras regiones disponibles.
Una región se selecciona automáticamente si el supervisor ya está configurado con una región.
- Haga clic en Siguiente.
- Proporcione información sobre su servidor de licencias de NVIDIA.
- Seleccione el tipo de servidor de licencias de NVIDIA.
- Una instancia de Cloud License Service (CLS) se aloja en el portal de licencias de NVIDIA.
- Una instancia del servicio de licencias delegadas (DLS) se aloja de forma local en una ubicación y se accede a ella desde una red privada. Si selecciona este tipo de servidor, también debe proporcionar la ubicación del servidor.
- Copie y pegue el contenido del archivo de licencia.
La clave de API del portal de licencias de NVIDIA se utiliza para evaluar si un usuario tiene la autorización adecuada para descargar los controladores de vGPU de NVIDIA. La clave de API debe ser un UUID.Nota: La clave de API que se genera desde el portal de licencias de NVIDIA no es la misma que la clave de API de NVAIE.
- Haga clic en Siguiente.
- Seleccione el tipo de servidor de licencias de NVIDIA.
- Configure los elementos del catálogo.
- Seleccione la imagen de máquina virtual que quiere usar para crear la máquina virtual de estación de trabajo.
- Seleccione las clases de máquina virtual que desea poner a disposición de los usuarios del catálogo.
Debe agregar al menos una clase compatible con GPU y otra no compatible con GPU.
- Las clases de máquinas virtuales habilitadas para GPU se utilizan para la máquina virtual de aprendizaje profundo y para los nodos de trabajo del clúster de Kubernetes. Cuando se implementa el elemento del catálogo, el clúster de Kubernetes se crea con las clases de máquinas virtuales seleccionadas.
- Se requieren nodos no compatibles con GPU para ejecutar los planos de control de Kubernetes.
- Seleccione la clase de almacenamiento que se aplicará a las máquinas virtuales.
- Especifique el registro de contenedor del que desea extraer los recursos de nube de GPU de NVIDIA.
Si selecciona un registro auto hospedado, los elementos del catálogo requieren una configuración manual adicional después de completar los pasos del asistente. Póngase en contacto con VMware by Broadcom Professional Services.
- Haga clic en Siguiente.
- Para configurar el acceso a los elementos del catálogo, cree un proyecto y asigne usuarios.
Los proyectos se utilizan para administrar personas, recursos asignados, plantillas de nube e implementaciones.
- Introduzca un nombre y una descripción para el proyecto.
El nombre del proyecto solo debe contener caracteres alfanuméricos en minúscula o guiones (-).
- Para que los elementos del catálogo estén disponibles para otros usuarios, agregue un Administrador y Miembros.
Los administradores tienen más permisos que los miembros. Para obtener más información, consulte Cuáles son las funciones de usuario de VMware Aria Automation.
- Haga clic en Siguiente.
- Introduzca un nombre y una descripción para el proyecto.
- Verifique su configuración en la página Resumen.
Conviene guardar los detalles de la configuración antes de ejecutar el asistente.
- Haga clic en Finalizar.
Resultados
La Estación de trabajo AI y los elementos del catálogo de Clúster de Kubernetes AI se crean en el catálogo de Automation Service Broker y los usuarios de la organización ahora pueden implementarlos.
Qué hacer a continuación
- Compruebe que la plantilla se encuentre disponible en el catálogo para los miembros de los proyectos seleccionados con quienes compartió el contenido y supervise el proceso de aprovisionamiento para garantizar el éxito de la implementación. Consulte Cómo implementar elementos del catálogo de PAIF.
- Si desea controlar por cuánto tiempo puede existir una implementación, cree una concesión. Consulte Configurar directivas de Automation Service Broker.
- Para modificar las entradas de usuario en el momento de la solicitud, puede crear un formulario personalizado. Consulte Personalizar un icono de Automation Service Broker y un formulario de solicitud.
Solución de problemas
- Si se produce un error en el Asistente de configuración de catálogos, vuelva a ejecutar el asistente para un proyecto diferente.