Para comprobar que la instalación de vSphere Bitfusion se realice correctamente, puede probar vSphere Bitfusion ejecutando un ejemplo de carga de trabajo de aprendizaje automático. Desde vSphere Bitfusion 4.5, puede iniciar un script desde un cliente de vSphere Bitfusion que automatice el proceso para instalar el software asociado para vSphere Bitfusion y un banco de pruebas de GPU.
Una vez completada la configuración de vSphere Bitfusion, se requieren dependencias adicionales para poder ejecutar una aplicación de aprendizaje automático (ML) en Bitfusion, como TensorFlow o PyTorch. En primer lugar, debe instalar NVIDIA CUDA, NVIDIA cuDNN y las dependencias del sistema operativo Linux. A continuación, puede instalar una aplicación de aprendizaje automático y ejecutar los bancos de pruebas de GPU para comprobar que el entorno de vSphere Bitfusion funcione y para probar el rendimiento general de vSphere Bitfusion. El cliente de vSphere Bitfusion incluye un script, el cual automatiza todos los pasos de instalación necesarios y minimiza el esfuerzo manual. El script solo se puede utilizar en el sistema operativo Ubuntu Linux 20.04 y ejecuta bancos de pruebas de GPU de TensorFlow.
Como alternativa, si tiene un sistema operativo diferente o requiere detalles más específicos, puede realizar manualmente la instalación de las dependencias adicionales y los bancos de pruebas de GPU. Los pasos manuales presentan opciones adicionales para comprobar la instalación de vSphere Bitfusion, como la ejecución de pruebas de PyTorch en sistemas operativos Red Hat y CentOS. Para obtener más información, consulte la Guía de ejemplo de vSphere Bitfusion.
Instalar dependencias de vSphere Bitfusion y bancos de pruebas de aprendizaje automático mediante un script
Para comprobar que el entorno de vSphere Bitfusion funcione y comprobar el rendimiento de vSphere Bitfusion, mediante un script client_vm_starter.sh, puede instalar dependencias adicionales para vSphere Bitfusion y ejecutar bancos de pruebas de Tensorflow.
En el siguiente procedimiento, el script client_vm_starter.sh instala NVIDIA CUDA, NVIDIA cuDNN, TensorFlow 2.6, los bancos de pruebas de TensorFlow y las dependencias adicionales. Para ver más opciones, consulte Referencia de comandos de script.
Requisitos previos
- Compruebe que haya instalado un servidor de vSphere Bitfusion.
- Compruebe que haya instalado el controlador NVIDIA compatible en el servidor de vSphere Bitfusion.
- Compruebe que haya instalado y activado un cliente de vSphere Bitfusion.
- Compruebe que el cliente de vSphere Bitfusion se ejecute en el sistema operativo Ubuntu Linux 20.04.
- Compruebe que tenga privilegios de raíz en su sistema operativo Ubuntu.
- Compruebe que tenga al menos 20 GB de espacio libre en su cliente de vSphere Bitfusion.
Procedimiento
Resultados
Ahora puede ejecutar los bancos de pruebas de TensorFlow con vSphere Bitfusion con las GPU compartidas desde un servidor remoto. Este resultado verifica que la implementación de vSphere Bitfusion se haya completado correctamente. Puede ejecutar el script del banco de pruebas de GPU sin usar vSphere Bitfusion y comparar el rendimiento.
Qué hacer a continuación
Los bancos de pruebas admiten muchos modelos y parámetros para ayudarle a analizar un gran espacio dentro de la disciplina de aprendizaje automático. Para obtener más información, consulte Iniciar aplicaciones en vSphere Bitfusion en la Usar VMware vSphere Bitfusion.
Referencia de comandos de script
En la siguiente sección, se enumeran todos los parámetros y las opciones que puede utilizar con el script de instalación client_vm_starter.sh
.
Requisitos
Para ejecutar el script, compruebe que se cumplan los requisitos. Consulte Instalar dependencias de vSphere Bitfusion y bancos de pruebas de aprendizaje automático mediante un script.
Parámetros y opciones
Parámetro | Descripción del parámetro | Opción disponible | Descripción de la opción |
---|---|---|---|
-p install_bundle |
Instale el cliente de vSphere Bitfusion, NVIDIA CUDA, NVIDIA cuDNN, TensorFlow y los bancos de pruebas de TensorFlow. | -d |
Instale el servicio de Docker y el kit de herramientas del contenedor de NVIDIA. |
-p install_cuda_deps |
Instale NVIDIA CUDA, NVIDIA cuDNN, TensorFlow y los bancos de pruebas de TensorFlow. | -d |
Instale el servicio de Docker y el kit de herramientas del contenedor de NVIDIA. |
-p list_clients |
Enumere la versión del cliente de vSphere Bitfusion que esté disponible en el repositorio oficial de vSphere Bitfusion. | - b X.Y.Z |
Instale una versión específica de vSphere Bitfusion. Por ejemplo, - b 4.0.1 . |
-p install_client |
Instale el cliente de vSphere Bitfusion. | ||
-p install_docker |
Instale el servicio de Docker y el kit de herramientas del contenedor de NVIDIA. | ||
-p remove_client |
Elimine el cliente de vSphere Bitfusion. | ||
-p remove_bundle |
Elimine el cliente de vSphere Bitfusion, NVIDIA CUDA, NVIDIA cuDNN, TensorFlow y los bancos de pruebas de TensorFlow. |
Ejemplos
- Para instalar el cliente de vSphere Bitfusion, NVIDIA CUDA, NVIDIA cuDNN, TensorFlow, los bancos de pruebas de TensorFlow, el servicio de Docker y el kit de herramientas del contenedor de NVIDIA, ejecute el comando
sudo ./client_vm_starter.sh -p install_bundle -d
. - Para instalar NVIDIA CUDA, NVIDIA cuDNN, TensorFlow, los bancos de pruebas de TensorFlow, el servicio de Docker y el kit de herramientas del contenedor de NVIDIA, ejecute el comando
sudo ./client_vm_starter.sh -p install_cuda_deps -d
. - Para instalar el cliente de vSphere Bitfusion 4.0.1, ejecute el comando
sudo ./client_vm_starter.sh -p install_client -b 4.0.1
. - Para instalar el servicio de Docker y el kit de herramientas del contenedor de NVIDIA, ejecute el comando
sudo ./client_vm_starter.sh -p install_docker
. - Para crear una lista de los clientes de BF disponibles en el repositorio oficial, ejecute el comando
sudo ./client_vm_starter.sh -p list_clients
.