Para comprobar que la instalación de vSphere Bitfusion se realice correctamente, puede probar vSphere Bitfusion ejecutando un ejemplo de carga de trabajo de aprendizaje automático. Desde vSphere Bitfusion 4.5, puede iniciar un script desde un cliente de vSphere Bitfusion que automatice el proceso para instalar el software asociado para vSphere Bitfusion y un banco de pruebas de GPU.

Una vez completada la configuración de vSphere Bitfusion, se requieren dependencias adicionales para poder ejecutar una aplicación de aprendizaje automático (ML) en Bitfusion, como TensorFlow o PyTorch. En primer lugar, debe instalar NVIDIA CUDA, NVIDIA cuDNN y las dependencias del sistema operativo Linux. A continuación, puede instalar una aplicación de aprendizaje automático y ejecutar los bancos de pruebas de GPU para comprobar que el entorno de vSphere Bitfusion funcione y para probar el rendimiento general de vSphere Bitfusion. El cliente de vSphere Bitfusion incluye un script, el cual automatiza todos los pasos de instalación necesarios y minimiza el esfuerzo manual. El script solo se puede utilizar en el sistema operativo Ubuntu Linux 20.04 y ejecuta bancos de pruebas de GPU de TensorFlow.

Como alternativa, si tiene un sistema operativo diferente o requiere detalles más específicos, puede realizar manualmente la instalación de las dependencias adicionales y los bancos de pruebas de GPU. Los pasos manuales presentan opciones adicionales para comprobar la instalación de vSphere Bitfusion, como la ejecución de pruebas de PyTorch en sistemas operativos Red Hat y CentOS. Para obtener más información, consulte la Guía de ejemplo de vSphere Bitfusion.

Instalar dependencias de vSphere Bitfusion y bancos de pruebas de aprendizaje automático mediante un script

Para comprobar que el entorno de vSphere Bitfusion funcione y comprobar el rendimiento de vSphere Bitfusion, mediante un script client_vm_starter.sh, puede instalar dependencias adicionales para vSphere Bitfusion y ejecutar bancos de pruebas de Tensorflow.

En el siguiente procedimiento, el script client_vm_starter.sh instala NVIDIA CUDA, NVIDIA cuDNN, TensorFlow 2.6, los bancos de pruebas de TensorFlow y las dependencias adicionales. Para ver más opciones, consulte Referencia de comandos de script.

Requisitos previos

  • Compruebe que haya instalado un servidor de vSphere Bitfusion.
  • Compruebe que haya instalado el controlador NVIDIA compatible en el servidor de vSphere Bitfusion.
  • Compruebe que haya instalado y activado un cliente de vSphere Bitfusion.
  • Compruebe que el cliente de vSphere Bitfusion se ejecute en el sistema operativo Ubuntu Linux 20.04.
  • Compruebe que tenga privilegios de raíz en su sistema operativo Ubuntu.
  • Compruebe que tenga al menos 20 GB de espacio libre en su cliente de vSphere Bitfusion.

Procedimiento

  1. En el terminal de un cliente de vSphere Bitfusion, cree una carpeta bitfusion ejecutando el comando mkdir ~/bitfusion.
  2. Para desplazarse hasta la carpeta bitfusion, ejecute el comando cd ~/bitfusion/.
  3. Para descargar el script client_vm_starter.sh, ejecute el comando sudo wget https://packages.vmware.com/bitfusion/scripts/client_vm_starter.sh.
  4. Para utilizar el script, ejecute el comando sudo ./client_vm_starter.sh -p install_cuda_deps.
  5. Para utilizar el script del banco de pruebas tf_cnn_benchmarks.py de TensorFlow, ejecute el siguiente comando.
    bitfusion run -n 1 -- python3 \ ./benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py \ --batch_size=64 \ --model=resnet50 \ --num_gpus=1 \ --num_batches=100

Resultados

Ahora puede ejecutar los bancos de pruebas de TensorFlow con vSphere Bitfusion con las GPU compartidas desde un servidor remoto. Este resultado verifica que la implementación de vSphere Bitfusion se haya completado correctamente. Puede ejecutar el script del banco de pruebas de GPU sin usar vSphere Bitfusion y comparar el rendimiento.

Qué hacer a continuación

Los bancos de pruebas admiten muchos modelos y parámetros para ayudarle a analizar un gran espacio dentro de la disciplina de aprendizaje automático. Para obtener más información, consulte Iniciar aplicaciones en vSphere Bitfusion en la Usar VMware vSphere Bitfusion.

Referencia de comandos de script

En la siguiente sección, se enumeran todos los parámetros y las opciones que puede utilizar con el script de instalación client_vm_starter.sh.

Requisitos

Para ejecutar el script, compruebe que se cumplan los requisitos. Consulte Instalar dependencias de vSphere Bitfusion y bancos de pruebas de aprendizaje automático mediante un script.

Parámetros y opciones

Parámetro Descripción del parámetro Opción disponible Descripción de la opción
-p install_bundle Instale el cliente de vSphere Bitfusion, NVIDIA CUDA, NVIDIA cuDNN, TensorFlow y los bancos de pruebas de TensorFlow. -d Instale el servicio de Docker y el kit de herramientas del contenedor de NVIDIA.
-p install_cuda_deps Instale NVIDIA CUDA, NVIDIA cuDNN, TensorFlow y los bancos de pruebas de TensorFlow. -d Instale el servicio de Docker y el kit de herramientas del contenedor de NVIDIA.
-p list_clients Enumere la versión del cliente de vSphere Bitfusion que esté disponible en el repositorio oficial de vSphere Bitfusion. - b X.Y.Z Instale una versión específica de vSphere Bitfusion. Por ejemplo, - b 4.0.1.
-p install_client Instale el cliente de vSphere Bitfusion.
-p install_docker Instale el servicio de Docker y el kit de herramientas del contenedor de NVIDIA.
-p remove_client Elimine el cliente de vSphere Bitfusion.
-p remove_bundle Elimine el cliente de vSphere Bitfusion, NVIDIA CUDA, NVIDIA cuDNN, TensorFlow y los bancos de pruebas de TensorFlow.

Ejemplos

Por ejemplo, puede ejecutar los siguientes comandos de script.
  • Para instalar el cliente de vSphere Bitfusion, NVIDIA CUDA, NVIDIA cuDNN, TensorFlow, los bancos de pruebas de TensorFlow, el servicio de Docker y el kit de herramientas del contenedor de NVIDIA, ejecute el comando sudo ./client_vm_starter.sh -p install_bundle -d.
  • Para instalar NVIDIA CUDA, NVIDIA cuDNN, TensorFlow, los bancos de pruebas de TensorFlow, el servicio de Docker y el kit de herramientas del contenedor de NVIDIA, ejecute el comando sudo ./client_vm_starter.sh -p install_cuda_deps -d.
  • Para instalar el cliente de vSphere Bitfusion 4.0.1, ejecute el comando sudo ./client_vm_starter.sh -p install_client -b 4.0.1.
  • Para instalar el servicio de Docker y el kit de herramientas del contenedor de NVIDIA, ejecute el comando sudo ./client_vm_starter.sh -p install_docker.
  • Para crear una lista de los clientes de BF disponibles en el repositorio oficial, ejecute el comando sudo ./client_vm_starter.sh -p list_clients.