Distribuire i componenti di VMware Private AI Foundation with NVIDIA nell'ambiente VMware Cloud Foundation in un dominio del carico di lavoro VI in cui devono essere installati determinati componenti NVIDIA.

Versioni del software VMware richieste

Vedere Componenti di VMware in VMware Private AI Foundation with NVIDIA.

Dispositivi GPU NVIDIA supportati

Prima di iniziare a utilizzare VMware Private AI Foundation with NVIDIA, assicurarsi che le GPU negli host ESXi siano supportate da VMware by Broadcom:

Tabella 1. Componenti NVIDIA supportati per VMware Private AI Foundation with NVIDIA
Componente NVIDIA Opzioni supportate
GPU NVIDIA
  • NVIDIA A100
  • NVIDIA L40S
  • NVIDIA H100
Modalità di condivisione GPU
  • Slicing temporale
  • Multi-Instance GPU (MIG)

Software NVIDIA richiesto

Il dispositivo GPU deve supportare i profili vGPU NVIDIA AI Enterprise (NVAIE) più recenti. Per istruzioni, vedere il documento GPU supportate da NVIDIA Virtual GPU Software.

Configurazione di VMware Cloud Foundation necessaria

Prima di distribuire VMware Private AI Foundation with NVIDIA, è necessario che in VMware Cloud Foundation sia disponibile una configurazione specifica.

  • Licenza di VMware Cloud Foundation.
  • Licenza del componente aggiuntivo VMware Private AI Foundation with NVIDIA.

    Per accedere alle funzionalità seguenti, è necessaria la licenza del componente aggiuntivo VMware Private AI Foundation with NVIDIA:

    • Configurazione di Private AI in VMware Aria Automation per gli elementi catalogo, per semplificare il provisioning delle macchine virtuali di deep learning con accelerazione GPU e dei cluster TKG.
    • Provisioning dei database PostgreSQL con l'estensione pgvector con il supporto Enterprise.
    • Distribuzione e utilizzo dell'immagine della macchina virtuale di deep learning fornita da VMware by Broadcom.

    È possibile distribuire carichi di lavoro AI con e senza un supervisore abilitato e utilizzare le metriche di GPU in vCenter Server e VMware Aria Operations con la licenza di VMware Cloud Foundation.

  • Prodotto NVIDIA vGPU con licenza che include il file VIB del driver host per gli host ESXi e i driver del sistema operativo guest. Per istruzioni, vedere il documento GPU supportate da NVIDIA Virtual GPU Software.
  • File VIB del driver host di NVIDIA vGPU scaricato da https://nvid.nvidia.com/
  • Immagine di vSphere Lifecycle Manager con il file VIB del driver vGPU Host Manager disponibile in SDDC Manager. Vedere Gestione delle immagini di vSphere Lifecycle Manager in VMware Cloud Foundation.
  • Dominio del carico di lavoro VI con almeno 3 host ESXi abilitati per GPU, basato sull'immagine di vSphere Lifecycle Manager contenente il file VIB del driver Host Manager. Vedere Distribuzione di un dominio del carico di lavoro VI tramite l'interfaccia utente di SDDC Manager e Gestione delle immagini di vSphere Lifecycle Manager in VMware Cloud Foundation.
  • Driver host NVIDIA vGPU installato e vGPU configurata in ogni host ESXi del cluster per i carichi di lavoro AI.
    1. In ogni host ESXi, abilitare SR-IOV nel BIOS e Shared Direct nei dispositivi grafici per le operazioni di AI.

      Per informazioni sulla configurazione di SR-IOV, vedere la documentazione del fornitore dell'hardware. Per informazioni sulla configurazione di Shared Direct nei dispositivi grafici, vedere Configurazione della grafica virtuale in vSphere.

    2. Installare il driver NVIDIA vGPU Host Manager in ogni host ESXi in uno dei modi seguenti:
      • Installare il driver in ogni host e aggiungere il file VIB del driver all'immagine di vSphere Lifecycle per il cluster.

        Vedere Guida rapida del software NVIDIA Virtual GPU.

      • Aggiungere il file VIB del driver all'immagine di vSphere Lifecycle per il cluster e correggere gli host.
    3. Se si desidera utilizzare la condivisione MIG (Multi-Instance GPU), abilitarla in ogni host ESXi nel cluster.

      Vedere Guida per l'utente di NVIDIA MIG.

    4. Nell'istanza di vCenter Server per il dominio del carico di lavoro VI, impostare l'impostazione avanzata vgpu.hotmigrate.enabled su true in modo che le macchine virtuali con vGPU possano essere migrate tramite vSphere vMotion.

      Vedere Configurazione delle impostazioni avanzate.