Um DevOps-Ingenieuren und Datenwissenschaftlern die Möglichkeit zu geben, Deep Learning-VMs oder TKG-Cluster mit KI-Containerarbeitslasten bereitzustellen, müssen Sie einen Supervisor auf einem GPU-fähigen Cluster in einer VI-Arbeitslastdomäne bereitstellen und vGPU-fähige VM-Klassen erstellen.

Voraussetzungen

Siehe Anforderungen für die Bereitstellung von VMware Private AI Foundation with NVIDIA.

Prozedur

  1. Stellen Sie einen NSX Edge-Cluster in der VI-Arbeitslastdomäne mithilfe von SDDC Manager bereit.
    SDDC Manager stellt auch ein Tier-0-Gateway bereit, das Sie bei der Supervisor-Bereitstellung angeben. Das Tier-0-Gateway befindet sich im Aktiv/Aktiv-Hochverfügbarkeitsmodus.
  2. Konfigurieren Sie eine Speicherrichtlinie für den Supervisor.
    Weitere Informationen finden Sie unter Erstellen von Speicherrichtlinien für vSphere with Tanzu.
  3. Stellen Sie einen Supervisor auf einem Cluster von GPU-fähigen ESXi-Hosts in der VI-Arbeitslastdomäne bereit.
    Sie verwenden die Zuweisung statischer IP-Adressen für das Verwaltungsnetzwerk. Weisen Sie das Supervisor-VM-Verwaltungsnetzwerk auf dem vSphere Distributed Switch für den Cluster zu.

    Konfigurieren Sie das Arbeitslastnetzwerk wie folgt:

    • Verwenden Sie die vSphere Distributed Switch für den Cluster oder erstellen Sie einen speziell für KI-Arbeitslasten.
    • Konfigurieren Sie den Supervisor mit dem NSX Edge-Cluster und dem Tier-0-Gateway, das Sie mithilfe von SDDC Manager bereitgestellt haben.
    • Legen Sie die restlichen Werte entsprechend Ihrer Einrichtung fest.

    Verwenden Sie die von Ihnen erstellte Speicherrichtlinie.

    Weitere Informationen zum Bereitstellen eines Supervisors in einem einzelnen Cluster finden Sie unter Bereitstellen eines Supervisors für eine Zone mit NSX-Netzwerk.

  4. Konfigurieren Sie vGPU-basierte VM-Klassen für KI-Arbeitslasten.
    In diesen VM-Klassen legen Sie die Computing-Anforderungen und ein vGPU-Profil für ein NVIDIA GRID vGPU-Gerät entsprechend den vGPU-Geräten fest, die auf den ESXi-Hosts im Supervisor-Cluster konfiguriert sind.

    Legen Sie für die VM-Klasse für die Bereitstellung von Deep Learning-VMs mit NVIDIA RAG-Arbeitslasten die folgenden zusätzlichen Einstellungen im Dialogfeld „VM-Klasse“ fest:

    • Wählen Sie das vollständige vGPU-Profil für den Zeitaufteilungsmodus oder ein MIG-Profil aus. Wählen Sie beispielsweise für die NVIDIA A100-40-GB-Karte im vGPU-Zeitaufteilungsmodus die Option nvidia_a100-40c aus.
    • Teilen Sie auf der Registerkarte Virtuelle Hardware mehr als 16 virtuelle CPU-Kerne und 64 GB virtuellen Arbeitsspeicher zu.
    • Legen Sie auf der Registerkarte Erweiterte Parameter den Parameter pciPassthru<vgpu-id>.cfg.enable_uvm auf 1 fest.

      wobei <vgpu-id> die der virtuellen Maschine zugewiesene vGPU identifiziert. Wenn der virtuellen Maschine beispielsweise zwei vGPUs zugewiesen sind, legen Sie pciPassthru0.cfg.parameter=1 und pciPassthru1.cfg.parameter = 1 fest.

  5. Wenn Sie das kubectl-Befehlszeilentool verwenden möchten, um eine Deep Learning-VM oder einen GPU-beschleunigten TKG-Cluster auf einem Supervisor bereitzustellen, erstellen und konfigurieren Sie einen vSphere-Namespace, fügen Sie Ressourcengrenzwerte, Speicherrichtlinien, Berechtigungen für DevOps-Ingenieure hinzu und verknüpfen Sie die vGPU-basierten VM-Klassen damit.