Pour permettre aux ingénieurs DevOps et aux scientifiques des données de déployer des machines virtuelles à apprentissage profond ou des clusters TKG avec des charges de travail de conteneur IA, vous devez déployer un superviseur sur un cluster avec GPU activé dans un domaine de charge de travail VI et créer des classes de VM avec vGPU activé.

Conditions préalables

Reportez-vous à Conditions requises de déploiement de VMware Private AI Foundation with NVIDIA.

Procédure

  1. Déployez un cluster NSX Edge dans le domaine de charge de travail VI à l'aide de SDDC Manager.
    SDDC Manager déploie également une passerelle de niveau 0 que vous spécifiez lors du déploiement du superviseur. La passerelle de niveau 0 est en mode de haute disponibilité actif-actif.
  2. Configurez une stratégie de stockage pour le superviseur.
  3. Déployez un superviseur sur un cluster d'hôtes ESXi avec GPU activé dans le domaine de charge de travail VI.
    Utilisez l'attribution d'adresses IP statiques pour le réseau de gestion. Attribuez le réseau de gestion de VM du superviseur sur le commutateur vSphere Distributed Switch pour le cluster.

    Configurez le réseau de charge de travail de la manière suivante :

    • Utilisez le commutateur vSphere Distributed Switch pour le cluster ou créez-en un spécifiquement pour les charges de travail d'IA.
    • Configurez le superviseur avec le cluster NSX Edge et la passerelle de niveau 0 que vous avez déployés à l'aide de SDDC Manager.
    • Définissez les valeurs restantes en fonction de votre conception.

    Utilisez la stratégie de stockage que vous avez créée.

    Pour plus d'informations sur le déploiement d'un superviseur sur un cluster unique, reportez-vous à la section Déployer un superviseur à une seule zone avec la mise en réseau NSX.

  4. Configurez les classes de VM basées sur vGPU pour les charges de travail d'IA.
    Dans ces classes de VM, définissez le calcul requis et un profil vGPU pour un périphérique NVIDIA GRID vGPU en fonction des périphériques vGPU configurés sur les hôtes ESXi dans le cluster superviseur.

    Pour la classe de VM du déploiement de VM à apprentissage profond avec des charges de travail NVIDIA RAG, définissez les paramètres supplémentaires suivants dans la boîte de dialogue Classe de VM :

    • Sélectionnez le profil vGPU complet pour le mode de découpage temporel ou un profil MIG. Par exemple, pour la carte NVIDIA A100 40 Go en mode de découpage temporel vGPU, sélectionnez nvidia_a100-40c.
    • Dans l'onglet Matériel virtuel, allouez plus de 16 cœurs de CPU virtuels et 64 Go de mémoire virtuelle.
    • Dans l'onglet Paramètres avancés, définissez le paramètre pciPassthru<vgpu-id>.cfg.enable_uvm sur 1.

      <vgpu-id> identifie le vGPU attribué à la machine virtuelle. Par exemple, si deux vGPU sont attribués à la machine virtuelle, définissez pciPassthru0.cfg.parameter=1 et pciPassthru1.cfg.parameter = 1.

  5. Si vous prévoyez d'utiliser l'outil de ligne de commande kubectl pour déployer une VM à apprentissage profond ou un cluster TKG accéléré par GPU sur un superviseur, créez et configurez un espace de noms vSphere, en ajoutant des limites de ressources, une stratégie de stockage, des autorisations pour les ingénieurs DevOps et en y associant les classes de VM basées sur vGPU.