En tant qu'ingénieur DevOps, vous pouvez demander un cluster accéléré pour GPU Tanzu Kubernetes Grid (TKG), dans lequel les nœuds worker peuvent exécuter des charges de travail AI/ML, à partir du catalogue Automation Service Broker en libre-service.

Le cluster TKG contient un opérateur GPU NVIDIA, qui est un opérateur Kubernetes responsable de la configuration du pilote NVIDIA approprié pour le matériel GPU NVIDIA sur les nœuds de cluster TKG. Le cluster déployé est prêt à l'utilisation pour les charges de travail AI/ML sans configuration supplémentaire liée au GPU.

Le déploiement contient un espace de noms de superviseur, un cluster TKG avec trois nœuds de travail, plusieurs ressources dans le cluster TKG et une application Carvel qui déploie l'application GPU Operator.

Procédure

  1. Sur la page Catalogue de Automation Service Broker, recherchez la carte Cluster Kubernetes AI et cliquez sur Demande.
  2. Sélectionnez un projet.
  3. Entrez un nom et une description pour votre déploiement.
  4. Sélectionnez le nombre de nœuds du panneau de contrôle.
    Paramètre Exemple de valeur
    Nombre de nœuds 1
    Classe de VM best-effort-4xlarge - 16 CPUs and 128 GB Memory

    La sélection de classe définit les ressources disponibles dans la machine virtuelle.

  5. Sélectionnez le nombre de nœuds de travail.
    Paramètre Description
    Nombre de nœuds 3
    Classe de VM best-effort-4xlarge-a100-40c - 1 vGPU (40 GB), 16 CPUs and 120 GB Memory
    Réplicas de découpage temporel 1

    Le découpage temporel définit un ensemble de réplicas pour un GPU partagé entre les charges de travail.

  6. Fournissez la clé API d'entreprise d'IA NVIDIA.
  7. Cliquez sur Envoyer.