Une fois qu'un modèle d'apprentissage automatique est validé et chargé dans la galerie de modèles de votre registre Harbor, un ingénieur MLOps peut exécuter ce modèle pour l'inférence sur une VM à apprentissage profond exécutant un serveur d'inférence Triton à partir du catalogue NVIDIA NGC.

Extrayez des modèles d'apprentissage automatique de Harbor de la même manière lors du déploiement d'une VM à apprentissage profond RAG à l'aide de la valeur par défaut ou de votre propre base de connaissances. Reportez-vous à la section Déployer une VM à apprentissage profond avec une charge de travail RAG.

Procédure

  1. Déployez une VM à apprentissage profond avec un serveur d'inférence Triton et ouvrez une connexion SSH vers celle-ci en tant que vmware.

    Vous pouvez utiliser l'un des workflows suivants. En tant qu'ingénieur MLOps, vous pouvez déployer directement une base de données à partir de VMware Aria Automation. Sinon, demandez un déploiement de VM auprès de votre administrateur de cloud ou ingénieur DevOps.

    Workflow de déploiement. Rôle d'utilisateur requis Description
    Effectuez le déploiement à l'aide d'un élément de catalogue en libre-service dans VMware Aria Automation Ingénieur MLOps Reportez-vous à la section Déployer une VM à apprentissage profond avec le serveur d'inférence Triton NVIDIA à l'aide d'un élément Catalogue en libre-service dans VMware Aria Automation.
    Effectuez un déploiement direct sur un cluster vSphere. Administrateur de cloud Reportez-vous à la section Déployer une VM à apprentissage profond directement sur un cluster vSphere de VMware Private AI Foundation with NVIDIA.
    Effectuez le déploiement à l'aide de la commande kubectl. Ingénieur DevOps Reportez-vous à la section Déployer une VM à apprentissage profond à l'aide de la commande kubectl dans VMware Private AI Foundation with NVIDIA.
    Si le modèle est hébergé dans Hugging Face, vous pouvez installer l'utilitaire de commande huggingface-cli dans le cadre du script cloud-init et l'utiliser pour télécharger des modèles open-weights (à poids ouverts) hébergés sur Hugging Face Hub. Utilisez l'indicateur --local-dir pour télécharger le modèle sans liens symboliques afin que l'interface de ligne de commande pais puisse traiter le modèle.
  2. Ajoutez le certificat de l'émetteur du registre Harbor au magasin d'approbations de certificats sur la VM à apprentissage profond.
    1. Demandez le certificat d'autorité de certification à l'administrateur du registre Harbor.
    2. Chargez le certificat sur la machine virtuelle, par exemple, à l'aide d'un client scp (Secure Copy Protocol) sur votre station de travail.
      Par exemple :
      scp infra/my-harbor-issuing-ca.crt [email protected]:
    3. Copiez le certificat dans le répertoire /usr/local/share/ca-certificates et ajoutez-le au magasin d'approbations.
      Par exemple :
      sudo cp my-harbor-issuing-ca.crt /usr/local/share/ca-certificates/
      sudo update-ca-certificates
      
    4. Pour enregistrer les modifications, redémarrez le service Docker.
      sudo systemctl restart docker
  3. Connectez-vous au registre Harbor à l'aide de docker login.
    docker login -u my_harbor_user_name my-harbor-repo-mycompany.com
  4. Extrayez le modèle sur lequel vous prévoyez d'exécuter l'inférence.
    pais models pull --modelName baai/bge-small-en-v1.5 --modelStore my-harbor-repo-mycompany.com/dev-models --tag approved
    
  5. Créez un référentiel de modèles pour le serveur d'inférence Triton et envoyez des demandes d'inférence de modèles.
    Reportez-vous à la section Serveur d'inférence Triton.