Nachdem ein ML-Modell validiert und in den Modellkatalog der Harbor-Registrierung hochgeladen wurde, kann ein MLOps-Ingenieur dieses Modell für Rückschlüsse auf eine Deep Learning-VM ausführen, auf der ein Triton Inference Server aus dem NVIDIA NGC-Katalog ausgeführt wird.

Sie rufen ML-Modelle auf ähnliche Weise aus Harbor ab, wenn Sie eine Deep Learning-RAG-VM mit der Standard- oder Ihrer eigenen Knowledgebase bereitstellen. Weitere Informationen finden Sie unter Bereitstellen einer Deep Learning-VM mit einer RAG-Arbeitslast.

Prozedur

  1. Stellen Sie eine Deep Learning-VM mit einem Triton Inference Server bereit und stellen Sie mit der Berechtigung vmware eine SSH-Verbindung zur VM her.

    Sie können Sie einen der folgenden Workflows verwenden. Als MLOps-Ingenieur können Sie eine Datenbank direkt über VMware Aria Automation bereitstellen. Andernfalls fordern Sie die VM-Bereitstellung bei Ihrem Cloud-Administrator oder DevOps-Ingenieur an.

    Bereitstellungsworkflow Benötigte Benutzerrolle Beschreibung
    Bereitstellung mithilfe eines Self-Service-Katalogelements in VMware Aria Automation MLOps-Ingenieur Weitere Informationen finden Sie unter Bereitstellen einer Deep Learning-VM mit NVIDIA Triton Inference Server unter Verwendung eines Self-Service-Katalogelements in VMware Aria Automation.
    Direkte Bereitstellung in einem vSphere-Cluster. Cloud-Administrator Weitere Informationen finden Sie unter Direktes Bereitstellen einer Deep Learning-VM auf einem vSphere-Cluster in VMware Private AI Foundation with NVIDIA.
    Bereitstellung mithilfe des Befehls kubectl. DevOps-Ingenieur Weitere Informationen finden Sie unter Bereitstellen einer Deep Learning-VM mithilfe des Befehls „kubectl“ in VMware Private AI Foundation with NVIDIA.
    Wenn das Modell in Hugging Face gehostet wird, können Sie das Befehlsdienstprogramm huggingface-cli als Teil des cloud-init-Skripts installieren und zum Herunterladen von Open Weights-Modellen verwenden, die auf dem Hugging Face-Hub gehostet werden. Verwenden Sie das Flag --local-dir zum Herunterladen des Modells ohne symbolische Links, damit die pais-CLI das Modell verarbeiten kann.
  2. Fügen Sie das Ausstellerzertifikat der Harbor-Registrierung zum Truststore für Zertifikate auf der Deep Learning-VM hinzu.
    1. Fordern Sie das CA-Zertifikat beim Administrator der Harbor-Registrierung an.
    2. Laden Sie das Zertifikat auf die virtuelle Maschine hoch, indem Sie beispielsweise einen SCP-Client (Secure Copy Protocol) auf Ihrer Workstation verwenden.
      Beispiel:
      scp infra/my-harbor-issuing-ca.crt [email protected]:
    3. Kopieren Sie das Zertifikat in das Verzeichnis /usr/local/share/ca-certificates und fügen Sie es zum Trust Store hinzu.
      Beispiel:
      sudo cp my-harbor-issuing-ca.crt /usr/local/share/ca-certificates/
      sudo update-ca-certificates
      
    4. Starten Sie den Docker-Dienst zum Speichern der Änderungen neu.
      sudo systemctl restart docker
  3. Melden Sie sich bei der Harbor-Registrierung an mithilfe von docker login an.
    docker login -u my_harbor_user_name my-harbor-repo-mycompany.com
  4. Rufen Sie das Modell ab, für das Rückschlüsse ausgeführt werden sollen.
    pais models pull --modelName baai/bge-small-en-v1.5 --modelStore my-harbor-repo-mycompany.com/dev-models --tag approved
    
  5. Erstellen Sie ein Modell-Repository für den Triton Inference Server und senden Sie Modell-Rückschlussanforderungen.
    Weitere Informationen finden Sie unter Triton Inference Server.