Beispielworkflow: Bereitstellen eines ML-Modells zum Ausführen von Rückschlüssen

Nachdem ein ML-Modell validiert und in den Modellkatalog der Harbor-Registrierung hochgeladen wurde, kann ein MLOps-Ingenieur dieses Modell für Rückschlüsse auf eine Deep Learning-VM ausführen, auf der ein Triton Inference Server aus dem NVIDIA NGC-Katalog ausgeführt wird.

Sie rufen ML-Modelle auf ähnliche Weise aus Harbor ab, wenn Sie eine Deep Learning-RAG-VM mit der Standard- oder Ihrer eigenen Knowledgebase bereitstellen. Weitere Informationen finden Sie unter Bereitstellen einer Deep Learning-VM mit einer RAG-Arbeitslast.

Prozedur

Stellen Sie eine Deep Learning-VM mit einem Triton Inference Server bereit und stellen Sie mit der Berechtigung vmware eine SSH-Verbindung zur VM her.

Sie können Sie einen der folgenden Workflows verwenden. Als MLOps-Ingenieur können Sie eine Datenbank direkt über VMware Aria Automation bereitstellen. Andernfalls fordern Sie die VM-Bereitstellung bei Ihrem Cloud-Administrator oder DevOps-Ingenieur an.


Bereitstellungsworkflow	Benötigte Benutzerrolle	Beschreibung
Bereitstellung mithilfe eines Self-Service-Katalogelements in VMware Aria Automation	MLOps-Ingenieur	Weitere Informationen finden Sie unter Bereitstellen einer Deep Learning-VM mit NVIDIA Triton Inference Server unter Verwendung eines Self-Service-Katalogelements in VMware Aria Automation.
Direkte Bereitstellung in einem vSphere-Cluster.	Cloud-Administrator	Weitere Informationen finden Sie unter Direktes Bereitstellen einer Deep Learning-VM auf einem vSphere-Cluster in VMware Private AI Foundation with NVIDIA.
Bereitstellung mithilfe des Befehls `kubectl`.	DevOps-Ingenieur	Weitere Informationen finden Sie unter Bereitstellen einer Deep Learning-VM mithilfe des Befehls „kubectl“ in VMware Private AI Foundation with NVIDIA.

Wenn das Modell in Hugging Face gehostet wird, können Sie das Befehlsdienstprogramm huggingface-cli als Teil des cloud-init-Skripts installieren und zum Herunterladen von Open Weights-Modellen verwenden, die auf dem Hugging Face-Hub gehostet werden. Verwenden Sie das Flag --local-dir zum Herunterladen des Modells ohne symbolische Links, damit die pais-CLI das Modell verarbeiten kann.

Fügen Sie das Ausstellerzertifikat der Harbor-Registrierung zum Truststore für Zertifikate auf der Deep Learning-VM hinzu.
1. Fordern Sie das CA-Zertifikat beim Administrator der Harbor-Registrierung an.
2. Laden Sie das Zertifikat auf die virtuelle Maschine hoch, indem Sie beispielsweise einen SCP-Client (Secure Copy Protocol) auf Ihrer Workstation verwenden.
  Beispiel:
```
scp infra/my-harbor-issuing-ca.crt [email protected]:
```
3. Kopieren Sie das Zertifikat in das Verzeichnis /usr/local/share/ca-certificates und fügen Sie es zum Trust Store hinzu.
  Beispiel:
```
sudo cp my-harbor-issuing-ca.crt /usr/local/share/ca-certificates/
sudo update-ca-certificates
```
4. Starten Sie den Docker-Dienst zum Speichern der Änderungen neu.
```
sudo systemctl restart docker
```
Melden Sie sich bei der Harbor-Registrierung an mithilfe von docker login an.
```
docker login -u my_harbor_user_name my-harbor-repo-mycompany.com
```

Rufen Sie das Modell ab, für das Rückschlüsse ausgeführt werden sollen.

pais models pull --modelName baai/bge-small-en-v1.5 --modelStore my-harbor-repo-mycompany.com/dev-models --tag approved

Erstellen Sie ein Modell-Repository für den Triton Inference Server und senden Sie Modell-Rückschlussanforderungen.
Weitere Informationen finden Sie unter Triton Inference Server.