Workflow di esempio: distribuzione di un modello ML per eseguire l'inferenza

Dopo la convalida e il caricamento di un modello ML nella raccolta di modelli del registro Harbor, un tecnico MLOps può eseguire tale modello per l'inferenza in un'istanza di Deep Learning VM che esegue Triton Inference Server dal catalogo NVIDIA NGC.

È possibile eseguire il pull dei modelli ML da Harbor in modo simile quando si distribuisce un'istanza di Deep Learning VM RAG utilizzando la Knowledge Base predefinita o una Knowledge Base personalizzata. Vedere Distribuzione di Deep Learning VM con un carico di lavoro RAG.

Procedura

Distribuire Deep Learning VM con Triton Inference Server e aprire una connessione SSH come vmware.

È possibile utilizzare uno dei workflow seguenti. In qualità di tecnico MLOps, è possibile distribuire direttamente un database da VMware Aria Automation. Oppure, richiedere la distribuzione della macchina virtuale all'amministratore del cloud o al tecninco DevOps.


Workflow di distribuzione	Ruolo utente obbligatorio	Descrizione
Eseguire la distribuzione utilizzando un elemento del catalogo self-service in VMware Aria Automation	Tecnico MLOps	Vedere Distribuzione di Deep Learning VM con NVIDIA Triton Inference Server mediante un elemento del catalogo self-service in VMware Aria Automation.
Eseguire la distribuzione direttamente in un cluster vSphere.	Amministratore del cloud	Vedere Distribuzione di una macchina virtuale di deep learning direttamente in un cluster vSphere in VMware Private AI Foundation with NVIDIA.
Eseguire la distribuzione utilizzando il comando `kubectl`.	Tecnico DevOps	Vedere Distribuzione di una macchina virtuale di deep learning tramite il comando kubectl in VMware Private AI Foundation with NVIDIA.

Se il modello è ospitato in Hugging Face, è possibile installare l'utilità della riga di comando huggingface-cli come parte dello script cloud-init e utilizzarla per scaricare i modelli con pesi aperti ospitati in Hugging Face Hub. Utilizzare il contrassegno --local-dir per scaricare il modello senza collegamenti simbolici, in modo che la CLI di pais possa elaborarlo.

Aggiungere il certificato dell'emittente del registro Harbor all'archivio di attendibilità del certificato in Deep Learning VM.
1. Richiedere il certificato CA all'amministratore del registro Harbor.
2. Caricare il certificato nella macchina virtuale, ad esempio utilizzando un client SCP (Secure Copy Protocol) nella workstation.
  Ad esempio:
```
scp infra/my-harbor-issuing-ca.crt [email protected]:
```
3. Copiare il certificato nella directory /usr/local/share/ca-certificates e aggiungerlo all'archivio di attendibilità.
  Ad esempio:
```
sudo cp my-harbor-issuing-ca.crt /usr/local/share/ca-certificates/
sudo update-ca-certificates
```
4. Per salvare le modifiche, riavviare il servizio Docker.
```
sudo systemctl restart docker
```

Accedere al registro Harbor utilizzando docker login.

docker login -u my_harbor_user_name my-harbor-repo-mycompany.com

Eseguire il pull del modello in cui si intende eseguire l'inferenza.

pais models pull --modelName baai/bge-small-en-v1.5 --modelStore my-harbor-repo-mycompany.com/dev-models --tag approved

Creare un repository di modelli per Triton Inference Server e iniziare a inviare richieste di inferenza del modello.
Vedere Triton Inference Server.