Dopo la convalida e il caricamento di un modello ML nella raccolta di modelli del registro Harbor, un tecnico MLOps può eseguire tale modello per l'inferenza in un'istanza di Deep Learning VM che esegue Triton Inference Server dal catalogo NVIDIA NGC.
È possibile eseguire il pull dei modelli ML da Harbor in modo simile quando si distribuisce un'istanza di Deep Learning VM RAG utilizzando la Knowledge Base predefinita o una Knowledge Base personalizzata. Vedere
Distribuzione di Deep Learning VM con un carico di lavoro RAG.
Procedura
- Distribuire Deep Learning VM con Triton Inference Server e aprire una connessione SSH come vmware.
È possibile utilizzare uno dei workflow seguenti. In qualità di tecnico MLOps, è possibile distribuire direttamente un database da VMware Aria Automation. Oppure, richiedere la distribuzione della macchina virtuale all'amministratore del cloud o al tecninco DevOps.
Se il modello è ospitato in Hugging Face, è possibile installare l'utilità della riga di comando
huggingface-cli come parte dello script cloud-init e utilizzarla per scaricare i modelli con pesi aperti ospitati in Hugging Face Hub. Utilizzare il contrassegno
--local-dir
per scaricare il modello senza collegamenti simbolici, in modo che la CLI di
pais possa elaborarlo.
- Aggiungere il certificato dell'emittente del registro Harbor all'archivio di attendibilità del certificato in Deep Learning VM.
- Richiedere il certificato CA all'amministratore del registro Harbor.
- Caricare il certificato nella macchina virtuale, ad esempio utilizzando un client SCP (Secure Copy Protocol) nella workstation.
- Copiare il certificato nella directory /usr/local/share/ca-certificates e aggiungerlo all'archivio di attendibilità.
Ad esempio:
sudo cp my-harbor-issuing-ca.crt /usr/local/share/ca-certificates/
sudo update-ca-certificates
- Per salvare le modifiche, riavviare il servizio Docker.
sudo systemctl restart docker
- Accedere al registro Harbor utilizzando docker login.
docker login -u my_harbor_user_name my-harbor-repo-mycompany.com
- Eseguire il pull del modello in cui si intende eseguire l'inferenza.
pais models pull --modelName baai/bge-small-en-v1.5 --modelStore my-harbor-repo-mycompany.com/dev-models --tag approved
- Creare un repository di modelli per Triton Inference Server e iniziare a inviare richieste di inferenza del modello.