ML モデルが検証され、Harbor レジストリのモデル ギャラリーにアップロードされると、MLOps エンジニアは、NVIDIA NGC カタログから Triton Inference Server を実行しているディープ ラーニング仮想マシンでの推論のために、そのモデルを実行できます。

デフォルトまたは独自のナレッジベースを使用して RAG ディープ ラーニング仮想マシンを展開する場合も、同様の方法で Harbor から ML モデルをプルします。 RAG ワークロードでディープ ラーニング仮想マシンを展開するを参照してください。

手順

  1. Triton Inference Server を備えたディープ ラーニング仮想マシンを展開し、vmware として SSH 接続を開きます。

    次のワークフローのいずれかを使用できます。MLOps エンジニアである場合は、VMware Aria Automation からデータベースを直接展開できます。展開できない場合は、クラウド管理者または DevOps エンジニアに仮想マシンの展開をリクエストします。

    展開のワークフロー 必要なユーザー ロール 説明
    VMware Aria Automation のセルフサービス カタログ アイテムを使用して展開する MLOps エンジニア VMware Aria Automation のセルフサービス カタログ アイテムを使用して、NVIDIA Triton Inference Server を備えたディープ ラーニング仮想マシンを展開するを参照してください。
    vSphere クラスタに直接展開します。 クラウド管理者 VMware Private AI Foundation with NVIDIA の vSphere クラスタにディープ ラーニング仮想マシンを直接展開するを参照してください。
    kubectl コマンドを使用して展開します。 DevOps エンジニア kubectl コマンドを使用して VMware Private AI Foundation with NVIDIA でディープ ラーニング仮想マシンを展開するを参照してください。
    モデルが Hugging Face でホストされている場合は、cloud-init スクリプトの一部として huggingface-cli コマンド ユーティリティをインストールし、それを使用して、Hugging Face Hub でホストされているオープンウェイト モデルをダウンロードできます。 --local-dir フラグを使用してシンボリック リンクなしでモデルをダウンロードし、 pais CLI がモデルを処理できるようにします。
  2. Harbor レジストリの発行者証明書を、ディープ ラーニング仮想マシンの証明書トラスト ストアに追加します。
    1. Harbor レジストリ管理者に CA 証明書をリクエストします。
    2. 証明書を仮想マシンにアップロードします。たとえば、ワークステーションでセキュア コピー プロトコル (scp) クライアントを使用します。
      例:
      scp infra/my-harbor-issuing-ca.crt [email protected]:
    3. 証明書を /usr/local/share/ca-certificates ディレクトリにコピーし、トラスト ストアに追加します。
      例:
      sudo cp my-harbor-issuing-ca.crt /usr/local/share/ca-certificates/
      sudo update-ca-certificates
      
    4. 変更を保存するには、Docker サービスを再起動します。
      sudo systemctl restart docker
  3. docker login を使用して Harbor レジストリにログインします。
    docker login -u my_harbor_user_name my-harbor-repo-mycompany.com
  4. 推論を実行するモデルをプルします。
    pais models pull --modelName baai/bge-small-en-v1.5 --modelStore my-harbor-repo-mycompany.com/dev-models --tag approved
    
  5. Triton Inference Server のモデル リポジトリを作成し、モデル推論要求の送信を開始します。
    Triton Inference Serverを参照してください。