VMware Private AI Foundation with NVIDIA にディープ ラーニング仮想マシンを展開した後、指定された DL ワークロードを仮想マシンにダウンロードすると失敗し、認証情報が無効であるというエラー ログ メッセージが表示されます。

問題

Triton Inference Server、TensorFlow、Pytorch などの DL ワークロード コンテナ イメージをインストールする場合、/var/log/dl.log ファイルには次のメッセージが含まれます。

Unable to find image 'nvcr.io/nvidia/tritonserver-pb24h1:24.03.02-py3' locally docker: Error response from daemon: unauthorized: <html> <head><title>401 Authorization Required</title></head> <body>

NVIDIA RAG の場合、/var/log/dl.log ファイルに次のメッセージが含まれます。

Error: Invalid apikey chmod: cannot access 'llama2-13b-chat_vh100x2_fp16_24.02': No such file or directory Error: Invalid apikey chmod: cannot access 'nv-embed-qa_v4': No such file or directory stat /opt/data/rag-docker-compose_v24.03/docker-compose-vectordb.yaml: no such file or directory stat /opt/data/rag-docker-compose_v24.03/rag-app-text-chatbot.yaml: no such file or directory

原因

nvcr.io コンテナ レジストリへの認証に失敗しました。その結果、DL ワークロード イメージを仮想マシンにダウンロードできなくなります。

解決方法

  • OVF パラメータとして渡された、または VMware Aria Automation のプライベート AI のカタログ セットアップ ウィザードに渡された、nvcr.io レジストリにログインするための認証情報を確認します。

    • レジストリ:nvcr.io
    • レジストリ ユーザー アカウント:$oauthtoken
    • レジストリ パスワード:NGC ポータルの API キー
  • NVIDIA NGC ポータル API キーに必要なリソースにアクセスする権限があり、キーの有効期限が切れていないことを確認します。