VMware Private AI Foundation with NVIDIA では、DevOps エンジニアが Kubernetes API を使用して、NVIDIA GPU を使用する TKG クラスタをプロビジョニングします。切断された環境では、ローカルの Ubuntu パッケージ リポジトリを追加でセットアップし、スーパーバイザーの Harbor レジストリを使用する必要があります。
前提条件
クラウド管理者に、AI 対応インフラストラクチャのための次の前提条件が満たされていることを確認します。
- VMware Private AI Foundation with NVIDIA が切断された環境に対して構成されていること。プライベート AI ワークロード展開のための VMware Cloud Foundation の準備を参照してください。
- スーパーバイザー エンドポイントおよび NVIDIA GPU Operator チャート定義をホストするローカル Helm リポジトリにアクセスできるマシン。
手順
- クラウド管理者が構成した vSphere 名前空間に TKG クラスタをプロビジョニングします。
「NVIDIA vGPU 用の TKGS クラスタのプロビジョニング」を参照してください。
- NVIDIA GPU Operator をインストールします。
helm install --wait gpu-operator ./gpu-operator-4-1 -n gpu-operator
- 操作を監視します。
watch kubectl get pods -n gpu-operator
次に行うこと
Harbor レジストリからスーパーバイザーに AI コンテナ イメージを展開します。