切断された VMware Private AI Foundation with NVIDIA 環境で kubectl コマンドを使用して GPU アクセラレーション TKG クラスタをプロビジョニングする

VMware Private AI Foundation with NVIDIA では、DevOps エンジニアが Kubernetes API を使用して、NVIDIA GPU を使用する TKG クラスタをプロビジョニングします。切断された環境では、ローカルの Ubuntu パッケージリポジトリを追加でセットアップし、スーパーバイザーの Harbor レジストリを使用する必要があります。

前提条件

クラウド管理者に、AI 対応インフラストラクチャのための次の前提条件が満たされていることを確認します。

VMware Private AI Foundation with NVIDIA が切断された環境に対して構成されていること。プライベート AI ワークロード展開のための VMware Cloud Foundation の準備を参照してください。
スーパーバイザーエンドポイントおよび NVIDIA GPU Operator チャート定義をホストするローカル Helm リポジトリにアクセスできるマシン。

手順

クラウド管理者が構成した vSphere 名前空間に TKG クラスタをプロビジョニングします。
「NVIDIA vGPU 用の TKGS クラスタのプロビジョニング」を参照してください。

NVIDIA GPU Operator をインストールします。

helm install --wait gpu-operator ./gpu-operator-4-1 -n gpu-operator

操作を監視します。
```
watch kubectl get pods -n gpu-operator
```

次に行うこと

Harbor レジストリからスーパーバイザーに AI コンテナイメージを展開します。