DevOps エンジニアと開発者は、VMware Aria Automation を使用して、VI ワークロード ドメインのスーパーバイザー インスタンスでコンテナ AI ワークロードをホストするための GPU アクセラレーション TKG クラスタをプロビジョニングできます。
GPU アクセラレーション TKG クラスタを展開するワークフローは、次の 2 つの部分で構成されます。
- クラウド管理者は、スーパーバイザーの新しい名前空間のプライベート AI 用のセルフサービス カタログ アイテムを Automation Service Broker に追加します。
- データ サイエンティストまたは DevOps エンジニアは、AI Kubernetes クラスタ カタログ アイテムを使用して、スーパーバイザーの新しい名前空間に GPU アクセラレーション TKG クラスタを展開します。
VMware Aria Automation で AI セルフサービス カタログ アイテムを作成する
クラウド管理者は、VMware Aria Automation のプライベート AI のカタログ セットアップ ウィザードを使用して、VI ワークロード ドメインにディープ ラーニング仮想マシンまたは GPU アクセラレーション TKG クラスタを展開するためのカタログ アイテムをすばやく追加できます。
データ サイエンティストは、ディープ ラーニング仮想マシンを展開するためにディープ ラーニング カタログ アイテムを使用できます。DevOps エンジニアは、AI 対応 TKG クラスタをプロビジョニングするためにカタログ アイテムを使用できます。実行するたびに、プライベート AI のカタログ セットアップ ウィザードによって、Service Broker カタログに 2 つのカタログ アイテム(ディープ ラーニング仮想マシン用と TKG クラスタ用)が追加されます。
実行するたびに、プライベート AI のカタログ セットアップ ウィザードによって、Service Broker カタログに 2 つのカタログ アイテム(ディープ ラーニング仮想マシン用と TKG クラスタ用)が追加されます。ウィザードは、以下の場合にいつでも実行できます。
- 別のスーパーバイザーで AI ワークロードのプロビジョニングを有効にする。
- クライアント構成 .tok ファイルとライセンス サーバ、または切断された環境の vGPU ゲスト ドライバのダウンロード URL を含む、NVIDIA AI Enterprise ライセンスの変更に対応する。
- ディープ ラーニング仮想マシン イメージの変更に対応する。
- 他の vGPU または非 GPU 仮想マシン クラス、ストレージ ポリシー、またはコンテナ レジストリを使用する。
- 新しいプロジェクトにカタログ アイテムを作成する。
前提条件
- VMware Private AI Foundation with NVIDIA が VI ワークロード ドメインで使用可能であることを確認します。
- ディープ ラーニング仮想マシンを展開するための前提条件が満たされていることを確認します。
- VMware Private AI Foundation with NVIDIA のディープ ラーニング仮想マシン イメージを含むコンテンツ ライブラリを作成する。
手順
VMware Aria Automation でセルフサービス カタログを使用して GPU アクセラレーション TKG クラスタをプロビジョニングする
VMware Private AI Foundation with NVIDIA では、DevOps エンジニアが Automation Service Broker の AI Kubernetes クラスタ セルフサービス カタログ アイテムを使用して、VMware Aria Automation から NVIDIA GPU でアクセラレーションされた TKG クラスタをプロビジョニングできます。次に、NVIDIA NGC から AI コンテナ イメージをクラスタに展開できます。
手順
次のタスク
- kubectl を使用して TKG クラスタにアクセスする方法の詳細については、Automation Service Broker で に移動します。
- NVIDIA NGC カタログから AI コンテナ イメージを展開します。
切断された環境では、AI コンテナ イメージをプライベート コンテナ レジストリにアップロードする必要があります。VMware Private AI Foundation with NVIDIA でのプライベート Harbor レジストリの設定を参照してください。