DevOps エンジニアと開発者は、VMware Aria Automation を使用して、VI ワークロード ドメインのスーパーバイザー インスタンスでコンテナ AI ワークロードをホストするための GPU アクセラレーション TKG クラスタをプロビジョニングできます。

GPU アクセラレーション TKG クラスタを展開するワークフローは、次の 2 つの部分で構成されます。

  • クラウド管理者は、スーパーバイザーの新しい名前空間のプライベート AI 用のセルフサービス カタログ アイテムを Automation Service Broker に追加します。
  • データ サイエンティストまたは DevOps エンジニアは、AI Kubernetes クラスタ カタログ アイテムを使用して、スーパーバイザーの新しい名前空間に GPU アクセラレーション TKG クラスタを展開します。

VMware Aria Automation で AI セルフサービス カタログ アイテムを作成する

クラウド管理者は、VMware Aria Automation のプライベート AI のカタログ セットアップ ウィザードを使用して、VI ワークロード ドメインにディープ ラーニング仮想マシンまたは GPU アクセラレーション TKG クラスタを展開するためのカタログ アイテムをすばやく追加できます。

データ サイエンティストは、ディープ ラーニング仮想マシンを展開するためにディープ ラーニング カタログ アイテムを使用できます。DevOps エンジニアは、AI 対応 TKG クラスタをプロビジョニングするためにカタログ アイテムを使用できます。実行するたびに、プライベート AI のカタログ セットアップ ウィザードによって、Service Broker カタログに 2 つのカタログ アイテム(ディープ ラーニング仮想マシン用と TKG クラスタ用)が追加されます。

実行するたびに、プライベート AI のカタログ セットアップ ウィザードによって、Service Broker カタログに 2 つのカタログ アイテム(ディープ ラーニング仮想マシン用と TKG クラスタ用)が追加されます。ウィザードは、以下の場合にいつでも実行できます。

  • 別のスーパーバイザーで AI ワークロードのプロビジョニングを有効にする。
  • クライアント構成 .tok ファイルとライセンス サーバ、または切断された環境の vGPU ゲスト ドライバのダウンロード URL を含む、NVIDIA AI Enterprise ライセンスの変更に対応する。
  • ディープ ラーニング仮想マシン イメージの変更に対応する。
  • 他の vGPU または非 GPU 仮想マシン クラス、ストレージ ポリシー、またはコンテナ レジストリを使用する。
  • 新しいプロジェクトにカタログ アイテムを作成する。

前提条件

手順

  1. VMware Aria Automation ホーム ページに移動し、[クイックスタート] をクリックします。
  2. プライベート AI オートメーションのプライベート AI オートメーション サービス カタログ セットアップ ウィザードを実行します。

    VMware Aria Automation 製品ドキュメントの「Automation Service Broker カタログにプライベート AI アイテムを追加する」を参照してください。

VMware Aria Automation でセルフサービス カタログを使用して GPU アクセラレーション TKG クラスタをプロビジョニングする

VMware Private AI Foundation with NVIDIA では、DevOps エンジニアが Automation Service Broker の AI Kubernetes クラスタ セルフサービス カタログ アイテムを使用して、VMware Aria Automation から NVIDIA GPU でアクセラレーションされた TKG クラスタをプロビジョニングできます。次に、NVIDIA NGC から AI コンテナ イメージをクラスタに展開できます。

注: VMware Aria Automation は、GPU アクセラレーション TKG クラスタをプロビジョニングするたびに名前空間を作成します。

手順

  1. 接続された環境では、Automation Service Broker で、クラウド管理者が構成したスーパーバイザー インスタンスに AI Kubernetes クラスタ カタログ アイテムを展開します。
  2. 切断された環境では、NVIDIA GPU Operator のコンポーネントを内部の場所にアップロードし、クラウド管理者が構成したスーパーバイザー インスタンスの AI Kubernetes クラスタ カタログ アイテムを変更します。
    1. ローカルの Ubuntu パッケージ リポジトリを指定し、NVIDIA GPU Operator パッケージ内のコンテナ イメージをスーパーバイザーの Harbor レジストリにアップロードします。
    2. NVIDIA GPU Operator チャート定義を含むローカルの Helm チャート リポジトリを指定します。
    3. NVIDIA GPU Operator の Helm チャート定義を更新して、ローカルの Ubuntu パッケージ リポジトリとプライベート Harbor レジストリを使用します。
    4. Automation Assembler の [設計] > [クラウド テンプレート] ページで、[AI Kubernetes クラスタ] クラウド テンプレートを直接変更するか、クラウド テンプレートのクローンを作成してクローンを変更します。
      1. NVIDIA GPU Operator でローカルの Ubuntu リポジトリを使用するために、ConfigMap を追加します。
      2. Helm チャート リポジトリ URL を更新します。
      3. クラウド テンプレートを展開します。
    5. 変更またはクローン作成された [AI Kubernetes クラスタ] カタログ アイテムをスーパーバイザー インスタンスに展開します。

次のタスク

  1. kubectl を使用して TKG クラスタにアクセスする方法の詳細については、Automation Service Broker で [使用] > [展開] > [展開] に移動します。
  2. NVIDIA NGC カタログから AI コンテナ イメージを展開します。

    切断された環境では、AI コンテナ イメージをプライベート コンテナ レジストリにアップロードする必要があります。VMware Private AI Foundation with NVIDIA でのプライベート Harbor レジストリの設定を参照してください。