クラウド管理者は、VMware Cloud Foundation スタックを使用して、GPU 対応のインフラストラクチャと AI/ML ワークロード ドメインを管理できます。VMware Aria Automation では、組織内のデータ サイエンティストと DevOps チームがセルフサービス Automation Service Broker カタログで申請できるカタログ アイテムとして、GPU 対応のディープ ラーニング仮想マシン (DL VM) および Tanzu Kubernetes Grid (TKG) クラスタをセットアップして提供できます。
VMware Private AI Foundation について
VMware Private AI Foundation with NVIDIA は、NVIDIA GPU を搭載した VMware Cloud Foundation に AI ワークロードをプロビジョニングするためのプラットフォームを提供します。また、NVIDIA GPU Cloud (NGC) コンテナに基づく AI ワークロードの実行は、VMware by Broadcom によって明確に検証されます。詳細については、VMware Private AI Foundation with NVIDIA についてを参照してください。
Private AI Automation Services は、VMware Aria Automation で使用可能な VMware Private AI Foundation のすべての機能の総称です。
Private AI Automation Services を開始するには、VMware Aria Automation でカタログのセットアップ ウィザードを実行します。このウィザードは、VMware Private AI Foundation を VMware Aria Automation に接続するのに役立ちます。
カタログ セットアップ ウィザードの仕組み
- vCenter クラウド アカウントを追加します。クラウド アカウントは、vCenter インスタンスからデータを収集し、リソースを展開するための認証情報です。
- NVIDIA ライセンスを追加します。
- Automation Service Broker カタログに追加するコンテンツを選択します。
- プロジェクトを作成します。プロジェクトにより、ユーザーがクラウド アカウント リージョンにリンクされます。これにより、ユーザーは、ネットワークおよびストレージ リソースを使用してクラウド テンプレートを vCenter インスタンスに展開できます。
- AI Workstation – NVIDIA から目的の vCPU、vGPU、メモリ、AI/ML ソフトウェアを使用して構成できる GPU 対応の仮想マシンです。
- AI Kubernetes クラスタ : GPU 対応のTanzu Kubernetes クラスタで、NVIDIA GPU オペレータで構成できます。
ライセンスの変更など、指定した設定を変更する必要がある場合、または他のプロジェクトの AI カタログ アイテムを作成する場合は、ウィザードを複数回再度実行できます。ウィザードを実行するたびに、以前に作成したアイテムに加えて、2 つの新しいカタログ アイテムが作成されます。
開始する前に
- VMware Aria Automation 8.17 を実行していることを確認します。
- vCenter 8.0 Update U2b を含む VMware Cloud Foundation 5.1.1 を実行していることを確認します。
- VMware Aria Automation で vCenter クラウド アカウントが用意されていることを確認します。
- プレミアム クラウド サービス サブスクリプションを持つ NVIDIA GPU Cloud Enterprise 組織が用意されていることを確認します。
- ワークロード管理を介して GPU 対応のスーパーバイザー クラスタが構成されていることを確認します。.
- VMware Private AI Foundation with NVIDIA 用に VMware Aria Automation を構成します。VMware Private AI Foundation with NVIDIA 用の VMware Aria Automation の設定を参照してください。
- カタログのセットアップ ウィザードを実行する前に、VMware Cloud Foundation のクイックスタートを完了します。SDDC とスーパーバイザー クラスタは VMware Aria Automation に登録する必要があります。VMware Cloud Foundation クイックスタートを使用して VMware Aria Automation を開始する方法を参照してください。
- NVIDIA ライセンス サーバから .tok ライセンス ファイルを生成したこと、および NVIDIA NGC ポータルの API キーがあることを確認します。NVIDIA NGC ポータルのアクセス キーは、vGPU ドライバのダウンロードとインストールに使用されます。
- クラウド使用量インターフェイス (CCI) のシングル サインオン (SSO) を構成します。CCI のシングル サインオンの設定を参照してください。
- コンテンツ ライブラリ (https://packages.vmware.com/dl-vm/lib.json) にサブスクライブしていることを確認します。
手順
- VMware Aria Automation をインストールして初めてログインした後、[クイックスタートの起動] をクリックします。
- [Private AI Automation Services] カードの [起動] をクリックします。
- アクセスをプロビジョニングするクラウド アカウントを選択します。
ここでのすべての値は、使用事例で使用されるサンプルです。アカウントの値は環境によって異なります。
- vCenter クラウド アカウントを選択します。
- GPU が有効なスーパーバイザーを選択します。
- リージョン名を入力します。
ユーザーが GPU 対応のリージョンを他の使用可能なリージョンと区別するのに役立つ、地域のわかりやすい名前を使用することを検討してください。
スーパーバイザーがすでにリージョンで構成されている場合は、リージョンが自動的に選択されます。
- [次へ] をクリックします。
- NVIDIA ライセンス サーバに関する情報を指定します。
- NVIDIA ライセンス サーバのタイプを選択します。
- Cloud License Service (CLS) インスタンスは、NVIDIA Licensing Portal でホストされます。
- 委任されたライセンス サービス (DLS) インスタンスは、場所でオンプレミスでホストされ、プライベート ネットワークからアクセスされます。このサーバ タイプを選択する場合は、サーバの場所も指定する必要があります。
- ライセンス ファイルの内容をコピーして貼り付けます。
NVIDIA Licensing Portal の API キーは、 NVIDIA vGPU ドライバのダウンロードに適した資格がユーザーにあるかどうかを評価するために使用されます。API キーは UUID である必要があります。注: NVIDIA Licensing Portal から生成する API キーは、NVAIE API キーと同じではありません。
- [次へ] をクリックします。
- NVIDIA ライセンス サーバのタイプを選択します。
- カタログ アイテムを構成します。
- ワークステーション仮想マシンの作成に使用する仮想マシン イメージを選択します。
- カタログ ユーザーが使用できるようにする仮想マシン クラスを選択します。
少なくとも 1 つの GPU 対応クラスと 1 つの非 GPU 対応クラスを追加する必要があります。
- GPU 対応の仮想マシン クラスは、ディープ ラーニング仮想マシンと Kubernetes クラスタのワーカー ノードに使用されます。カタログ アイテムが展開されると、選択した仮想マシン クラスを使用して Kubernetes クラスタが作成されます。
- Kubernetes 制御プレーンを実行するには、GPU 非対応ノードが必要です。
- 仮想マシンに適用するストレージ クラスを選択します。
- NVIDIA GPU Cloud リソースをプルするコンテナ レジストリを指定します。
自己ホスト型レジストリを選択した場合、ウィザードの完了後にカタログ アイテムに追加の手動構成が必要になります。Broadcom Professional Services のVMwareにお問い合わせください。
- [次へ] をクリックします。
- プロジェクトを作成してユーザーを割り当てることで、カタログ アイテムへのアクセスを構成します。
プロジェクトは、ユーザー、割り当てられたリソース、クラウド テンプレート、および展開を管理するために使用されます。
- プロジェクトの名前と説明を入力します。
プロジェクト名には、小文字の英数字またはハイフン (-) のみを使用する必要があります。
- カタログ アイテムを他のユーザーが使用できるようにするには、[管理者] と [メンバー] を追加します。
管理者には、メンバーが持つ以上の権限があります。詳細については、VMware Aria Automation のユーザー ロールについてを参照してください。
- [次へ] をクリックします。
- プロジェクトの名前と説明を入力します。
- [サマリ] 画面で構成を確認します。
ウィザードを実行する前に、構成の詳細を保存することを検討してください。
- [完了] をクリックします。
結果
[AI Workstation] と [AI Kubernetes クラスタ] カタログ アイテムが Automation Service Broker カタログに作成され、組織内のユーザーがそのカタログ アイテムを展開できるようになりました。
次の手順
- コンテンツを共有している選択されたプロジェクトのメンバーがカタログからテンプレートを使用できることを確認し、プロビジョニング プロセスを監視して展開が正常に完了するようにします。PAIF カタログ アイテムを展開する方法を参照してください。
- 展開が存続できる期間を制御する場合は、リースを作成します。Automation Service Broker ポリシーの設定を参照してください。
- 申請時にユーザー入力を変更するには、カスタム フォームを作成します。Automation Service Broker のアイコンと申請フォームのカスタマイズを参照してください。
トラブルシューティング
- カタログのセットアップ ウィザードが失敗した場合は、別のプロジェクトに対してウィザードを再度実行します。