VMware Private AI Foundation with NVIDIA について

マルチコンポーネントソリューションの VMware Private AI Foundation with NVIDIA を使用すると、NVIDIA のアクセラレーションコンピューティングと VMware Cloud Foundation の仮想インフラストラクチャ管理およびクラウド管理を使用して、生成 AI ワークロードを実行できます。

VMware Private AI Foundation with NVIDIA は、NVIDIA GPU を搭載した ESXi ホストで AI ワークロードをプロビジョニングするためのプラットフォームを提供します。さらに、NVIDIA GPU Cloud (NGC) コンテナに基づく AI ワークロードの実行は、VMware によって特に検証されています。

VMware Private AI Foundation with NVIDIA では、次の 2 つのユースケースがサポートされています。

開発のユースケース: クラウド管理者と DevOps エンジニアは、ディープラーニング仮想マシンの形式で、Retrieval-Augmented Generation (RAG) などの AI ワークロードをプロビジョニングできます。データサイエンティストは、これらのディープラーニング仮想マシンを AI 開発に使用できます。
本番環境のユースケース: クラウド管理者は、DevOps エンジニアに、vSphere with Tanzu 上の Tanzu Kubernetes Grid (TKG) クラスタで本番環境対応の AI ワークロードをプロビジョニングするための VMware Private AI Foundation with NVIDIA 環境を提供できます。

ライセンス

以下の機能にアクセスするには、VMware Private AI Foundation with NVIDIA アドオンライセンスが必要です。

カタログアイテムのための VMware Aria Automation でのプライベート AI セットアップにより、GPU アクセラレーションディープラーニング仮想マシンと TKG クラスタを簡単にプロビジョニングする。
エンタープライズサポート付きの pgvector 拡張機能を使用して PostgreSQL データベースをプロビジョニングする。
VMware by Broadcom が提供するディープラーニング仮想マシンイメージを展開して使用する。

スーパーバイザーを有効にした状態および有効にしていない状態で AI ワークロードを展開し、VMware Cloud Foundation ライセンスの下で vCenter Server と VMware Aria Operations で GPU メトリックを使用できます。

NVIDIA ソフトウェアコンポーネントは、NVIDIA AI Enterprise ライセンスの下で使用できます。

VMware Private AI Foundation with NVIDIA コンポーネントとは

図 1. VMware Private AI Foundation with NVIDIA のアーキテクチャの例

表 1. VMware Private AI Foundation with NVIDIA で AI ワークロードを実行するためのコンポーネント
コンポーネント	説明
GPU 対応 ESXi ホスト	次の方法で構成された ESXi ホスト： VMware Private AI Foundation with NVIDIA でサポートされている NVIDIA GPU を搭載している。タイムスライスまたはマルチインスタンス GPU (MIG) メカニズムを使用して、ワークロード間で GPU を共有します。 MIG またはタイムスライスに基づいて vGPU プロファイルを使用できるように、NVIDIA vGPU ホストマネージャドライバがインストールされている。
スーパーバイザー	Kubernetes API を使用して vSphere 上で仮想マシンとコンテナを実行できるように、vSphere with Tanzu で 1 つ以上の vSphere クラスタが有効になっています。スーパーバイザーは Kubernetes クラスタ自身であり、ワークロードクラスタと仮想マシンを管理するための制御プレーンとして機能します。
Harbor レジストリ	NVIDIA NGC カタログからダウンロードしたコンテナイメージをホストする切断された環境のローカルイメージレジストリ。
NSX Edge クラスタ	スーパーバイザーとそれが実行するワークロードに 2 層の North-South ルーティングを提供する NSX Edge ノードのクラスタ。 NSX Edge クラスタの Tier-0 ゲートウェイは、アクティブ/アクティブモードです。
NVIDIA Operator	NVIDIA GPU Operator。Kubernetes クラスタ内のコンテナに GPU をプロビジョニングするために必要なすべての NVIDIA ソフトウェアコンポーネントの管理を自動化します。NVIDIA GPU Operator は、TKG クラスタに展開されます。 NVIDIA Network Operator。NVIDIA Network Operator は、高速ネットワーク、RDMA、GPUDirect 用の仮想機能を使用するコンテナに適した Mellanox ドライバを構成するのにも役立ちます。 Network Operator は、GPU Operator と連携して、互換性のあるシステムで GPUDirect RDMA を有効にします。 NVIDIA Network Operator は、TKG クラスタに展開されます。
ベクターデータベース	pgvector 拡張機能が有効になっている PostgreSQL データベース。Retrieval Augmented Generation (RAG) AI ワークロードで使用できます。
NVIDIA ライセンスポータル NVIDIA 委任ライセンスサービス (DLS)	NVIDIA ライセンスポータルを使用してクライアント構成トークンを生成し、ディープラーニング仮想マシンのゲスト vGPU ドライバと TKG クラスタの GPU Operator にライセンスを割り当てます。切断された環境で、またはインターネット接続を使用せずにワークロードがライセンス情報を取得できるように、NVIDIA ライセンスを委任ライセンスサービス (DLS) アプライアンスでローカルにホストします。
コンテンツライブラリ	コンテンツライブラリには、ディープラーニング仮想マシンと Tanzu Kubernetes リリースのイメージが保存されます。これらのイメージは、VMware Private AI Foundation with NVIDIA 環境内での AI ワークロードの展開に使用します。接続された環境では、コンテンツライブラリは VMware が管理するパブリックコンテンツライブラリからコンテンツをプルします。切断された環境では、必要なイメージを手動でアップロードするか、内部コンテンツライブラリのミラーサーバからプルする必要があります。
NVIDIA GPU Cloud (NGC) カタログ	VMware Private AI Foundation with NVIDIA 上のサポートされるオンプレミスの NVIDIA GPU でテストされ、実行の準備ができている、AI および機械学習用の GPU 向けに最適化されたコンテナのポータル。

クラウド管理者は、VMware Cloud Foundation の管理コンポーネントを使用します。

表 2. VMware Private AI Foundation with NVIDIA の管理コンポーネント
管理コンポーネント	説明
SDDC Manager	SDDC Manager を使用して、次のタスクを実行します。 vSphere Lifecycle Manager イメージに基づく GPU 対応の VI ワークロードドメインを展開し、クラスタを追加します。スーパーバイザーインスタンスで使用するために VI ワークロードドメインに NSX Edge クラスタを展開し、VMware Private AI Foundation with NVIDIA の VMware Aria Suite コンポーネントの管理ドメインに展開します。 SDDC Manager リポジトリと統合された VMware Aria Suite Lifecycle インスタンスを展開します。
VI ワワークロードドメインの vCenter Server	この vCenter Server インスタンスを使用して、スーパーバイザーを有効にして構成します。
VI ワークロードドメインの NSX Manager	SDDC Manager はこの NSX Manager を使用して NSX Edge クラスタを展開および更新します。
VMware Aria Suite Lifecycle	VMware Aria Suite Lifecycle を使用して、VMware Aria Automation と VMware Aria Operations を展開および更新します。
VMware Aria Automation	VMware Aria Automation を使用して、DevOps エンジニアおよびデータサイエンティストの AI ワークロードを展開するためのセルフサービスカタログアイテムを追加します。
VMware Aria Operations	VMware Aria Operations を使用して、GPU 対応ワークロードドメインでの GPU 使用を監視します。
VMware Data Services Manager	VMware Data Services Manager を使用して、pgvector 拡張機能を備えた PostgreSQL データベースなどのベクターデータベースを作成します。