VMware Private AI Foundation with NVIDIA のシステムアーキテクチャ

VMware Private AI Foundation with NVIDIA は、VMware Cloud Foundation 上で実行され、kubectl と VMware Aria Automation を使用してプロビジョニングされた vSphere IaaS control plane を使用して VI ワークロードドメインの AI ワークロードのサポートを追加します。

図 1. VMware Private AI Foundation with NVIDIA のアーキテクチャの例

表 1. VMware Private AI Foundation with NVIDIA で AI ワークロードを実行するためのコンポーネント
コンポーネント	説明
GPU 対応 ESXi ホスト	次の方法で構成された ESXi ホスト： VMware Private AI Foundation with NVIDIA でサポートされている NVIDIA GPU を搭載している。タイムスライスまたはマルチインスタンス GPU (MIG) メカニズムを使用して、ワークロード間で GPU を共有します。サポート対象の NVIDIA GPU デバイスを参照してください。 MIG またはタイムスライスに基づいて vGPU プロファイルを使用できるように、NVIDIA vGPU ホストドライバがインストールされている。
スーパーバイザー	Kubernetes API を使用して vSphere 上で仮想マシンとコンテナを実行できるように、vSphere IaaS control plane で 1 つ以上の vSphere クラスタが有効になっています。スーパーバイザーは Kubernetes クラスタ自身であり、ワークロードクラスタと仮想マシンを管理するための制御プレーンとして機能します。
Harbor レジストリ	Harbor レジストリは、次の場合に使用できます。切断された環境において、NVIDIA NGC カタログからダウンロードしたコンテナイメージをホストするローカルイメージレジストリとして使用する場合。検証済みの ML モデルを格納する場合。
NSX Edge クラスタ	スーパーバイザーとそれが実行するワークロードに 2 層の North-South ルーティングを提供する NSX Edge ノードのクラスタ。 NSX Edge クラスタの Tier-0 ゲートウェイは、アクティブ/アクティブモードです。
NVIDIA Operator	NVIDIA GPU Operator。Kubernetes クラスタ内のコンテナに GPU をプロビジョニングするために必要なすべての NVIDIA ソフトウェアコンポーネントの管理を自動化します。NVIDIA GPU Operator は、TKG クラスタに展開されます。 NVIDIA Network Operator。NVIDIA Network Operator は、高速ネットワーク、RDMA、GPUDirect 用の仮想機能を使用するコンテナに適した Mellanox ドライバを構成するのにも役立ちます。 Network Operator は、GPU Operator と連携して、互換性のあるシステムで GPUDirect RDMA を有効にします。 NVIDIA Network Operator は、TKG クラスタに展開されます。
ベクターデータベース	pgvector 拡張機能が有効になっている PostgreSQL データベース。Retrieval Augmented Generation (RAG) AI ワークロードで使用できます。参照サンプルとしての Milvus データベース。
NVIDIA ライセンスポータル NVIDIA 委任ライセンスサービス (DLS)	NVIDIA ライセンスポータルを使用してクライアント構成トークンを生成し、ディープラーニング仮想マシンのゲスト vGPU ドライバと TKG クラスタの GPU Operator にライセンスを割り当てます。切断された環境で、またはインターネット接続を使用せずにワークロードがライセンス情報を取得できるように、NVIDIA ライセンスを委任ライセンスサービス (DLS) アプライアンスでローカルにホストします。
コンテンツライブラリ	コンテンツライブラリには、ディープラーニング仮想マシンと Tanzu Kubernetes リリースのイメージが保存されます。これらのイメージは、VMware Private AI Foundation with NVIDIA 環境内での AI ワークロードの展開に使用します。接続された環境では、コンテンツライブラリは VMware が管理するパブリックコンテンツライブラリからコンテンツをプルします。切断された環境では、必要なイメージを手動でアップロードするか、内部コンテンツライブラリのミラーサーバからプルする必要があります。
NVIDIA GPU Cloud (NGC) カタログ	VMware Private AI Foundation with NVIDIA 上のサポートされるオンプレミスの NVIDIA GPU でテストされ、実行の準備ができている、AI および機械学習用の GPU 向けに最適化されたコンテナのポータル。

クラウド管理者は、次の方法で VMware Cloud Foundation の管理コンポーネントを使用します。

表 2. VMware Private AI Foundation with NVIDIA の管理コンポーネント
管理コンポーネント	説明
管理 vCenter Server	SDDC の管理コンポーネントを実行し、仮想インフラストラクチャの監視と管理のための他のソリューションとの統合をサポートする ESXi ホストを管理します。
管理 NSX Manager	VMware Cloud Foundation の管理ワークロードにネットワークサービスを提供します。
SDDC Manager	vSphere Lifecycle Manager イメージに基づく GPU 対応の VI ワークロードドメインを展開し、クラスタを追加します。スーパーバイザーインスタンスで使用するために VI ワークロードドメインに NSX Edge クラスタを展開し、VMware Private AI Foundation with NVIDIA の VMware Aria Suite コンポーネントの管理ドメインに展開します。 SDDC Manager リポジトリと統合された VMware Aria Suite Lifecycle インスタンスを展開します。
VI ワワークロードドメインの vCenter Server	スーパーバイザーを有効にして構成します。
VI ワークロードドメインの NSX Manager	SDDC Manager はこの NSX Manager を使用して NSX Edge クラスタを展開および更新します。
NSX Edge クラスタ (AVN)	動的ルーティングとロードバランシングのために、アプリケーション仮想ネットワーク (AVN) と呼ばれる NSX セグメントの事前定義された構成に VMware Aria Suite コンポーネントを配置します。
VMware Aria Suite Lifecycle	VMware Aria Automation と VMware Aria Operations を展開および更新します。
VMware Aria Automation	DevOps エンジニア、データサイエンティスト、および MLOps エンジニア向けに AI ワークロードを展開するためのセルフサービスカタログアイテムを追加します。
VMware Aria Operations	GPU 対応のワークロードドメインの GPU 消費を監視します。
VMware Data Services Manager	pgvector 拡張機能を備えた PostgreSQL データベースなどのベクターデータベースを作成します。