DevOps エンジニアは、ワーカー ノードが AI/ML ワークロードを実行できる GPU アクセラレーション Tanzu Kubernetes Grid (TKG) クラスタをセルフサービス Automation Service Broker カタログから申請できます。
注: このドキュメントは、
VMware Aria Automation 8.18 に基づいています。
VMware Aria Automation 8.18.1 の
VMware Private AI Foundation 機能については、
VMware Private AI Foundation with
NVIDIA ドキュメントの「
Deploy a GPU-Accelerated TKG Cluster by Using a Self-Service Catalog Item in VMware Aria Automation」を参照してください。
TKG クラスタには NVIDIA GPU Operator が含まれています。これは、TKG クラスタ ノードで NVIDIA GPU ハードウェアに適した NVIDIA ドライバを設定する Kubernetes Operator です。展開されたクラスタはすぐに AI/ML ワークロードに使用できます。追加の GPU 関連の設定は必要ありません。
展開には、スーパーバイザー名前空間、3 台のワーカー ノードを持つ TKG クラスタ、TKG クラスタ内の複数のリソース、GPU Operator アプリケーションを展開する Carvel アプリケーションが含まれています。
手順
- Automation Service Broker の [カタログ] 画面で、[AI Kubernetes クラスタ] カードを見つけて [申請] をクリックします。
- プロジェクトを選択します。
- 展開の名前と説明を入力します。
- コントロール ペイン ノードの数を選択します。
設定 サンプル値 ノード数 1 仮想マシン クラス best-effort-4xlarge - 16 個の CPU と 128 GB のメモリ 選択したクラスによって、仮想マシン内で使用可能なリソースが決まります。
- ワーカー ノードの数を選択します。
設定 説明 ノード数 3 仮想マシン クラス best-effort-4xlarge-a100-40c - 1 個の vGPU (40 GB)、16 個の CPU、120 GB のメモリ タイムスライス レプリカ 1 タイムスライスでは、ワークロード間で共有される GPU のレプリカのセットを定義します。
- NVIDIA AI エンタープライズ API キーを指定します。
- [送信] をクリックします。