作为 DevOps 工程师,您可以从自助 Automation Service Broker 目录请求 GPU 加速的 Tanzu Kubernetes Grid (TKG) 集群,其中 Worker 节点可以运行 AI/ML 工作负载。

注: 本文档基于 VMware Aria Automation 8.18。有关 VMware Aria Automation 8.18.1 中 VMware Private AI Foundation 功能的信息,请参见 VMware Private AI Foundation with NVIDIA 文档中的 使用 VMware Aria Automation 中的自助目录项部署 GPU 加速的 TKG 集群

TKG 集群包含一个 NVIDIA GPU Operator,它是 Kubernetes Operator,负责为 TKG 集群节点上的 NVIDIA GPU 硬件设置正确的 NVIDIA 驱动程序。部署的集群可用于 AI/ML 工作负载,而无需进行额外的 GPU 相关设置。

部署包含一个主管命名空间、一个具有三个 Worker 节点的 TKG 集群、TKG 集群内的多个资源以及一个用于部署 GPU Operator 应用程序的 Carvel 应用程序。

过程

  1. Automation Service Broker目录页面上,找到 AI Kubernetes 集群卡视图,然后单击请求
  2. 选择一个项目。
  3. 输入部署的名称和描述。
  4. 选择控制窗格节点数。
    设置 示例值
    节点计数 1
    虚拟机类 best-effort-4xlarge - 16 个 CPU 和 128 GB 内存

    选择的类将定义虚拟机中的可用资源。

  5. 选择工作节点数。
    设置 说明
    节点计数 3
    虚拟机类 best-effort-4xlarge-a100-40c - 1 个 vGPU (40 GB)、16 个 CPU 和 120 GB 内存
    时间切片副本 1

    时间切片为在工作负载之间共享的 GPU 定义一组副本。

  6. 提供 NVIDIA AI 企业 API 密钥。
  7. 单击提交