要为 NVIDIA Grid vGPU 设备创建自定义虚拟机类,请参阅本主题。

使用 vGPU 配置文件创建自定义虚拟机类(v8 U2 P03 及更高版本)

NVIDIA vGPU(虚拟图形处理单元)支持多个虚拟机 (VM) 共享一个物理 GPU。要将 vGPU 与 TKGS 集群结合使用,请定义自定义虚拟机类。从本版本开始,新增了一个用于定义自定义虚拟机类的向导。与用于定义自定义虚拟机类的上一个方法不同,此方法将从设备中读取 vGPU 配置文件,而不是在虚拟机类中进行配置。

VM Operator 轮询 vCenter 清单,以获取部署了 主管 的 vSphere 集群中的 ESXi 主机上安装的所有 vGPU 设备。vGPU 设备定义其配置文件。vGPU 设备名称指示配置文件是多实例 GPU (MIG) 还是时间共享 GPU。MIG 将划分计算资源,支持多个工作负载在单个 GPU 上并行运行。时间共享支持共享访问 GPU。MIG 模式基于较新的 GPU 架构,仅在 NVIDIA A100 和 A30 设备上受支持。有关详细信息,请参考 NVIDIA 文档

例如,GPU 设备“grid-a100-40c”提供了一个时间共享 vGPU 配置文件,该配置文件会将具有 40 GB 内存的 NVIDIA A100 GPU 设备分配给虚拟机。基于 MIG 的等效 vGPU 配置文件将是“grid-a100-7-40c”设备。您可以确定它是一个 MIG 配置文件,因为设备和 RAM 之间有一个额外的数字。“7”表示 GPU 设备上有 7 个计算切片。基于 MIG 的 vGPU 配置文件可以具有 1、2、3 或 7 个计算切片。

  1. vSphere Client 主菜单中,选择工作负载管理 > 服务
  2. 选择虚拟机类选项卡。
  3. 单击创建虚拟机类

    此操作将启动“创建虚拟机类”向导,指导您创建虚拟机类。

  4. 对于名称,输入虚拟机类的名称,然后单击下一步
    虚拟机类名称用于标识虚拟机类。输入遵循以下要求的唯一 DNS 合规名称:
    • 使用与环境中的默认或自定义虚拟机类的名称不重复的唯一名称。
    • 使用最大长度为 63 个字符的字母数字字符串。
    • 请勿使用大写字母或空格。
    • 在除第一个或最后一个字符外的任意位置使用短划线。例如,vm-class1
    • 创建虚拟机类后,即无法更改其名称。
  5. 对于兼容性,选择 ESXi 8.0 U2 及更高版本,然后单击下一步
    有关详细信息,请参见 Virtual Machine Compatibility
    注: 创建虚拟机类后,无法更改其硬件兼容性。
  6. 对于配置 > 虚拟硬件,将 NVIDIA GPU 设备添加到虚拟机类。
    1. 选择配置 > 虚拟硬件 > 添加新设备 > PCI 设备
    2. 从列表中选择所需的 NVIDIA Grid vGPU 设备。NVIDIA Grid vGPU 配置文件有两种类型:时间共享多实例 GPU 共享。选择设备时,系统会检测到配置文件。
      注: 只能向虚拟机类添加一个 MIG 配置文件类型的 NVIDIA GRID vGPU 设备。
    3. 单击选择新 PCI 设备将显示在“虚拟硬件”选项卡中。
  7. 对于配置 > 虚拟硬件,为 CPU内存新 PCI 设备显卡安全设备指定所需的设置。
    表 1. CPU 配置
    设置 配置
    CPU 选择虚拟机的虚拟 CPU 数。有关详细信息,请参见虚拟 CPU 配置和限制
    CPU 拓扑 打开电源时分配
    预留 预留必须介于 0 和 10 MHz 之间
    限制 限制必须大于或等于 10 MHz
    份额 选项包括“低”、“正常”、“高”、“自定义”
    硬件虚拟化 选择此选项可向客户机操作系统公开硬件辅助的虚拟化
    性能计数器 启用虚拟化 CPU 性能计数器
    调度关联性 为此虚拟机选择物理处理器关联性。使用“-”表示范围,使用“,”分隔值。例如,“0, 2, 4-7”表示处理器 0、2、4、5、6 和 7。清除字符串以移除关联性设置。
    I/O MMU 选择此选项可启用内存管理单元(页到磁盘)
    表 2. 内存配置
    设置 配置
    内存 选择虚拟机的内存大小。有关详细信息,请参见虚拟机内存最大值
    预留 指定保证为虚拟机分配的最少资源量,或预留所有客户机内存。如果无法满足预留,则虚拟机将无法运行。
    限制 选择要限制的内存量,以便对虚拟机的内存消耗加以限制。
    份额 选择要共享的内存量。份额代表分配内存容量的相对度衡量指标。有关详细信息,请参见内存共享
    内存热插拔 启用(选中)可允许向已打开电源的虚拟机添加内存资源。有关详细信息,请参见内存热添加设置
    表 3. 新 PCI 设备 > GPU 共享配置
    时间共享模式 MIG 模式

    在时间共享模式下,vGPU 调度程序指示 GPU 在一段时间内按顺序为每个启用了 vGPU 的虚拟机执行工作,并将尽最大努力平衡各 vGPU 的性能。

    MIG 模式允许多个启用了 vGPU 的虚拟机在单个 GPU 设备上并行运行。如果没有看到 MIG 选项,表示您选择的 PCI 设备不支持该选项。

    表 4. 配置显卡
    设置 配置
    显卡 选择此选项可自动检测硬件的设置或输入自定义设置。如果选择自动检测,则无法配置其他设置。
    显示器数量 选择显示器数量。
    总显存 输入总显存(以 MB 为单位)。
    3D 图形 选择此选项可启用 3D 支持。
    表 5. 配置安全设备
    设置 配置
    安全设备 如果安装了 SGX 安全设备,则可以在此处配置虚拟机设置,否则无法配置此字段。有关详细信息,请参见 SGX 文档
  8. 选择配置 > 虚拟机选项选项卡,然后配置任何其他虚拟机设置。有关指导,请参见配置虚拟机选项
  9. 选择配置 > 高级参数选项卡,然后为虚拟机类添加任何属性。
  10. 单击下一步
  11. 查看并确认页面上,检查详细信息,然后单击完成
  12. 将新虚拟机类与 vSphere 命名空间相关联。请参见将虚拟机类与 vSphere 命名空间 关联
图 1. NVIDIA vGPU 设备选择
NVIDIA vGPU 设备选择
图 2. NVIDIA vGPU 新 PCI 设备
NVIDIA vGPU 新 PCI 设备

使用 vGPU 配置文件创建自定义虚拟机类(v8 U2 及更低版本)

下一步是创建包含 vGPU 配置文件的自定义虚拟机类。系统将在创建 TKG 集群节点时使用此类定义。

按照以下说明创建包含 vGPU 配置文件的自定义虚拟机类。
  1. 使用 vSphere Client 登录到 vCenter Server
  2. 选择工作负载管理
  3. 选择服务
  4. 选择虚拟机类
  5. 单击创建虚拟机类
  6. 配置选项卡上,配置自定义虚拟机类。
    配置字段 描述
    名称 输入自定义虚拟机类的自描述性名称,例如 vmclass-vgpu-1
    vCPU 计数 2
    CPU 资源预留 可选,单击“确定”留空
    内存 例如 80 GB
    内存资源预留 100%(如果在虚拟机类中配置了 PCI 设备,则强制使用此值)
    PCI 设备
    注: 针对 PCI 设备选择“是”将告知系统您使用的是 GPU 设备,并将更改虚拟机类配置以支持 vGPU 配置。有关详细信息,请参见 在 vSphere with Tanzu 中将 PCI 设备添加到虚拟机类

    例如:

    ""

  7. 单击下一步
  8. PCI 设备选项卡上选择添加 PCI 设备 > NVIDIA vGPU 选项。
  9. 配置 NVIDIA vGPU 型号。
    NVIDIA vGPU 字段 描述
    型号 NVIDIA vGPU > 型号菜单所提供的型号中选择 NVIDIA GPU 硬件设备型号。如果系统未显示任何配置文件,表示集群中的所有主机都不具有受支持的 PCI 设备。
    GPU 共享

    此设置定义如何在启用了 GPU 的虚拟机之间共享 GPU 设备。vGPU 实施有两种类型:时间共享多实例 GPU 共享

    在时间共享模式下,vGPU 调度程序指示 GPU 在一段时间内按顺序为每个启用了 vGPU 的虚拟机执行工作,并将尽最大努力平衡各 vGPU 的性能。

    MIG 模式允许多个启用了 vGPU 的虚拟机在单个 GPU 设备上并行运行。MIG 模式基于较新的 GPU 架构,仅在 NVIDIA A100 和 A30 设备上受支持。如果没有看到 MIG 选项,表示您选择的 PCI 设备不支持该选项。

    GPU 模式 计算
    GPU 内存 例如 8 GB
    vGPU 数量 例如 1

    例如,以下是在时间共享模式下配置的 NVIDIA vGPU 配置文件:

    “PCI 设备”选项卡,带有在时间共享模式下配置的 NVIDIA vGPU 配置文件。

    例如,以下是在具有受支持 GPU 设备的情况下在 MIG 模式下配置的 NVIDIA vGPU 配置文件:

    “PCI 设备”选项卡,带有在多实例 GPU 共享模式下配置的 NVIDIA vGPU 配置文件。

  10. 单击下一步
  11. 查看并确认您的选择。
  12. 单击完成
  13. 验证虚拟机类列表中是否有新的自定义虚拟机类。

vGPU 和动态 DirectPath IO

如果要将 vGPU 与动态 DirectPath IO 一起使用,请完成以下其他配置。将第二个 PCI 设备配置添加到您创建的自定义虚拟机类中,并指定 动态 DirectPath IO,同时选择受支持的 PCI 设备。实例化此类型的虚拟机类时,将由 vSphere Distributed Resource Scheduler (DRS) 确定虚拟机放置。
  1. 选择工作负载管理
  2. 选择服务
  3. 选择虚拟机类
  4. 编辑配置了 NVIDIA vGPU 配置文件的自定义虚拟机类。
  5. 选择 PCI 设备选项卡。
  6. 单击添加 PCI 设备
  7. 选择动态 DirectPath IO 选项。

    ""

  8. 选择 PCI 设备

    例如:

    ""
  9. 单击下一步
  10. 查看并确认您的选择。
  11. 单击完成
  12. 验证虚拟机类列表中是否有新的自定义虚拟机类。