要为 NVIDIA Grid vGPU 设备创建自定义虚拟机类,请参阅本主题。
使用 vGPU 配置文件创建自定义虚拟机类(v8 U2 P03 及更高版本)
NVIDIA vGPU(虚拟图形处理单元)支持多个虚拟机 (VM) 共享一个物理 GPU。要将 vGPU 与 TKGS 集群结合使用,请定义自定义虚拟机类。从本版本开始,新增了一个用于定义自定义虚拟机类的向导。与用于定义自定义虚拟机类的上一个方法不同,此方法将从设备中读取 vGPU 配置文件,而不是在虚拟机类中进行配置。
VM Operator 轮询 vCenter 清单,以获取部署了 主管 的 vSphere 集群中的 ESXi 主机上安装的所有 vGPU 设备。vGPU 设备定义其配置文件。vGPU 设备名称指示配置文件是多实例 GPU (MIG) 还是时间共享 GPU。MIG 将划分计算资源,支持多个工作负载在单个 GPU 上并行运行。时间共享支持共享访问 GPU。MIG 模式基于较新的 GPU 架构,仅在 NVIDIA A100 和 A30 设备上受支持。有关详细信息,请参考 NVIDIA 文档。
例如,GPU 设备“grid-a100-40c”提供了一个时间共享 vGPU 配置文件,该配置文件会将具有 40 GB 内存的 NVIDIA A100 GPU 设备分配给虚拟机。基于 MIG 的等效 vGPU 配置文件将是“grid-a100-7-40c”设备。您可以确定它是一个 MIG 配置文件,因为设备和 RAM 之间有一个额外的数字。“7”表示 GPU 设备上有 7 个计算切片。基于 MIG 的 vGPU 配置文件可以具有 1、2、3 或 7 个计算切片。
- 从 vSphere Client 主菜单中,选择 。
- 选择虚拟机类选项卡。
- 单击创建虚拟机类。
此操作将启动“创建虚拟机类”向导,指导您创建虚拟机类。
- 对于名称,输入虚拟机类的名称,然后单击下一步。
虚拟机类名称用于标识虚拟机类。输入遵循以下要求的唯一 DNS 合规名称:
- 使用与环境中的默认或自定义虚拟机类的名称不重复的唯一名称。
- 使用最大长度为 63 个字符的字母数字字符串。
- 请勿使用大写字母或空格。
- 在除第一个或最后一个字符外的任意位置使用短划线。例如,vm-class1。
- 创建虚拟机类后,即无法更改其名称。
- 对于兼容性,选择 ESXi 8.0 U2 及更高版本,然后单击下一步。
有关详细信息,请参见 Virtual Machine Compatibility。注: 创建虚拟机类后,无法更改其硬件兼容性。
- 对于
- 选择 。
- 从列表中选择所需的 NVIDIA Grid vGPU 设备。NVIDIA Grid vGPU 配置文件有两种类型:时间共享和多实例 GPU 共享。选择设备时,系统会检测到配置文件。
注: 只能向虚拟机类添加一个 MIG 配置文件类型的 NVIDIA GRID vGPU 设备。
- 单击选择,新 PCI 设备将显示在“虚拟硬件”选项卡中。
,将 NVIDIA GPU 设备添加到虚拟机类。
- 对于CPU、内存、新 PCI 设备、显卡和安全设备指定所需的设置。
表 1. CPU 配置 设置 配置 CPU 选择虚拟机的虚拟 CPU 数。有关详细信息,请参见虚拟 CPU 配置和限制。 CPU 拓扑 打开电源时分配 预留 预留必须介于 0 和 10 MHz 之间 限制 限制必须大于或等于 10 MHz 份额 选项包括“低”、“正常”、“高”、“自定义” 硬件虚拟化 选择此选项可向客户机操作系统公开硬件辅助的虚拟化 性能计数器 启用虚拟化 CPU 性能计数器 调度关联性 为此虚拟机选择物理处理器关联性。使用“-”表示范围,使用“,”分隔值。例如,“0, 2, 4-7”表示处理器 0、2、4、5、6 和 7。清除字符串以移除关联性设置。 I/O MMU 选择此选项可启用内存管理单元(页到磁盘) 表 2. 内存配置 设置 配置 内存 选择虚拟机的内存大小。有关详细信息,请参见虚拟机内存最大值。 预留 指定保证为虚拟机分配的最少资源量,或预留所有客户机内存。如果无法满足预留,则虚拟机将无法运行。 限制 选择要限制的内存量,以便对虚拟机的内存消耗加以限制。 份额 选择要共享的内存量。份额代表分配内存容量的相对度衡量指标。有关详细信息,请参见内存共享。 内存热插拔 启用(选中)可允许向已打开电源的虚拟机添加内存资源。有关详细信息,请参见内存热添加设置。 表 3. 新 PCI 设备 > GPU 共享配置 时间共享模式 MIG 模式 在时间共享模式下,vGPU 调度程序指示 GPU 在一段时间内按顺序为每个启用了 vGPU 的虚拟机执行工作,并将尽最大努力平衡各 vGPU 的性能。
MIG 模式允许多个启用了 vGPU 的虚拟机在单个 GPU 设备上并行运行。如果没有看到 MIG 选项,表示您选择的 PCI 设备不支持该选项。
表 4. 配置显卡 设置 配置 显卡 选择此选项可自动检测硬件的设置或输入自定义设置。如果选择自动检测,则无法配置其他设置。 显示器数量 选择显示器数量。 总显存 输入总显存(以 MB 为单位)。 3D 图形 选择此选项可启用 3D 支持。 表 5. 配置安全设备 设置 配置 安全设备 如果安装了 SGX 安全设备,则可以在此处配置虚拟机设置,否则无法配置此字段。有关详细信息,请参见 SGX 文档。
,为 - 选择配置虚拟机选项。 选项卡,然后配置任何其他虚拟机设置。有关指导,请参见
- 选择 选项卡,然后为虚拟机类添加任何属性。
- 单击下一步。
- 在查看并确认页面上,检查详细信息,然后单击完成。
- 将新虚拟机类与 vSphere 命名空间相关联。请参见将虚拟机类与 vSphere 命名空间 关联。
使用 vGPU 配置文件创建自定义虚拟机类(v8 U2 及更低版本)
下一步是创建包含 vGPU 配置文件的自定义虚拟机类。系统将在创建 TKG 集群节点时使用此类定义。
- 使用 vSphere Client 登录到 vCenter Server。
- 选择工作负载管理。
- 选择服务。
- 选择虚拟机类。
- 单击创建虚拟机类。
- 在配置选项卡上,配置自定义虚拟机类。
配置字段 描述 名称 输入自定义虚拟机类的自描述性名称,例如 vmclass-vgpu-1。 vCPU 计数 2 CPU 资源预留 可选,单击“确定”留空 内存 例如 80 GB 内存资源预留 100%(如果在虚拟机类中配置了 PCI 设备,则强制使用此值) PCI 设备 是 注: 针对 PCI 设备选择“是”将告知系统您使用的是 GPU 设备,并将更改虚拟机类配置以支持 vGPU 配置。有关详细信息,请参见 在 vSphere with Tanzu 中将 PCI 设备添加到虚拟机类。例如:
- 单击下一步。
- 在 PCI 设备选项卡上选择 选项。
- 配置 NVIDIA vGPU 型号。
NVIDIA vGPU 字段 描述 型号 从 菜单所提供的型号中选择 NVIDIA GPU 硬件设备型号。如果系统未显示任何配置文件,表示集群中的所有主机都不具有受支持的 PCI 设备。GPU 共享 此设置定义如何在启用了 GPU 的虚拟机之间共享 GPU 设备。vGPU 实施有两种类型:时间共享和多实例 GPU 共享。
在时间共享模式下,vGPU 调度程序指示 GPU 在一段时间内按顺序为每个启用了 vGPU 的虚拟机执行工作,并将尽最大努力平衡各 vGPU 的性能。
MIG 模式允许多个启用了 vGPU 的虚拟机在单个 GPU 设备上并行运行。MIG 模式基于较新的 GPU 架构,仅在 NVIDIA A100 和 A30 设备上受支持。如果没有看到 MIG 选项,表示您选择的 PCI 设备不支持该选项。
GPU 模式 计算 GPU 内存 例如 8 GB vGPU 数量 例如 1 例如,以下是在时间共享模式下配置的 NVIDIA vGPU 配置文件:
例如,以下是在具有受支持 GPU 设备的情况下在 MIG 模式下配置的 NVIDIA vGPU 配置文件:
- 单击下一步。
- 查看并确认您的选择。
- 单击完成。
- 验证虚拟机类列表中是否有新的自定义虚拟机类。
vGPU 和动态 DirectPath IO
- 选择工作负载管理。
- 选择服务。
- 选择虚拟机类。
- 编辑配置了 NVIDIA vGPU 配置文件的自定义虚拟机类。
- 选择 PCI 设备选项卡。
- 单击添加 PCI 设备。
- 选择动态 DirectPath IO 选项。
- 选择 PCI 设备。
例如:
- 单击下一步。
- 查看并确认您的选择。
- 单击完成。
- 验证虚拟机类列表中是否有新的自定义虚拟机类。