您可以通过执行运行状况检查来检查 vSphere Bitfusion 服务器的性能、稳定性、系统资源和软件版本。

您可以检查所选 vSphere Bitfusion 服务器的运行状况,并根据需要执行故障排除。运行状况检查将检查所选 vSphere Bitfusion 服务器的性能、稳定性、系统资源和软件版本以及服务器周围的 vCenter Server 环境。每个运行状况检查可能会返回“通过”、“不佳”或“严重”状态。

例如,运行状况检查会验证是否所有节点都在运行、是否有足够的可用空间以及与 vCenter Server 的连接是否正常。要查看所有可用运行状况检查的列表,请参见vSphere Bitfusion 中的运行状况检查列表

通过在以下过程中取消激活运行状况检查,可以仅更改特定 vSphere Bitfusion 服务器的运行状况检查设置。取消激活的运行状况检查仍在后台执行,但该检查的状态不会改变服务器选项卡上显示的服务器的整体运行状况。可以在设置 > 全局运行状况检查默认值选项卡上更改所有 vSphere Bitfusion 服务器的全局运行状况检查设置。

过程

  1. vSphere Client 中,选择菜单 (vSphere Client 菜单图标) > Bitfusion
  2. 服务器选项卡上,从列表中选择一个服务器。
  3. 操作下拉菜单中,选择运行状况
    此时将显示 运行状况日志对话框,并显示运行状况检查的结果。您会看到该检查的状态、类型、名称和详细信息。
  4. (可选) 要取消激活特定的运行状况检查,请单击切换按钮。
  5. 单击保存并退出

下一步做什么

vSphere Bitfusion 中的运行状况检查列表

当从 vSphere Bitfusion 插件启动服务器的运行状况检查时,vSphere Bitfusion 会执行以下检查。

运行状况检查列表

名称 类型 描述
cass_buckets 稳定性 验证 Cassandra 用来存储利用率和其他项目数据的存储桶。
cass_node_num 稳定性 确认 Cassandra 和 Bitfusion 在集群中看到的服务器数量相同。
cass_nodetool 稳定性 确认 Cassandra 看到集群处于正常运行状态。
cass_replication 稳定性 确认复制因子。
compute_mode 稳定性 确认 GPU 已正确设置计算模式。
network 稳定性 验证网络上是否存在丢弃的数据包。
ecc 稳定性 验证 GPU 上是否存在任何 ECC 错误。
gpu_api 稳定性 确认 GPU API 是匹配的。
pci_nvml 稳定性 确认可以枚举所有 GPU。
pci_p2p 稳定性 验证是否支持 PCIe P2P。
temperature 稳定性 验证 GPU 温度是否低于 100 摄氏度。
vcenter_check 稳定性 验证服务器是否可以连接到 vCenter Server
xid 稳定性 验证是否存在任何 GPU Xid 故障。
bogomips 性能 验证性能。该衡量指标由 Linux 内核使用。
hostmem 性能 验证系统上是否有足够的主机内存。
iface_compat 性能 验证网络配置是否有效。
memops 性能 验证是否已为 GPU 启用 memops
mtu 性能 验证是否已为网络启用巨型帧。
nvidia_stats 性能 验证 GPU 的统计信息。
nvidia_topo 性能 验证主机拓扑。
pci_width 性能 验证 GPU 是否使用最大 PCIe 通道容量。
ulimit_n 性能 验证最大文件描述符限制是否合适。
diskspace 系统资源 确认服务器上的可用空间。
install 系统资源 验证 Bitfusion 安装。
pciinfo 系统资源 验证 PCI 配置。
shadow_mem 系统资源 确认系统内存至少等于 GPU 上存在的帧缓冲区内存。
cuda_version 软件版本 验证 CUDA 版本。
libdep 软件版本 验证是否已安装 Bitfusion 的软件依赖关系。
driver_version 软件版本 验证 NVIDIA 驱动程序版本。