您可以通过执行运行状况检查来检查 vSphere Bitfusion 服务器的性能、稳定性、系统资源和软件版本。
您可以检查所选 vSphere Bitfusion 服务器的运行状况,并根据需要执行故障排除。运行状况检查将检查所选 vSphere Bitfusion 服务器的性能、稳定性、系统资源和软件版本以及服务器周围的 vCenter Server 环境。每个运行状况检查可能会返回“通过”、“不佳”或“严重”状态。
例如,运行状况检查会验证是否所有节点都在运行、是否有足够的可用空间以及与 vCenter Server 的连接是否正常。要查看所有可用运行状况检查的列表,请参见vSphere Bitfusion 中的运行状况检查列表。
通过在以下过程中取消激活运行状况检查,可以仅更改特定 vSphere Bitfusion 服务器的运行状况检查设置。取消激活的运行状况检查仍在后台执行,但该检查的状态不会改变服务器选项卡上显示的服务器的整体运行状况。可以在 选项卡上更改所有 vSphere Bitfusion 服务器的全局运行状况检查设置。
过程
下一步做什么
vSphere Bitfusion 中的运行状况检查列表
当从 vSphere Bitfusion 插件启动服务器的运行状况检查时,vSphere Bitfusion 会执行以下检查。
运行状况检查列表
名称 | 类型 | 描述 |
---|---|---|
cass_buckets |
稳定性 | 验证 Cassandra 用来存储利用率和其他项目数据的存储桶。 |
cass_node_num |
稳定性 | 确认 Cassandra 和 Bitfusion 在集群中看到的服务器数量相同。 |
cass_nodetool |
稳定性 | 确认 Cassandra 看到集群处于正常运行状态。 |
cass_replication |
稳定性 | 确认复制因子。 |
compute_mode |
稳定性 | 确认 GPU 已正确设置计算模式。 |
network |
稳定性 | 验证网络上是否存在丢弃的数据包。 |
ecc |
稳定性 | 验证 GPU 上是否存在任何 ECC 错误。 |
gpu_api |
稳定性 | 确认 GPU API 是匹配的。 |
pci_nvml |
稳定性 | 确认可以枚举所有 GPU。 |
pci_p2p |
稳定性 | 验证是否支持 PCIe P2P。 |
temperature |
稳定性 | 验证 GPU 温度是否低于 100 摄氏度。 |
vcenter_check |
稳定性 | 验证服务器是否可以连接到 vCenter Server。 |
xid |
稳定性 | 验证是否存在任何 GPU Xid 故障。 |
bogomips |
性能 | 验证性能。该衡量指标由 Linux 内核使用。 |
hostmem |
性能 | 验证系统上是否有足够的主机内存。 |
iface_compat |
性能 | 验证网络配置是否有效。 |
memops |
性能 | 验证是否已为 GPU 启用 memops 。 |
mtu |
性能 | 验证是否已为网络启用巨型帧。 |
nvidia_stats |
性能 | 验证 GPU 的统计信息。 |
nvidia_topo |
性能 | 验证主机拓扑。 |
pci_width |
性能 | 验证 GPU 是否使用最大 PCIe 通道容量。 |
ulimit_n |
性能 | 验证最大文件描述符限制是否合适。 |
diskspace |
系统资源 | 确认服务器上的可用空间。 |
install |
系统资源 | 验证 Bitfusion 安装。 |
pciinfo |
系统资源 | 验证 PCI 配置。 |
shadow_mem |
系统资源 | 确认系统内存至少等于 GPU 上存在的帧缓冲区内存。 |
cuda_version |
软件版本 | 验证 CUDA 版本。 |
libdep |
软件版本 | 验证是否已安装 Bitfusion 的软件依赖关系。 |
driver_version |
软件版本 | 验证 NVIDIA 驱动程序版本。 |