要在 vSphere Bitfusion 服务器上执行故障排除或维护,必须从 vSphere Bitfusion 集群中移除该服务器。
在关闭 vSphere Bitfusion 服务器以进行维护或执行故障排除时,vSphere Bitfusion 集群的运行状况会发生变化。当集群运行状态不正常时,您无法添加 vSphere Bitfusion 服务器或执行集群备份操作。如果已有一半或更多服务器关闭,集群将无法运行。如果服务器要关闭较长一段时间,可以通过从集群中移除服务器来防止任何潜在风险。
执行以下过程可立即从 vSphere Bitfusion 集群中移除服务器。任何使用 GPU 的正在运行的应用程序都会立即发生 GPU 故障,并且通常会返回错误状况。
前提条件
- 可在服务器设置进行配置,以防止新的客户端连接到特定服务器。
- 确认服务器上没有正在运行的应用程序。
过程
结果
下一步做什么
- 如果从集群中删除了服务器而未删除虚拟机,请删除虚拟机上的 /etc/bitfusion/bitfusion-manager.yaml 配置文件,将虚拟机作为 vSphere Bitfusion 服务器重新激活,重新启动 vSphere Bitfusion 服务,然后打开虚拟机电源。有关详细信息,请参见《安装 VMware vSphere Bitfusion》和如何启动和停止 vSphere Bitfusion 服务中的“激活 vSphere Bitfusion 客户端”。
- 如果删除了服务器虚拟机,则可以通过创建一个虚拟机并部署 vSphere Bitfusion 服务器设备来将底层硬件重用为 vSphere Bitfusion 服务器。请参见如何安装后续 vSphere Bitfusion 服务器。