VMware 组建了一个站点可靠性工程师 (SRE) 团队,并通过自动化持续监控客户的 SDDC 环境。下面介绍了 VMware 自动执行以确保 SDDC 运行状况的流程。

虚拟机操作

孤立虚拟机自动修复
如果使用“无数据冗余/虚拟机 FTT=0”作为存储策略,则可能会在出现故障或虚拟机变得无响应时发生数据丢失的情况。如果发生故障且一个或多个虚拟机处于孤立状态,VMware 将执行清理操作。发生这种情况时,您将收到一封电子邮件通知。

vCenter 操作

超出 vCenter 会话(连接)上限
如果创建了多个会话但未清除, vCenter Server 可能会变得无法访问。这通常是由自动创建大量会话所致。这会生成自动警示,VMware 将重新启动 vCenter Server。发生这种情况时,您将收到一封电子邮件通知。
vCenter Server 重新引导
许多不同的问题可能需要重新引导 vCenter Server。一些问题可能需要立即重新引导以进行修复,而其他一些问题可能允许继续使用,近期需要重新引导。在后一种情况下,您将收到一封电子邮件通知,提醒您在接下来的 24 小时内将重新启动。重新引导后,正在进行的任务和应用程序连接可能需要重新启动。

NSX 操作

管理平面 (NSX Manager) 重新启动
许多不同的问题可能需要重新启动 NSX Manager。一些问题可能需要立即重新引导以进行修复,而其他一些问题可能允许继续使用,近期需要重新引导。在 NSX Manager 重新启动的短暂时间内,您将无法访问 SDDC 网络和安全 UI。您不会收到有关 NSX Manager 重新启动事件的电子邮件通知。
NSX Edge 故障切换
如果我们的监控系统检测到 NSX Edge (活动)即将变得不正常,我们会调度在非高峰时段进行 NSX Edge 故障切换。这种已调度的故障切换作为主动措施进行,以避免在高峰时段发生的故障切换导致的中断。如果在调度的故障切换之前 NSX Edge(活动)出现问题,则会自动进行故障切换。如果我们调度了 NSX Edge 故障切换,您将收到电子邮件通知。

SDDC 操作

单主机 SDDC 故障
单主机 SDDC 起步配置没有 SLA,适用于概念证明或测试和开发用例。在单主机 SDDC 出现故障的情况下,VMware 不会执行任何修复。如果出现单主机 SDDC 故障,您将收到一封电子邮件通知。