VMware 组建了一个站点可靠性工程师 (SRE) 团队,并通过自动化持续监控客户的 SDDC 环境。下面介绍了 VMware 自动执行以确保 SDDC 运行状况的流程。

虚拟机操作

孤立虚拟机自动修复
如果使用“无数据冗余/虚拟机 FTT=0”作为存储策略,则可能会在出现故障或虚拟机变得无响应时发生数据丢失的情况。如果发生故障且一个或多个虚拟机处于孤立状态,VMware 将执行清理操作。发生这种情况时,您将收到一封电子邮件通知。

vCenter 操作

超出 vCenter 会话(连接)上限
如果创建了多个会话但未清除, vCenter Server 可能会变得无法访问。这通常是由自动创建大量会话所致。这会生成自动警示,VMware 将重新启动 vCenter Server。发生这种情况时,您将收到一封电子邮件通知。
vCenter Server 重新引导
许多不同的问题可能需要重新引导 vCenter Server。一些问题可能需要立即重新引导以进行修复,而其他一些问题可能允许继续使用,近期需要重新引导。在后一种情况下,您将收到一封电子邮件通知,提醒您在接下来的 24 小时内将重新启动。重新引导后,正在进行的任务和应用程序连接可能需要重新启动。
移除过期的 vCenter CA 证书
某些产品集成会在 vCenter 中安装 CA 证书。如果 CA 证书已过期,可能会导致主机添加失败。过期的 CA 证书将被移除。

NSX 操作

管理平面 (NSX Manager) 重新启动
许多不同的问题可能需要重新启动 NSX Manager。一些问题可能需要立即重新引导以进行修复,而其他一些问题可能允许继续使用,近期需要重新引导。在 NSX Manager 重新启动的短暂时间内,您将无法访问 SDDC 网络和安全 UI。您不会收到有关 NSX Manager 重新启动事件的电子邮件通知。
NSX Edge 故障切换
如果我们的监控系统检测到 NSX Edge (活动)即将变得不正常,我们会调度在非高峰时段进行 NSX Edge 故障切换。这种已调度的故障切换作为主动措施进行,以避免在高峰时段发生的故障切换导致的中断。如果在调度的故障切换之前 NSX Edge(活动)出现问题,则会自动进行故障切换。如果我们调度了 NSX Edge 故障切换,您将收到电子邮件通知。

SDDC 操作

单主机 SDDC 故障
单主机 SDDC 起步配置没有 SLA,适用于概念证明或测试和开发用例。在单主机 SDDC 出现故障的情况下,VMware 不会执行任何修复。如果出现单主机 SDDC 故障,您将收到一封电子邮件通知。
SDDC 备份
我们每天在 0900Z 以及在任何计划的维护活动之前备份每个 SDDC。
  • 备份内容:vCenter ServervSAN 配置和 NSX。我们不会备份客户数据和工作负载虚拟机。
  • 备份保留:最长期限为 28 天,最多 56 个备份。备份存储方式:在 SDDC 区域内的 S3 中加密,并在删除 SDDC 时删除。您无法从备份中恢复已删除的 SDDC。
  • 管理组件的恢复由您的 SLA 控制。VMware 将决定是从备份中恢复还是从修复中恢复。

NFS 数据存储

数据存储可用性
如果 vSphere 主机无法访问 NFS 数据存储(全部路径异常)的时间超过 320 秒,vSphere HA 将关闭该主机上在受影响数据存储上存储了数据的所有虚拟机的电源。HA 将尝试在与数据存储具有正常连接的主机上重新启动虚拟机。
SDDC 运行状况
如果由于部分 NFS 数据存储可用性而无法重新定位正在运行的虚拟机,导致主机被阻止进入维护模式,则 VMware 操作将关闭有问题的虚拟机的电源。VMware 将尝试恢复任何受影响的工作负载,但虚拟机将保持关闭电源状态,直到恢复存储访问并重新打开虚拟机电源。