您可以通过 Kubernetes Container Clusters UI 插件在 Tanzu Kubernetes Grid 集群中配置、激活和停用节点运行状况检查参数。

节点运行状况检查功能包括两部分:
  • 检测
  • 修复
注: 节点运行状况检查出错时自动修复在功能上有所不同。 节点运行状况检查仅在集群状态变为 可用后,检测并修复集群中不正常的节点,而 出错时自动修复则是在集群状态变为 可用前之,如果集群状态变为错误,则会重新尝试创建集群。
注:VMware Cloud Director Container Service Extension 4.1 及更高版本中, 节点运行状况检查默认处于停用状态。

节点故障检测

VMware Cloud Director Container Service Extension 4.1 及更高版本可以检测出 Tanzu Kubernetes Grid 集群中的节点变得不正常。当节点处于不正常状态时,Kubernetes Container Clusters UI 插件会在集群信息页面中反映可用和所需的节点计数,同时,在同一页面的事件部分中显示故障信息。

节点可能会由于以下原因变得不正常,但不限于
  • 网络中断
  • 电源中断
  • 由于内存、CPU 或磁盘利用率高,节点速度较低
  • 节点启动失败
  • 无法加入集群

节点修复

VMware Cloud Director Container Service Extension 4.1 开始, 节点运行状况检查功能可检测 Tanzu Kubernetes Grid 集群中的节点故障,并自动将不正常的 Kubernetes 节点替换为新节点。节点运行状况检查参数是 VMware Cloud Director Container Service Extension 服务器设置和服务器更新工作流所需的全局设置, Kubernetes Container Clusters UI 插件将使用这些参数创建集群或更新所有组织中的集群设置。有关详细信息,请参见 更新 VMware Cloud Director Container Service Extension 服务器。服务提供商可以随时返回到 更新服务器选项卡,重新配置 节点运行状况检查参数。如果服务提供商未专门配置 节点运行状况检查参数,则会设置以下默认值:
表 1. 节点运行状况检查配置
节点运行状况检查参数 默认值 描述
最大不正常节点数 100%

当不正常节点的百分比超过此值时,修复将挂起。当默认值为 100% 时,这意味着始终修复集群。如果默认值为 0%,则表示集群不会修复。

节点启动超时 900 秒

如果节点未在此时间范围内启动,则会将其视为不正常且已修复。对于给定的 VMware Cloud Director 环境,建议服务提供商将节点运行状况检查参数设置为创建和引导 VM 时间的至少两倍。

节点状态“未就绪”超时 300 秒 如果新加入的节点无法托管工作负载的时间超过此超时时间,则会将其视为不正常且已修复。
节点状态“未知”超时 300 秒 如果正常节点的无法访问时间超过此超时时间,则会将其视为不正常且已修复。
租户用户在创建集群时使用服务提供商为其组织设置的 节点运行状况检查参数。有关详细信息,请参见 创建 Tanzu Kubernetes Grid 集群
注: 服务提供商更新 节点运行状况检查参数时,不会修改已部署 Tanzu Kubernetes Grid 集群上的现有 节点运行状况检查参数。

VMware Cloud Director Container Service Extension 4.0.x 集群中激活或停用节点运行状况检查

租户用户也可以对在 VMware Cloud Director Container Service Extension 4.0.x 中创建的集群激活或停用节点运行状况检查

以下步骤概述了租户用户可以如何执行此操作:

  1. 登录到 VMware Cloud Director 门户,然后从顶部导航栏选择更多 > Kubernetes Container Clusters
  2. 单击集群名称,然后在集群信息页面中,单击设置
  3. 激活或停用节点运行状况检查开关,然后单击保存