本节包含可帮助您对工作负载集群进行故障排除的提示。
有关对独立管理集群部署进行故障排除的信息,请参见管理集群问题故障排除。有关此版本中已知问题的其他解决办法,请参见发行说明或 VMware 知识库文章。
kubectl
删除用户、上下文和集群要通过删除 kubectl
的部分或全部用户、上下文和集群来清理其状态,请执行以下操作:
打开 ~/.kube/config
文件。
对于要删除的 user
对象,请运行:
kubectl config unset users.USER-NAME
其中,USER-NAME
是每个顶级 user
对象的 name
属性,如 config
文件中所列。
对于要删除的 context
对象,请运行:
kubectl config unset contexts.CONTEXT-NAME
其中,CONTEXT-NAME
是每个顶级 context
对象的 name
属性,如 config
文件所列,通常格式为 contexts.mycontext-admin@mycontext
。
对于要删除的 cluster
对象,请运行:
kubectl config unset clusters.CLUSTER-NAME
其中,CLUSTER-NAME
是每个顶级 cluster
对象的 name
属性,如 config
文件中所列。
如果 config
文件将当前上下文作为您删除的集群列出,请取消设置上下文:
kubectl config unset current-context
问题
如果尝试通过生成默认 Grafana 配置文件来安装 Grafana,安装将失败并显示 error: Secret in version "v1" cannot be handled as a Secret: illegal base64 data at input byte 4 (reason: BadRequest)
。
解决方案
手动创建密钥,并使用不带密钥标记的同一 YAML 文件安装 Grafana。
grafana.secret.*
条目。手动创建秘钥。
kubectl create secret generic grafana -n tanzu-system-dashboards --from-literal=admin=admin
部署软件包。
tanzu package install grafana \
--package grafana.tanzu.vmware.com \
--version AVAILABLE-PACKAGE-VERSION \
--values-file grafana-data-values.yaml \
--namespace TARGET-NAMESPACE
tanzu package repository
时出现错误问题
tanzu package repository
命令失败并显示错误。
解决方案
运行 kubectl get pkgr REPOSITORY-NAME -n NAMESPACE -o yaml
以获取有关错误的详细信息。
其中:
REPOSITORY-NAME
是软件包存储库的名称。NAMESPACE
是软件包存储库的目标命名空间。命令 tanzu package repository
可能会失败,并显示类似以下内容的错误:
错误 | 描述 | 解决方案 |
---|---|---|
NOT_FOUND |
存储库 URL 路径无效。 | 确保可从集群访问软件包存储库的 URL。 |
UNKNOWN 或 UNAUTHORIZED |
尝试连接到存储库时,可能会出现此错误。 | |
Ownership |
集群中已安装具有相同软件包存储库 URL 的存储库。 | 执行以下其中一项:
|
tanzu package installed
时出现错误问题
tanzu package installed
命令失败并显示错误。
解决方案
运行 kubectl get pkgi INSTALLED-PACKAGE-NAME -n NAMESPACE -o yaml
以获取有关错误的详细信息。
其中:
INSTALLED-PACKAGE-NAME
是已安装软件包的名称。NAMESPACE
是已安装软件包的命名空间。命令 tanzu package installed
可能会失败,并显示类似以下内容的错误:
错误 | 描述 | 解决方案 |
---|---|---|
Ownership |
集群中已安装具有相同名称的软件包。 | 运行 tanzu package installed list -A 以检查是否已安装要安装的软件包。如果已安装,您可能希望使用已安装的软件包、更新其版本或删除软件包以继续安装。 |
Evaluating starlark template |
缺少列出的配置值时,可能会出现此错误。 | 运行 tanzu package available get AVAILABLE-PACKAGE-NAME/VERSION -n NAMESPACE –values-schema 以查看所有可用的配置值,并向 tanzu package install 命令提供所需的配置值。 |
Failed to find a package with name PACKAGE-NAME in namespace NAMESPACE |
指定的软件包和软件包元数据在目标命名空间中不可用。 | 确保指定的软件包列在 tanzu package available list AVAILABLE-PACKAGE-NAME -n NAMESPACE 的输出中。如果没有,请将包含软件包的软件包存储库添加到目标命名空间。 |
Namespace NAMESPACE not found |
要在其中安装软件包的命名空间不存在。 | 在 TKG v2.1 和更高版本中,tanzu package 命令基于 kctrl 且不再支持 —create-namespace 标记。在安装软件包或软件包存储库之前,目标命名空间必须已存在。 |
Provided service account SERVICE-ACCOUNT-NAME is already used by another package in namespace NAMESPACE |
带有 service-account-name 标记的服务帐户已由另一个已安装的软件包使用。 |
允许软件包插件为您创建服务帐户,或者选择其他服务帐户名称。 |
问题
在创建的集群上运行 kubectl get pods -A
时,某些 Pod 仍处于挂起状态。
在受影响的 pod 上运行 kubectl describe pod -n pod-namespace pod-name
并看到以下事件:
n node(s) had taint {node.cloudprovider.kubernetes.io/uninitialized: true}, that the pod didn't tolerate
解决方案
确保已实施连接和防火墙规则,以确保集群与 vCenter 之间存在通信。有关防火墙端口和协议要求,请参阅 VMware Ports and Protocols 中的 vSphere8 列表。
StorageClass
对象会导致工作负载集群中协调失败问题
修改 TKG 中包含的默认 StorageClass
对象的属性会导致使用该存储类的工作负载集群中的软件包协调失败。
解决方案:
要自定义存储类,请使用不同的 name
创建新的 StorageClass
定义,而不是修改默认对象定义,然后重新配置集群以使用新的存储类。
问题
运行 tanzu cluster create
失败,并显示类似于以下内容的超时错误:
I0317 11:11:16.658433 clusterclient.go:341] Waiting for resource my-cluster of type *v1beta1.Cluster to be up and running
E0317 11:26:16.932833 common.go:29]
Error: unable to wait for cluster and get the cluster kubeconfig: error waiting for cluster to be created (this may take a few minutes): cluster control plane is still being initialized
E0317 11:26:16.933251 common.go:33]
解决方案
使用 --timeout
标记指定等待集群创建完成的时间。默认等待时间为 30 分钟。
tanzu cluster create --timeout TIME
其中 TIME
是等待集群创建完成的时间长度(以分钟为单位)。例如,60m
。
问题
tanzu cluster delete
无法删除工作负载集群。
要手动删除集群,请参见下面的两个解决方案。
解决方案 1
在目标集群上,删除在 avi-system
命名空间中运行的 AKO 的 StatefulSet 对象:
kubectl delete sts ako -n avi-system
解决方案 2
登录到集群并删除工作线程计算机:
kubectl delete machine worker1 worker2
在 vCenter 中,关闭工作节点虚拟机的电源并将其删除。
编辑控制平面计算机并移除“完成器”链接:
finalizers:
- machine.cluster.x-k8s.io
删除控制平面计算机:
kubectl delete machine controlplane1 controlplane2
在 vCenter 中,关闭控制平面虚拟机的电源并将其删除
问题
集群中工作节点上的最大传输单元 (MTU) 设置不同会导致 TLS 握手超时。
节点上 journalctl -u kubelet
中的日志显示与 API 服务器的通信失败。运行 kubectl get nodes
显示工作节点已变为 NotReady 状态。
您可以通过执行以下操作重新确认该问题:
ip link
并比较 eth0
接口的 MTU 值。如果不匹配,则表明存在此问题。确认在处于 NotReady 节点状态的计算机上运行以下命令时,这些命令失败:
openssl s_client -connect IP:PORT
curl IP:PORT -k /healthz
其中,IP
和 PORT
是 Kubernetes API 服务器控制平面端点的 IP 地址和端口号。默认情况下,PORT
设置为 6443
。
解决方案
查看集群上部署的特权守护进程集,并查看可能修改主机操作系统的网络配置的第三方供应商提供的任何守护进程集。您可能需要咨询软件供应商以了解这一点。可以修改主机操作系统的守护进程集将在任何容器安全上下文的功能(capabilities) 字段中具有 .spec.template.spec.hostNetwork: true
或 privileged: true
或 NET_ADMIN
。
如果要配置较大的 MTU 设置,请使用具有较高 MTU 值的控制平面置备集群。
确保集群网络允许路径 MTU 发现或具有 TCP MSS 限制,以便对外部服务(如 vCenter 或容器注册表)进行正确的 MTU 大小调整。
确保为集群中的所有节点配置相同的 MTU 设置。
网络防火墙设置必须允许配置 MTU 大小的数据包。
问题
如果对工作负载 (AVI_ENABLE
) 或控制平面 (AVI_CONTROL_PLANE_HA_PROVIDER
) 使用 NSX Advanced Load Balancer,Avi 控制器可能无法区分名称相同的集群。
解决方案:
为每个集群设置唯一的 CLUSTER_NAME
值:请勿创建多个具有相同 CLUSTER_NAME
并且也位于同一管理集群命名空间的工作负载集群,如其 NAMESPACE
值所设置。
问题
在 Azure vSphere 解决方案 (AVS) 上,删除 vSphere CSI 持久卷 (PV) 可能会失败。删除 PV 需要 cns.searchable
权限。未使用此权限创建 AVS 的默认管理员帐户 <[email protected]>
。有关详细信息,请参见 vSphere 角色和权限。
解决方案
要删除 AVS 上的 vSphere CSI PV,请联系 Azure 支持部门。
问题
tanzu cluster delete
和 tanzu management-cluster delete
命令在使用 AWS Cloud Controller Manager 创建的网络连接资源的集群中可能会挂起,而与 Tanzu Kubernetes Grid 部署过程无关。此类资源可能包括负载均衡器和其他网络服务,如 Kubernetes AWS 云提供商文档中的服务控制器中所列。
有关详细信息,请参见集群 API 问题引流服务类型的工作负载集群 = 拆卸时的 Loadbalancer。
解决方案
使用 kubectl delete
从集群中删除类型为 LoadBalancer
的服务。或者,如果失败,请使用 AWS 控制台手动删除 Cloud Controller 管理器为此服务创建的任何 LoadBalancer
和SecurityGroup
对象。
注意不要删除 Tanzu 管理的负载均衡器或安全组,这些负载均衡器或安全组具有
key: sigs.k8s.io/cluster-api-proider-aws/cluster/CLUSTER-NAME
,value: owned
标记。
问题
对于未受管资源组中的 Azure 工作负载集群,当 Azure CSI 驱动程序创建持久卷 (PV)(该持久卷使用具有专用端点的存储帐户)时,它会创建一个 privateEndpoint
和 vNet
资源,但删除 PV 时不会删除这些资源。因此,删除集群将失败,并显示类似以下内容的错误:subnets failed to delete. err: failed to delete resource ... Subnet management-cluster-node-subnet is in use
。
解决方案:
在删除 Azure 集群之前,手动删除存储帐户专用端点的网络接口:
networkinterfaces
下,选择无法删除的网卡资源。